昨日,传来医疗AI界万众翘首期盼的消息。
“人工智能类医疗器械注册申报公益培训”悄然在北京开幕,整个会议仅持续一下午,却隐含了医疗AI领域所共同关注的三类器械审批信息,里程碑式的胜利就此展开?
在本次会上,药监局细致入微的分析了影响医疗人工智能器械审批的每一个过程,细化到对每个指标进行了详尽的讲解,这是一场名副其实的“AI医疗注册申报培训”。
同时,会上介绍,截至2018年11月底,药监局收到创新特别审批申请1054项,192项同意按照特别程序审批。51项创新医疗器械已通过特别程序获准上市。遗憾的是,会上并未透露AI相关产品过审的信息。
据相关人士透露,国家药品监督管理局已经理清了AI审批全流程的思路,审批通道已于12月中旬开放,然而,高标准下,还无一企业进行AI三类器械产品申报。不过,标准出台后,一切只是时间问题。
在此,记者对整个会议的内容进行了梳理,尝试帮助医疗AI的从业人员理清药监局审批的思路与要点,其内容包括主要包括以下四个方面:
一、审批流程;
二、审批要点解读;
三、肺结节、糖网病变的临床试验设计及问题思考;
四、申报材料等其他信息。
第一部分:审批总体思维、原则及流程
医疗器械注册是一项行政许可制度,是食品药品监督管理部门根据医疗器械注册申请人的申请,依照法定程序,对其拟上市医疗器械的安全性、有效性研究及其结果进行系统评价,以决定是否统一其申请的过程。
从总体思维上看,医疗器械申报以分类管理为基础,以风险高低为依据,确定医疗器械注册与备案的具体要求,其具体的申报流程如下图所示:
第二部分:审批要点解读
审批要点解读是本次会议的核心,本次会议系统性的讲解了医疗AI产品在审批过程中所面临数据库、数据安全、软件更新、产品适用、云计算服务等问题,涵盖了人工智能的产品的每一个要素,研究人员甚至可以根据这一套指标设立明确的评分。
1、适用范围
按照适用范围,AI产品可通过下属三个因素进行分类:
深度学习辅助决策医疗器械软件:
包括医疗器械数据、深度学习、辅助决策、医疗器械软件。
软件类型:
可分为AI独立软件(本身即为医疗器械的AI软件)
AI软件组件(医疗器械内含的AI软件)。
软件用途:
辅助决策;
辅助筛查、识别、诊断、治疗等-非辅助决策;
前处理、流程优化、常规后处理。
2、风险考量
风险考量即是对AI产品在使用过程中的风险进行评价,以达到抑制风险,提高AI产品可靠性的目的。主要包括以下两大类因素的考量。
临床使用风险
假阳性:误诊,过度医疗风险。
假阴性:漏诊,快速进展疾病风险。
进口软件:中外差异(人种、流行病学、临床诊疗准则)。
风险管理活动
要素:预期用途(目标疾病、临床用途、重要程度、紧迫程度)、使用场景(患者人群目标用户、使用场所、临床流程)、核心功能(处理对象、功能类型)。
措施:设计、防护、警示。
要求:贯穿于软件全生命周期过程。
3、需求分析
需求分析以临床需求与使用风险为导向,结合预期用途、使用场景和核心功能,综合考虑法规、标准、用户、产品、数据、功能、性能、接口、用户界面、网络安全等需求。在此情况下,企业需重点关注:
数据收集:目标疾病流行病学特征,如疾病构成(分型、分级、分期)、人群分布(健康状态、性别、年龄)、统计指标(患病率、治愈率)、并发症与类似疾病等。
算法性能:假阳性与假阴性指标、重复性与再现性、鲁棒性/健壮性。
临床使用限制:临床禁用、慎用等场景
4、软件确认
软件确认即以提供客观证据认定软件满足用户需求和预期目的,包括软件确认测试(用户测试)、临床评价(若适用)、评审等系列活动。
临床评价是此类软件进行确认的主要方式,主要包括两个原则。
软件指导原则:基于临床试验的临床评价资料,即软件的临床试验资料或与软件核心算法具有实质等同性的同品种产品临床试验资料。
进口软件:评估中外差异,若存在显着差异应在中国开展临床试验;而使用境外临床试验数据应当满足相应指导原则要求。
5、临床试验
临床试验需基于软件的预期用途、使用场景和核心功能,按照诊断试验进行临床试验设计,其核心要点包括以下四项:
试验设计:建议优先选择同品种产品或临床参考标佳进行非劣效对照设计,次之可选择用户结合软件联合决策与用户单独决策进行优效对照设计;非劣效或优效界值的确定应有充分临床依据。
观察指标:以敏感性、特异性、ROC/AUC为主要指标 ,亦可选择时间效率等指标作为评价指标
入排标准:基于目标疾病的流行病学特征
来源机构:异于训练数据主要来源机构,地域分布尽可能广泛,机构数量需尽可能多。
6、回顾性研究
为鼓励创新并降低临床试验成本,临床试验可使用回顾性数据,但应在设计时考虑并严格控制偏倚问题,原则上应当包含多个不同地域临床机构(非训练数据主要来源机构)的同期数据。
使用原则(基于风险),软件安全性级别判定详见软件指导原则:
对于高风险软件:临床预试验或临床试验补充。
对于中风险次件:临床预试验或替代临床试验。
7、软件更新基本原则
软件更新应当考虑对软件安全性和有效性的影响(正面和负面),注意软件更新是导致软件召回的主要原因之一。
监管部门将对以下程度的更新进行监管:
重大软件更新:许可事项变更。
轻微软件更新:质量体系控制,无需申请注册变更。
软件版本命名规则:
明确并区分重大软件更新和轻微软件更新,其中重大软件更新应当列举全部典型情况,应涵盖算法驱动型、数据驱动型软件更新。
8、重大软件更新要点
常见更新类型包括算法驱动型更新与数据驱动型更新,算法驱动型更新包括软件所用算法、算法结构、算法流程、所用框架、输入与输出等发生改变;数据驱动型指仅由训练数据量增加加而促使软件更新
对于重大软件更新,判定需遵循以下原则:
算法驱动型软件更新通常属于重大软件更新。
数据驱动型软件更新若导致算法评估结果发生显着性改变(与前次注册相比)则属于重大软件更新。
其他类型重大软件更新的判定准则详见软件指导原则、网络安全指导原则
9、验证与确认
无论何种软件更新,均应按照质量管理体系要求,开展与软件更新类型、内容和程度相适宜的验证与确认活动。而算法驱动型和数据驱动型软件更新均应开展算法性能再评估、临床再评价。
其中,临床再评价(基于风险)包括:
高风险软件:适用范围变更应当开展临床试验,其他情况原则上可使用回顾性研究。
中低风险软件:可使用回顾性研究。
10、适用范围扩展
根据要求,全部AI软件功能均应开展需求分析、数据收集(若适用)、算法设计、 软件确认;每项AI软件功能应独立开展需求分析、 数据收集(若适用)、算法设计、软件确认。
对于深度学习非辅助决策软件则需遵循以下步骤:
前处理:算法性能评估、临床评价。
流程优化:算法性能评估。
常规后处理:算法性能评估,必要时临床评价。
11、第三方数据库
第三方数据库视为回顾性研究一种特殊形式,可用于算法性能评估,但未必能够完全满足软件确认的要求。
第三方数据库类型包括测评数据库与非测评数据库。评测数据库可用于软件确认,非测评数据库(如公开数据库)不可用于软件确认 。
12、评测数据库
测评数据库需满足网络与数据安全、可扩展性等因素。具体要求如下:
权威性:数据标注应由相应权威临床机构负责。
科学性:样本量、样本分布应符合统计学要求。
规范性:数据治理应建立质控程序并可追溯。
多样性:数据应来源于多个临床机构。
封闭性:应封闭管理,且样本总量远大于单次测试量。
动态性:应定期更换一定比例数据。
13、网络与数据安全过程控制
无论企业上市前还是上市后,除考虑软件自身网络安全能力建设外,企业还应当在软件全生命周期过程中考虑网络与数据安全过程控制要求,
基本考量指标包括:脱敏数据转移、封闭与开放网络环境、数据接口兼容性、数据备份与恢复。
14、云计算服务与移动计算终端
云计算服务应明确服务模式、部署模式、核心功能、数据接口、网络安全能力和服务(质量)协议。
移动计算终端需结合终端的类型、特点和使用风险明确性能指标要求。详见移动器械指导原则、网络安全指导原则
15、适用范围
AI独立软件的适用范围包括以下场景:
明确预期用途、使用场景和核心功能。
包括但不限于处理对象、目标疾病、临床用途、患者人群、目标用户、使用场所、数据采集设备要求(若适用)、临床使用限制(若适用)。
AI软件组件的适用范围可参照Al独立软件要求,并在产品适用范围中予以体现。
16、研究资料
研究资料包括软件描述文档、网络安全描述文档、软件版本命名规则.
软件描述文档要求核心算法部分应当结合本审评要点提供相应算法研究资料,以及测试集、公开数据库、测评数据库、回顾性研究、临床试验的算法性能评估结果比较分析资料。
研究资料其他资料应当提供网络与数据安全过程控制研究资料、第三方数据库(测评、公开)的基本信息(如名称、创建者、数据量、数据分布)和使用情况(如使用量、数据分布、比重、资质)。
17、说明书
辅助决策软件应明确软件的适用范围、临床使用限制、注意事项、用户培训、数据采集设备要求、数据采集操作规范、输入与输出、算法性能评估总结(测试集基本信息、评估指标与结果)、临床评价总结(临床数据基本信息、评价指标与结果)等信息
深度学习辅助决策软件除上述内容外还应当补充算法训练总结信息(训练集基本信息、训练指标售与结果)。
第三部分(上):肺结节临床试验设计及问题思考
“肺结节的临床试验设计与问题思考”这一议题的内容由四川大学华西医院刘伦旭主任制作。肺结节一直在医疗人工智能领域处于核心研究方向,其审批标准的探讨已经持续了接近一年之久。然而人工智能的审批本就是一个极其复杂且极其严谨的问题。刘伦旭主任在会上总结肺病外科诊治临床问题,尝试构架完善的研究设计。
基于胸外科领域目前存在的若干实际临床问题,研究人员应从手术指征判断、手术方式选择和术后预后预测模型三方面构建胸外科肺癌诊治智能化系统。
手术指征判定包括:
1. 肺结节智能定位和定性识别;
2. 纵隔窗淋巴结智能定位与定性识别;
3. GGO图像特征提取与腺癌形成各时期相关性分析;
4. 多原发癌和肺内转移影像谱特征鉴定和鉴别。
手术方式选择:
1. 基于图像分割和三维重建的肺段可视化及小结节定位手术方式选择
2. 基于神经网络的淋巴结转移精准预测
3. 基于胸部影像谱顶测小结节STAS和微乳头成分
术后预后预测:
1. 基干神经网络的术后并发症预测模型构建
2. 基于多种数据类型的肺癌术后复发转移模式、预后预测模型构建
3. 基于影像类数据驱动基因突变和免疫检查变化
4. 未知(因PPT缺失)
基于神经网络的术后并发定预测模型构建,官方调研了8465例接受了手术治疗的肺癌患者,其中1453例发生术后并发症。
在这其中随机选取250例术后发生并发症患者,并选取250例未发生患者作为测试集;剩余7965例数据作为训练集, 在训练集上训练神经网络模型。
经过数据整理,模型的动态识别模型效能为88.0%,识别率为81.2%,查全率为73.2%,查准率为87.14%。这是现阶段人工智能产品在临床中实现的理想数据。
第三部分(下):糖尿病视网膜病变AI辅助诊断临床试验设计中的问题及思考
“糖尿病视网膜病变AI辅助诊断临床试验设计中的问题及思考”由四川大学华西医院刘伦旭主任讲解。会上总共提到了三种糖网AI临床试验的方法,这里收录了其中两种:
1. 以产品有效性为参考,在实际中,AI产品应满足“AI>医生”,若强调AI对医生的辅助作用,则满足“医生+AI>医生”。
从理论上这是一个很好的临床评价方法,但实际评价结果与医生水平有很大关系。在目前临床试验下,公司多选取三甲医院来做,这导致AI辅助作用被弱化。而基层医院的医生水平参差不齐,很难设一个统的标准,所以Al主要的应用场景是在基层医院/体检中心的辅助筛查和辅助诊断。
2. 以单组目标值作为参考,主要观察AI产品性能与其声称的性能是否一致;是否FDA已经批准的IDX-DR产品采用的临床试验方法。与有效性相比,这种方法受人为因素的干扰较小,具有比较好的客观性。
在这一类AI产品中,企业必须严格进行数据控制,同时考虑诸多不同的场景,如考虑辅助筛查、辅助诊断、随诊分析的流程差异;三甲医院、基层医院、体检中心等场景差异;不同场景和机型下的图片质量差异;是否需辅助转诊:需要不需要转诊等。
第四部分:受理前咨询、申报材料等其他信息
受理前咨询全称为医疗器械注册受理前技术问题咨询,其范围主要包括医疗器械注册申报前的相关问题,不包含技术审评过程中的相关问题。
受理前咨询申请每周五下午1:00至4:00,地点为北京市西城区宣武门西大街大成广场行政受理服务大厅。
境内申请人携带:申请人出具的涵盖相关委托内容的委托书、个人有效身份证件、医疗器械技术审评中心咨询登记表。
境外申请人携带:境外申请人指定境内企业法人作为代理人的委托书、境内代理人出具的涵盖相关委托内容的委托书、个人有效身份证件、医疗器械技术审评中心咨询登记表。
申请人(与申请表盖章单位一致)对委托办事人员及所办事项的委托书(见关于办理受理和领取批件等行政许可事项的公告(第169号)(附件D),办事人员需携带身份证明原件、复印件及注册申报资料。
总结
关于AI类医疗器械创新申请目前还没有太多的审查经验。会上药监局提到了以下几点建议:
1. 规范的医疗器械产品名称;
2. 有明确的软件预期用途、使用场景、核心功能、运行环境;
3. 使用的数据应来自临床机构。且说明来源机构及采集要求;
4. 提供算法设计的相关资料。包括算法选择及训练;
5. 提供真实临床数据的软件验证资料;
6. 能够支持产品具有显着临床应用价值的数据资料。
由于审批条件较多,对于当前的许多人工智能企业而言,其中的部分条款可能相对较为苛刻,企业仍在准备相关材料,据几家人工智能头部企业透露,本次申请过程存在细节多、标准高的特点,他们正在提交资料申请备案,但由于没有先例,对后续结果没法进行其他判断。
当然,严格的把关凸显了我国发展AI的决心,这样落地的产品必然是能经得起医院、医生、患者考量的产品。同时,有了审批标准化的指引,企业也有了为之奋斗的明确目标,剩下的,不过只是时间问题。