联系电话:13632965600(熊)
根据《深度学习辅助决策医疗器械软件审评要点》,人工智能(AI)医疗软件类临床试验设计需要基于软件的预期用途(辅助决策、辅助筛查、识别、诊断、治疗等-非辅助决策)、使用场景和核心功能(前处理、流程优化、常规后处理)进行试验设计,确定观察指标、样本量估计、入排标准、随访以及实施机构等要求,来验证软件的安全性和有效性。
1.试验设计类型:
a.建议优先选择同品种产品或临床参考标准(即临床金标准)进行非劣效对照设计,例如:超声辅助诊断软件系统可选择同品种分析产品,如没有同品种的情况,可选择临床金标准方法(由2名高年资病理医师一致判定的结果作为金标准)采用同期自身配对设计。
b.若无同品种产品,且难以获取临床参考标准(如违背伦理)可选择用户结合软件联合决策(医生+AI)与用户单独决策(医生)进行优效对照设计;非劣效或优效界值的确定应有充分临床依据。考虑到用户的差异性,可选择多阅片者多病例(MRMC)试验设计。
2.观察指标:建议结合适用人群、病变等层面选观察指标,一般选择敏感性、特异性、ROC/AUC作为主要观察指标,亦可以在此基础上根据软件特点选择敏感性/特异性衍生指标、ROC/AUC衍生指标、组内相关系数、Kappa系数、时间效率、数据有效使用率等指标作为观察指标。
3.入排标准:应当基于目标疾病的流行病学特征目,如疾病构成(分型、分级、分期)、人群分布(健康状态、性别、年龄)、统计指标(患病率、治愈率)、并发症与类似疾病等保证阳性样本和阴性样本选取得合理性和充分性。
4.实施机构:不同于训练数据主要来源机构,地域分布尽可能广泛(涵盖全国东西南北中区域)机构数量尽可能多,以确认算法泛化能力)。
例如:用于大样本量辅助筛查的软件,以提高辅助诊断时间的时间效率为首要目标的某些软件,注重挺高诊断的灵敏度,无同品种产品也无临床参考的金标准,其临床设计可选择用户结合软件(医生+AI)联合决策与用户单独决策(医生)进行交叉对照设计,以敏感性、特异性、时间效率作为主要观察指标,其中敏感性、特异性可以为非劣效性对照,时间效率指标应当为优效指标应当为优效对照。
5.样本的选择:为鼓励创新并降低临床试验成本, 临床试验可使用回顾性数据 ,但应在设计时考虑并严格控制偏倚问题,原则上应当包含多个不同地域临床机构(非训练数据主要来源机构)的同期数据。
使用原则(基于风险),软件安全性级别判定详见软件指导原则:
1) 高风险软件:适用范围变更应当开展临床试验,其他情况原则上可使用回顾性研究。
2) 中低风险软件:可使用回顾性研究。
例如国家局发布的“人工智能类医疗器械注册申报公益培训”上糖尿病视网膜病变的相关要求,总共提到了三种糖网AI临床试验的方法,这里介绍其中两种。
3)以产品有效性为参考,在实际中,AI产品应满足“AI>医生”,若强调AI对医生的辅助作用,则满足“医生+AI>医生”。
从理论上这是一个很好的临床评价方法,但实际评价结果与医生水平有很大关系。在目前临床试验下,公司多选取三甲医院来做,这导致AI辅助作用被弱化。而基层医院的医生水平参差不齐,很难设一个统的标准,所以Al主要的应用场景是在基层医院/体检中心的辅助筛查和辅助诊断。
4)以单组目标值作为参考,主要观察AI产品性能与其声称的性能是否一致;是否FDA已经批准的IDX-DR产品采用的临床试验方法。与有效性相比,这种方法受人为因素的干扰较小,具有比较好的客观性。
在这一类AI产品中,企业必须严格进行数据控制,同时考虑诸多不同的场景,如考虑辅助筛查、辅助诊断、随诊分析的流程差异;三甲医院、基层医院、体检中心等场景差异;不同场景和机型下的图片质量差异;是否需辅助转诊,需要不需要转诊等。
电话:13632965600(熊)
邮箱:65009158@qq.com
地址:深圳市南山区高新南一道创维大厦A座西901