11月8日到10日,“第二届北京生物统计及数据科学论坛” 在北京大学成功举办。本次论坛以“医疗器械设计及评价方法”为主题,结合生物统计和数据科学最新的研究进展,从多个角度进行了深入研讨。论坛由北京大学公共卫生学院生物统计系、北京大学数学科学学院、北京国际数学研究中心、北京大学统计科学中心、中国现场统计研究会生物医学统计学会联合主办,大数据分析与应用技术国家工程实验室、北京大数据研究院、国际生物统计学会中国分会、北京灵迅医药科技有限公司协办。来自政府监管部门及有关机构权威人士,学术界,企业界等300余名专家学者出席。北京大学副校长,北京国际数学研究中心主任,中国科学院院士田刚北京大学副校长田刚,北京大学医学部副主任肖渊,北京大学生物统计系北京大学公共卫生学院生物统计系系主任、北京大学博雅讲席教授周晓华分别在开幕式致辞。
北京大学副校长 田刚院士致辞
北京大学公共卫生学院生物统计系系主任 周晓华教授致辞
本次论坛分为短课培训与会议两个环节。短课主题为“医疗器械设计及评价方法”,由周晓华教授和美国FDA医疗器械评审中心生物统计部前部长GREG CAMPBELL联合主讲,主要介绍了诊断及治疗类医疗器械的设计要点及统计分析模型。现场座无虚席,超过200余人参加了培训。
在论坛环节,来自国家药品监督管理局医疗器械审评中心,中国食品药品检定研究院,美国国立卫生研究院(National Institute of Health)、国家心血管病中心等国家监管部门,美国宾夕法尼亚大学、中佛罗里达大学、爱荷华大学、北京大学等学术机构,北京协和医院等医院机构,强生公司、推想科技等企业的有关专家学者分享了医疗器械的统计方法研究的国际最新进展及应用成果、探讨了大数据背景下医疗器械未来的发展方向和前景。
医疗器械可划分为高值耗材、低值耗材、医疗设备、体外诊断四个大类。医疗器械科技创新是国家科技创新体系的重要组成部分,也是推进健康中国建设的核心动力和支撑,先进的医疗器械是一个国家科技进步和全民健康保障能力的重要标志。中国药品监督管理研究会与社会科学文献出版社于10月21日联合发布了《医疗器械蓝皮书:中国医疗器械行业发展报告(2019)》。根据报告显示,虽然目前我国医疗器械市场呈现着生产经营企业“多、小、低”、行业研发投入与国外相比明显偏低等特征,但行业发展形势依然被看好。未来我国将成为全球最大的医疗器械市场,行业也将继续保持快速健康发展的良好势头,预计未来十年仍将是我国医疗器械行业黄金发展阶段。
本次论坛聚焦于医疗器械批准上市的流程、政策、评价原则,风险控制、国际化策略,探究了如何推动医疗器械在临床试验及科研中的应用。论坛二十多位演讲嘉宾,有一半来自国外,这其中既有统计领域顶级的专家、政府监管部门的决策制订者,又有来自研发机构、医院一线的科研工作人员,演讲内容也贯穿了医疗器械从设计到临床试验再到使用的整个链条,论坛的召开对推动生物统计及数据科学理论在医疗器械临床研究领域的应用,促进我国医疗器械评价的战略思考及关键技术体系形成、促进我国创新医疗器械临床试验与国际接轨具有重要意义,受到与会者的高度评价。
11.8日短课培训
上午:短课主题“针对治疗与诊断仪器的统计方法”
Professor Gregory Campbell
坎贝尔教授首先从医疗仪器的定义谈起。医疗仪器的范围很广,除药品及生物制品外,一切用于人类医疗的物品都可以被称为医疗仪器,从功能上可把医疗仪器分为三类:治疗仪器,美容仪器和诊断仪器。医疗仪器的临床研究可分为探索期、中枢期与上市后三个阶段,有两种形式:一是以临床结果变量为指标,所有治疗仪器与美容仪器以及部分诊断仪器的临床研究采用这种形式;二是以临床诊断表现为指标,适用范围是大部分诊断仪器,包括IVD。
接下来,坎贝尔教授向我们讲解了中枢阶段临床研究的试验设计。治疗仪器的临床研究形式通常是同期对照实验,对照组可采用安慰剂、阳性对照、空白对照等方案,或是非随机的同期对照。在临床试验设计中,双盲、多中心的随机对照试验(RCTs)是所谓的“金标准”,这是因为利用安慰剂对照组可以消除安慰剂作用带来的偏差。安慰剂作用的来源往往是对疗效的预期,或是均值回归现象的影响,也可能单纯是受到关注带来的(Hawthorne effect)。但有些情况下,这样的设计不现实、有违伦理或是不可行,例如脑起搏器这类仪器很难设计双盲的对照试验。此时可采用已知有效的疗法作为阳性对照组,但有关的统计分析必须在试验前确定,否则根据试验结果选择检验非劣效性、优效性或等效性将导致统计推断无效。在非随机的观察性研究中,对照试验有同期对照与历史对照两种形式,最核心的问题在于非随机化的不同组之间是否是可比的,因此统计分析中必须依赖一些不可检验的假定,这是一种折中办法,其统计方法论是基于反事实变量的因果推断。观察性研究也可以是无对照的,如OPC(Objective Performance Criteria)和PG(Performance Goals)。对于临床诊断器械,自身对照试验往往也是可行的,并且比随机对照试验更优。
随后坎贝尔教授分析了中枢阶段临床研究中统计学的作用,从研究计划到研究的实施与监控,再到最后的数据分析。在研究计划中,研究者需要统计分析确定选择何种试验设计,如平行设计、配对设计、嵌套设计、分层设计等,还需要为统计分析设定具体的计划(SAP)。如进行假设检验,需要确定原假设与备择假设形式,检验的阈值以及所需的样本量。不经计划的研究是危险的,同时也是统计上无效的。在监控过程中,研究者可以根据统计分析按预先设定的方案提前终止试验或改变规模。在数据分析中,往往有不止一种统计方法可用,例如诊断器械通常应当同时报告点估计值与相应的置信区间,但选择何种方法也必须提前计划好。
茶歇过后,坎贝尔教授概述了美国FDA针对医疗器械的监管审批体系。FDA根据产品风险分为三级进行管理,将一些用于支撑和延续人体生命、或对人身健康具有重要的保护作用、或具有较大程度潜在风险的医疗器械归入第三级,需要办理上市前批准(PMA)。
下一部分,坎贝尔教授介绍了有关治疗器械研究的四点统计方法创新。第一个是贝叶斯试验,可以有效利用器械的先验信息,可以更快的进行决策、依赖更少量的数据,从而对业界有很大的吸引力。第二个是自适应性试验设计,如改变样本量、改变随机化比例等,可以使试验的有效性提升。第三个是倾向得分方法,可以在观察性研究中解决混杂因素的问题。第四个是临界点方法,可用于缺失数据的分析。同时坎贝尔教授也提到了有关诊断器械研究的统计方法创新,如ROC曲线等。
下午短课主题:Statistical Methods in Diagnostic Medicine
周晓华教授
上午Gregory Campbel教授介绍了全面的介绍了关于治疗与诊断仪器的统计方法的各方面情况,下午周晓华教授的短课侧重于医疗器械评估的统计学方法。
首先,周晓华教授介绍了评估医疗器械的三个目的,包括提供病人病情信息、影响医生诊断方案、了解疾病过程,并定义了医疗器械评估语境下的诊断精确度(diagnostic accuracy),与药物的评估不同,这里诊断精确度更强调有病没病能不能分开。紧接着,周教授讲解了诊断精确度的六个层次,并将今天的讨论的范围限制到评估诊断精确度的有效性(diagnostic accuracy efficacy)的方法,主要包括敏感度(sensitivity),特异度(specificity) 和ROC曲线。
而内在的精确度(intrinsic accuracy)指的是指标不会随着发病率变化而变化,例如灵敏度和特异度。这里周晓华老师特别强调的金标准(Gold standard)的重要性,以及金标准的选取一定要求与待研究的医疗器械无关。
接下来,周晓华教授详细介绍了受试者操作特性(ROC)曲线在评估医疗器械中的应用。ROC曲线是把不同评价标准下灵敏度和特异度配对形成的曲线。ROC曲线作为图像非常直观,并且与发病率无关、与发病率无关、与尺度无关。但在临床实践上ROC曲线不能直接应用,所以我们可以基于ROC曲线,根据具体问题,采用曲线下面积(AUC)特定区域下面积等指标评价整体的内部精确度。并且,利用贝叶斯公式,如果已知灵敏度、特异度和发病率,我们就可以计算出假阳性率和假阴性率。那如何估计ROC曲线呢?周晓华教授介绍了两种方法:一种方法是假定测量结果符合某个参数分布模型,进而可通过导出ROC曲线的函数形式来估计;也可以直接假设ROC曲线满足一定的形式,估计出ROC曲线。金标准的选取在这里也非常重要。如果没有处理好金标准问题,比如受试者是否接受金标准检验(活检)受医疗器械诊断结果影响,就会产生证实偏移(verification bias),导致从数据中直接得出的灵敏度和特异度和实际值有偏差。尽管如此,在一定的假设下,仍然可以用统计学方法纠正灵敏度和特异度,也可以得到灵敏度和特异度的置信区间。
短暂的休息之后,由于时间原因,周晓华教授简单的介绍了一些更复杂的ROC方法。比如如果病情和时间有关,可以定义时间依赖的ROC曲线,使其涉及生存时间,需要讨论时间相关的结局变量;如果诊断是序数型的,例如无病、轻微、严重,那么ROC曲线(曲面)将变为高维的,用面ROC曲线来表示,在这种情形我们同样可以定义表面ROC曲线下体积。
最后,周晓华教授总结了评估医疗器械一些特点。与的药物评估比起来,医疗器械的评估方式更为复杂和更加多样,更易于接受新的统计方法。比如在美国,对贝叶斯方法在临床药物评估中的应有目前还没有被FDA完全接受,但是在医疗器械中,已经有不少产品基于贝叶斯方法评估而获得审批。
下午周晓华教授的短课主要侧重于医疗器械评估的统计学方法。周教授从评估的三个目的讲起,包括提供病人病情信息、影响医生诊断方案、了解疾病过程,而后将重点放在评估诊断精确度的有效性(diagnostic accuracy efficacy)上,详细介绍了敏感度(sensitivity),特异度(specificity) 和ROC曲线,特别强调了金标准(gold standard)在评估中的重要性和选取金标准的要求、证实偏移(verification bias)及其修正方法。除此之外,周晓华教授还简单介绍了与时间依赖的ROC曲线(time-dependent ROC curve)、顺序变量ROC曲线(曲面)(surface ROC)、多读者多测试ROC研究(multi-reader and multi-test ROC studies)等情形的处理方法。最后总结了相比药物评估的保守,医疗器械的评估方式更加多样,更易于接受新的统计方法。
11月9日会议报告
报告1:Statistical Challenges in the Evaluation of Diagnostic Devices, Including Personalized Medicine from Regulatory Point of View
报告人:Greg Campbell GC Stat Consulting, LLC CEO
Gregory Campbell教授从监管视角为我们分析了评价医疗诊断器械效果中遇到的统计学挑战。诊断器械的用途包括诊断、筛选和监控医疗状况,分为体外诊断器械、成像系统和体内诊断器械三类。针对诊断效果的临床评价一般基于临床参考标准(CRS),如没有CRS则应关注与已有诊断方法的效果比较。
接下来,Gregory Campbell教授列举了在诊断器械监管中的若干统计学挑战。一是诊断效果估计的系统性偏差,如选择性偏差、证实偏差等;二是没有“金标准”的情况下诊断效果的评价方法;三是罕见病诊断研究中筛选检验所需样本量过大的问题;四是疾病的早筛方法,如癌症与阿尔兹海默症;五是独立验证的重要性,特别是在应用机器学习方法时仅采用CV等内部验证方法是不够的;六是MRMC情形下的影像研究,需要分离不同病例带来的可变性与不同读取者带来的可变性;七是报告数据中有部分缺失的问题;八是两个连续型检验方法间如何比较的问题;九是诊断决策中的阈值确定,以及阈值估计的置信区间。
报告2:Clinical Studies of Deep Learning in Diagnostic Imaging - Methodologic and Regulatory Considerations
报告人:Constantine Gatsonis
Department of Biostatistics, Center for Statistical Sciences,Brown University
Constantine Gatsonis教授介绍了诊断性影像学临床研究中深度学习的应用。影像组学的任务是应用统计机器学习方法从医学影像中提取知识,2015年以来,基于深度学习的影像组学研究成为一个热点问题。Constantine Gatsonis教授特别讲解了采用卷积神经网络(CNN)的影像组学方法,可以用于在高维特征空间中的定位、特征提取以及分类等任务。另外,目前关于影像组学的研究主要集中于标记的发现,较少关注标记的评价,Constantine Gatsonis教授介绍了采用ROC曲线评价基于深度学习发现的标记的分类效果的方法。
报告3:Statistical Methods for Clinical Evaluation of Diagnostic Tests, including Software as Medical Devices
报告人:北京大学 周晓华
周晓华教授介绍了软件作为一种医疗器械(SaMD)的相关内容。对于诊断器械软件的评价指标主要有三个方面:相关有效性,即软件的输出指标是否可被临床应用接受;技术有效性,即软件是否可以精确可靠地运行,并可以重复;临床有效性,即软件能否达到临床应用的目标。其中临床有效性的评价需要与金标准,也就是最优的参考标准作比较,一个重要的注意事项是金标准的选择必须与研究设定独立,否则会产生偏差。随后周晓华教授介绍了处理一些复杂情况的统计方法。首先是输出变量为连续数值时,诊断灵敏度与特异度的计算都需要划定阈值,而阈值的选择有很大的空间,造成了主观模糊性。替代办法是采用ROC曲线表现诊断方法的效果,周晓华教授讲解了一些这方面的工作。最后周晓华教授介绍了一些没有参考标准的情况下如何减小偏差,例如证实偏差或是不完美金标准造成的偏差。
报告4:医疗器械临床评价要求及改革进展
报告人:国家药品监督管理局医疗器械技术审评中心临床与生物统计一部副部长刘英慧博士
刘英慧博士分享了“医疗器械临床评价要求及改革进展”这一领域的概括。
首先刘英慧博士展示了我国临床评价相关法规和规范性文件和国际协调文件和相关标准,介绍了临床评价的定义和范畴。临床评价在我国和IMDRF的定义略有不同,IMRDF的定义涉及了上市前和上市后的全生命周期临床评价,而在我国的定义中主要指上市前临床评价。
医疗器械的临床评价路径主要有3条,包括列入《免于进行临床试验的医疗器械目录》产品的临床评价、通过同品种医疗器械临床数据进行临床评价和通过临床试验进行临床评价。
接着刘博士介绍了临床数据的收集和分析评价。临床试验数据收集分为申报产品和同品种产品两类,数据收集完成后按照确定的流程进行分析和评价。
在简单介绍了医疗器械临床试验规范和流程后,刘博士进一步介绍了医疗器械临床试验设计要素。临床试验设计最重要的一点是试验目的,其次设计类型。与药品临床试验不同,医疗器械的临床试验不容易进行随机对照试验(RCT),因此单组设计的应用较多。
第二部分,刘博士介绍了医疗器械临床评价的进展,包括拓展性临床试验的开展、在严禁数据造假行为方面的举措、接受境外临床试验数据的原则发展(伦理原则、依法原则、科学原则)等。相关指南中涉及了一些概念的定义,如等同性论证、临床经验数据等。
此外,刘博士还介绍了即将征求意见的真实世界数据用于医疗器械临床评价的方法学实施方案,机构的内部调整等。
报告5:人工智能医疗器械审评要点解读
报告人:国家药品监督管理局医疗器械技术审评中心评审一部评审员张晶宇
张晶宇分享了“人工智能医疗器械审评要点解读”的内容。首先介绍了人工智能医疗器械的定义,分为AI独立软件(智能软件)和AI软件组件两类(智能硬件)。接着介绍了何为深度学习辅助决策软件,以及软件的安全性级别。软件的安全性分为轻微、中等和严重三级。后续关注方向包括产品层面、技术层面和数据层面。
报告6:体外诊断试剂临床评价要求及改革进展
报告人:国家药品监督管理局医疗器械技术审评中心临床与生物统计二部副部长吕允凤博士
吕允凤部长介绍了体外诊断试剂临床评价要求及改革进展。吕部长首先介绍了体外诊断试剂的法规变迁等。继而介绍了体外诊断试剂临床评价的现行要求,包括伦理原则、机构和人员、管理要求、临床试验设计的原则和方法等。吕部长还不同的角度对体外诊断试剂的临床试验进行了优化探讨,如临床试验样本量计算的推荐方法、质量管理纳入指南等方面的尝试,以及前瞻性回顾性样本的考虑、偏倚的控制等等。
报告7:人工智能医疗器械检验与标准热点思考
报告人:中国食品药品检定研究院高级工程师 孟祥锋
孟祥锋工程师介绍了人工智能医疗器械检验与标准热点思考方面的内容。随着人工智能医疗器械和非医疗器械产品越来越多的出现,其检验和评价问题十分重要。软件产品一般检测思路包括合规性和网络安全要求等,其质量评价贯穿AI全生命周期。中检院于2017年建立了测试数据集,包括收集、清洗、标注和测试四个阶段,可用于人工智能医疗器械的评价。质量评价面临着一些挑战,比如面对硬件机型和数据质量的变化,如何保持测试的鲁棒性。孟祥锋工程师还介绍了医学人工智能的标准化工作,中检院起草了2项国内标准,2项国际标准。目前标准化的工作思路为优先解决基础共性问题、兼顾风险控制与创新。中检院的AIMD数据库在设计研发、产品评价、上市后监控中均发挥着重要作用,但是目前规范化、一致化的高质量数据集仍然需要改进。
报告8:Joint Comparison of Medical Devices Using Multivariate Network Meta-Analysis
报告人:宾夕法尼亚大学的Yong Chen教授
Yong Chen教授的议题为“Joint comparison of medical device using multivariate network meta-analysis”。
Meta分析(MAs)是为临床指南提供了比较强的证据。网状meta分析可以用于多于2个产品或干预的比较,或是干预A和干预B的一种非直接比较。通过血管支架的例子,陈教授阐释了网状meta的临床意义。网状meta分析中有几个重要的假设,一个是transitivity assumption,另一个是consistency assumption。在满足这些假设的条件下,可以对网状meta分析进行建模。通过一个抗抑郁药比较的例子,陈教授介绍了网状meta分析的好处在于提供更多的信息,估计的精度更高(置信区间更窄)。当前网状meta分析方面的工作更多的考虑多干预选择和多结局的情况。其后,陈教授介绍了在3个干预的情况下,比较效果和安全性的网状meta分析模型和相应的估计方法。传统的贝叶斯建模方法需要设定较多待估计参数,在实践中计算量也较大,陈教授提出了一类利用复合似然(composite likelihood)的新方法,该方法需要更少的参数,并且对模型误设是稳健的。
报告9:Group Sequential Comparison of PPV Curves for Correlated Biomarker Data
报告人:Department of Statistics National Center for Forensic Science,University of Central Florida Larry Tang Associate Professor
中弗罗里达大学的Larry Tang 教授分享了Group sequential comparision of PPV curves for Correlated Biomarker Data的主题。
首先Larry 介绍了诊断实验的一些基本概念如阳性预测值(PPV)、correlated diagnostic tests和数学符号。固定样本量设计存在成本过高和一些伦理角度的问题,因此适应性设计受到许多研究关注,Group sequential design (GSD) 是其中一种。针对两种诊断方法PPV曲线的比较在GSD下是一个有相关性的假设检验序列,Larry的研究给出了其渐近正态性,从而在假定患病与无病人群抽样比例后就可以给出期望的样本量,模拟结果显示相比固定样本量设计其所需样本量得到了很大程度的减少。
报告10:Relationship between Obuchowski-Rockette and Gallas U-statistic methods for analyzing multi-reader diagnostic imaging
报告人:Departments of Radiology and Biostatistics The University of Iowa Stephen
L. Hillis, Research Professor
爱荷华大学的Stephen L. Hillis 教授在报告中讨论了两种根据AUC曲线分析多阅片者影像诊断数据的现有方法的各自特点并对他们做了比较与延伸。
首先Hillis 介绍了多阅片者多病例研究(MRMC),希望通过经验ROC曲线下面积(AUC)比较两个不同设备下阅片者的表现。Hillis介绍了可以比较阅片者平均AUC的Gallas方法,但是这种方法不能用于3种及以上的设备比较,也不能用于半参数AUC和部分AUC。OR方法是一种ANOVA的方法,其方差通常是通过resampling方法得到的。尽管OR可以用于不同类型的结局比较(部分AUC、经验或半参AUC)等,但是OR还未能用于unbalanced study,Hillis目前正在进行这方面的研究。 最近,Hillis提出了一种无偏估计OR残差的方差或协方差的方法,和resampling方法的结果相同。此外,和Gallas方法结果也相同,但由于自由度不同结果有可能不同。接着Hillis介绍了可进行无偏估计的R package、OR软件和可进行Gallas方法的iMRMC软件。通过两个例子,Hillis证明了新方法的有效性。
报告11:Development of AI-Powered Medical Devices with a Focus on Precision Medicine Solutions
报告人:Janssen Pharmaceutical Research Development Inc. / Johnson Johnson, Raritan, New Jersey, USA ,Scientific Director Songbai Wang
来自强生公司的Sognbai Wang分享了“Development of AI-powered Medical Devices with a focus on Precision Medicine Solutions”的内容。
王博士首先介绍了人工智能(AI)、机器学习和深度学习的结构,机器学习和统计学习的区别(几乎没什么区别)。目前AI在医疗卫生行业应用广泛,其中我们目前更为关注的是精准医学。目前精准医学更多的是把现有的知识整合,包括临床试验、生物学研究等,可以为病人提供一些选择,但每个选择的证据都不足。今后精准医学应该是更全面的汇总知识和病人资料,通过统计的方法进行分析和预测,给出更准确的选择依据。统计学家需要个体信息、知识和组学数据以及算法和软件,来进行精准医学的研究。评估AI支持的精准医学解决方案需要数据证明其有效,在统计上来说就是一致性、有效性和稳健性。证明AI支持的精准医学解决方案最终还是需要临床试验进行和常规方案的比较。
报告12:External evidence: incorporating historical trial data, real world evidence, and modeling and simulation data in combined analyses with current clinical trial data
报告人:Corporate Biostatistics Strategic Scientific Operations Medtronic,Sr Director,Theodore Lystig
来自美敦力公司的Theodore Lystig分享了“external evidence: incorporating historical trial data, real world experience, and modeling and simulation data in a combined analyses with current clinical trial data”的内容。
Lystig 首先介绍了外部数据的定义,包括历史临床试验数据、仿真实验数据、注册记录、管理记录等。真实世界数据(RWD)存在很多潜在用途,如评估注册标准等。通过一些例子,Lystig具体介绍了不同外部数据如何与当前临床试验数据结合。整体框架是对外部数据进行分类、组合、整合、图表研究。未来RWD会吸引更多的关注,但是获得RWD仍然是一个挑战。我们需要更多的思考如何将外部数据与当前临床试验数据整合。
报告13:US and European FDA Appoval experience with a new automated external defibrillator algorithm
报告人:Stryker,Senior Principal Systems Engineer,Daniel W. Piraino
来自Stryker公司的Daniel W. Piraino首先介绍了外部除颤器(AED)的用途和面临的一些问题。周教授的《诊断医学中的统计学方法》一书为他们提供了很多帮助。AED诊断实验的金标准是shockable rhythms、nonshockable rhythms和intermediate rhythms。Piraino还介绍了他们的产品在FDA申请中的一些经验,包括经常遇到的一些回复意见等。Piraino也为以后的申请者提供了一些有效的建议。
报告14:Risk Prediction and Assessment: Application to the U.S. National Lung Screening Trial Data
报告人:Biometry Research Group Division of Cancer Prevention National Cancer Institute National Institute of Health USA,ScD SM Mathematical Statistician,Ping Hu
来自美国NIH的Ping Hu博士分享了“Risk prediction and Accessment: Application to the U.S. National Lung Screening Trial Data”.
首先胡博士介绍了肺癌的流行病学情况,目前是美国最普遍导致死亡的癌症。但是目前关于如何定义高风险人群仍存在不确定性,一些研究提出了更加精确的风险预测模型,如LLP、PLCO model。LLP使用了条件logistic回归模型,PLCO使用了修改的logistic回归模型。胡教授的研究使用了分类树模型,通过NLST的数据进行建模。树模型的优点在于不需要线性假设和变量变换。NLST的数据集来自一个RCT试验,符合纳入标准的患者被随机分到2组,跟踪时间5年。PLCO数据集来自一个多中心RCT癌症筛查试验,筛查工具是胸片,随访13年。通过使用NLST数据作为训练集,选择一些基线协变量如家族癌症史、先前肺部疾病史、吸烟史、年龄等建立了肺癌预测的树模型。
报告15:医学影像诊断人工智能实践中的一些思考
报告人:北京协和医院,孙昊教授
来自北京协和医院的孙昊教授分享了“医学影像诊断人工智能实践中的一些思考”。
孙教授首先介绍了中国医疗机构的背景和现状,继而介绍了医疗数据来源和特点、医学人工智能的现状。虽然人工智能在医疗保健中的好处得到广泛认识,但尚未经过临床证明。医学影像是人工智能AI的前沿阵地,影像分析是智能诊疗的基本手段。医学影像AI产品对于医院和患者均是有益的,可以提升诊疗速度、缓解就诊压力等。人工智能医疗影像产品需要满足四个标准:功能易用性、效果稳健性、医学临床专业性、应用多样性。医学人工智能目前还存在一些问题如数据清理问题、伦理学考虑。
报告16:创新医疗器械临床试验设计的统计学考虑
报告人:国家心血管病中心医学统计部,李卫主任
李卫教授报告的主题是“创新医疗器械临床试验设计的统计学考虑”。
李教授建议,如果前瞻性随机对照研究方案符合伦理且确实可行,那么创新性医疗器械应尽量采用前瞻性随机对照研究这一“金标准”
但在一些时候,对照组的选择可能会有困难,例如其它对照产品国内无上市或限制使用的情况。此时可以考虑单组目标值试验(OPC)。试验可采用业内公认的某产品的有效性/安全性评价指标应达到的标准(可接受的最低值)作为OPC目标值,但单组试验只是随机对照试验不可行的情况下一种替代、妥协性的方案,其本质上是历史对照,因为目标阈值是由历史数据确定的,在偏倚风险难以排除时应慎用。
从国外的经验来看,FDA对于风险不高的产品允许通过单组目标值实验审批,但其样本量会多于随机对照试验。一个例子是关于全新的心血管长期植入器械的审批,因为没有合适的器械作为对照组,根据最小负担原则允许其与常规治疗/药物做优效性试验。
进行单组目标值试验时还有几点注意事项:试验各方必须对目标值有清晰的认识,被试人群与目标值人群必须有可比性,目标值应得到法规及业界认可。
报告17:医疗器械临床试验方案设计中主要指标的选择
报告人:北京大学临床研究所 生物统计部 副主任 阎小妍 博士
阎小妍教授报告的主题是“医疗器械临床试验方案设计中主要指标的选择”。
阎教授结合她在实务工作中的经历,指出很多从业者关注样本量大小,但样本量的影响因素包括研究设计、假设检验以及指标的选择,其中主要指标的选择对样本量有着最直接的影响。
总的来说临床设计中有两大类指标:临床有效性评价指标和临床安全性评价指标。在探索性研究中,评价指标可选择多个,而验证性研究通常只有一个研究目的,只选择一个直接相关的主要指标,并以此作为样本量估计的出发点。
此外,不同类型研究终点也对样本量估计的方法有很大影响。临床研究中可采用定性指标、定量指标或是时间-事件数据指标,针对同一种医疗器械的临床试验,不同研究设计的目的可能是体现不同的特点,对应了不同的样本量大小。这些试验方案都要综合各方面考虑来进行设计。
报告18:人工智能医疗器械设计中的考虑
报告人:哈尔滨医科大学卫生统计学教研室副主任 侯艳博士
侯艳教授为我们介绍了人工智能医疗器械设计中的统计学考虑。
侯教授向我们讲解了医疗器械临床设计的一些原理,其基本原则是追求更高的精度的更小的偏倚。侯教授重点分享了在实践中如下需要考虑方向:一是研究目的的确定,例如在通过深度学习进行白血病血液图片的研究中,目标可以为检测有无患病,也可以是检测哪一个细胞患病,待评价的方法可能是新的方法还可能是成熟方法,而不同的研究目的对应着本质不同的试验设计;二是代表人群的抽取,其中可能存在各种偏倚,例如选择偏倚、疾病谱偏倚等,这些偏倚都需要相应的统计学方法处理;三是诊断“金标准”的确定,这是研究计划中最难的问题,如果有“金标准”,需要保证“金标准”的一致性,如果没有,利用统计分析减小偏倚;四是准确性指标的选择,研究者要根据研究的阶段、目标及特点选择指标,一般探索性与挑战阶段采用ROC,临床阶段应考虑具体临床指标;此外,数据收集计划、统计分析计划和样本量估计方法也都是应在研究设计阶段就仔细确定的环节。最后,侯教授向我们介绍了一例深度学习模型的应用。
报告19:创新医疗器械产品从技术到产品的实现过程
报告人:推想科技 联合创始人 王少康
王少康先生结合他在推想科技的从业经历介绍了创新医疗器械产品从技术到产品的实现过程。他指出,人工智能技术是未来解决医疗产能不足、资源分布不均等问题的最佳方案。推想科技的目标是从临床中孵化出好的人工智能产品,经过扎实的临床验证,最后回到临床应用,也就是“从临床中来,到临床中去”。他还提到,基于商业AI产品的临床科研验证文章很少,大部分是用已有的数据,临床试验验证AI产品效果应该是未来的一个发展方向。
报告20:A powerful AI tool for CHD screening
报告人:Statistics Department, University of Georgia,Wenxuan Zhong教授
Wenxuan Zhong教授介绍了人工智能方法冠心病筛查的新技术。她首先指出心血管疾病在中国的死亡率很高,而早期筛查可以极大地降低死亡率;冠心病居中国心血管疾病死亡率首位,但诊断准确率低。在美国,冠心病的诊断过程有三个步骤:先进行无创心超,再通过压力测试判断风险,如果风险较高在最后进行冠脉造影。而中国的医院由于时间成本太高,很少为患者做压力测试,又因为传统心脏超声无法确诊,故通常需要再进行费用较高且有创的冠脉造影检测。钟教授团队提出的智能心脏超声技术,通过对视频输入做动态特征提取,再用mixed effect model建模,最终给出预测。这一方法没有采用深度学习,因为数据量不大但模型结构清晰,也有着很好的预测效果。
北京大学公共卫生学院生物统计系
北京大学公共卫生学院生物统计系成立于2018年11月16日,由北京大学公共卫生学院、北京大学数学科学学院和北京国际数学研究中心共建,是国内第一个跨数学和公共卫生学的生物统计系,首任系主任为周晓华教授。其建设目标是培养既掌握统计理论,又能将理论与生物医学研究相结合的创新型及复合型人才。该系建立的宗旨在于促进北京大学在生物统计学科的发展,助力北京大学的“双一流”建设,探索生物统计方法学在转化医学、精准医学、大数据研究等领域的应用。该系目前的主要研究方向包括临床试验、医疗大数据开发与挖掘、因果推断、诊断医学、精准医疗和统计遗传学等。北京大学公共卫生学院生物统计系将与相关单位开展广泛交流和合作,尤其是与临床医院和相关研究机构,进一步促进生物统计研究从临床实际问题出发,既推动统计方法学的研究,也促使临床医生在实际应用中建立更完善的方法学基础。
[来源:91仪器信息网] 未经授权不得转载 生物统计数据科学医疗器械