扫码关注官方微信公众号

张勤:智慧医学托起健康梦想|产业转型顾问委员声音

2020-12-01

 导 读    

医学领域的智慧技术从哪里来?到哪里去?什么样的智慧医学诊疗系统能够在我国医改进程中发挥作用?智慧医学如何开展商业化运营?智慧医学面临哪些挑战……,近日,带着关于中国智慧医学发展的诸多思考,中国报道专程走访了清华大学互联网产业研究院产业转型顾问委员会委员,全国政协常委,国际核能院院士,清华大学核研院、计算机系双聘教授、博导张勤。


△ 图为张勤教授
下文是张勤教授接受采访实录:
Q

采 访:

研发以 DUCG(Dynamic Uncertain Causality Graph)辅助诊疗系统为代表的智慧医疗的背景是什么?

A

张 勤背景就是人民对健康的需求。现在中国老百姓衣食住行等基本生活都已经有了,随着人们生活水平的提高,对健康长寿的关注肯定会越来越多,对医疗保障的需求也会快速增长。现在中国整个医疗行业在 GDP 中的比重并不高,只有 6、7%,尽管还在上升,但也就是个位数。像美国这样的发达国家一般都在百分之十几,我国台湾地区据说是二十以上。总之,人们对于健康与医疗的需求是日益增长的。


但现实是我国人口众多,地区差异大,“看病难、看病贵”仍然非常普遍。国家其实早就提出了解决问题的办法——实行分级诊疗制度,即“基层首诊、双向转诊、急慢分治、上下联动”,目标是“90%大病不出县”,但现在很难说实现了。问题在哪儿?就在于基层缺少好的医生,这是“基层首诊”最核心的问题、也是“分级诊疗”最大的痛点。目前的实际情况不是在基层首诊,而是在大医院首诊,因为患者怕漏诊误诊,先在大医院搞清楚是什么病了,再回到基层拿药。我们国家现在基层医疗缺的不只是硬件,更重要是缺好的医生。这就是为什么我们要做 DUCG 辅助诊疗系统,目的就是要赋能现有基层医生,使其诊断水平达到或接近三甲医院专家水平。


具体来说,我们对基层医生进行半天的 DUCG 系统使用培训,使其诊病能力达到三甲医院专家看病的水平,从而大幅度减少基层漏诊误诊。从我们在山东胶州和重庆忠县实际应用的数据来看,山东胶州 9000 多次的诊断病例,只有 3.3% 的不认同率,其中多数是医生使用时选错了主诉症状(早期 DUCG 提供的主诉症状只有 11 个,现在已达 36 个,选错主诉的可能性已大幅降低)、信息录入偏差、还有一些是基层医生误以为 DUCG 诊断错误,其实是对的。当然 DUCG 也有数例诊断错误,都是由于主诉库中没有包含应有的疾病(现在已包含了)。即便这样,DUCG 的诊断正确率已经非常高了。为什么我们能做到这么高?首先是因为 DUCG 以病人为中心,以主诉症状建库和看病,避免了病人挂错号的问题,且 DUCG 的主诉库包含了跨科室的疾病(小全科),再加上 36 个主诉,基本覆盖全科。当然,我们原创的 DUCG 算法居功至伟。使用结果说明我们这个系统帮助基层解决实际问题效果显著。下一步我们会根据基层的需要增加更多主诉知识库,丰富库中包含的疾病,进一步提高诊断正确率。以腹痛这样常见又难诊断的主诉为例,现在我们的腹痛库包含 40 多个病,近期我们会增加到 100 个左右。


基层医生贴近患者,但水平不够,大医院费用高、不方便。从“健康中国”和节约控费角度看,国家希望医疗资源下沉,实行分级诊疗,使多数看病在基层,由此还可避免到大医院就诊的交叉感染。比如,青岛的第二波疫情感染案例就是患者到大医院看病,与新冠肺炎患者共用一个 CT 导致交叉感染。如果把多数首诊控制在基层,就比较容易控制疫情。总之,无论从哪个角度来看,医疗资源都应该下沉,要提高基层首诊的正确率,在正确诊断疾病的基础上,该转诊的转诊,不该转诊的留治,这样才能实现“90%大病不出县”。我们的目标就是把基层医生的看病水平提高到三甲医院专家级水平,使患者享受优质医疗服务,就近早治,同时降低医疗费用。


Q

采 访:

DUCG 系统研发和应用的情况如何?

A

张 勤首先从技术上我要说明一下,DUCG 不是基于当前全世界流行的大数据机器学习,而是基于临床专家的不确定因果知识。这里有一个误区:将人工智能等同于大数据机器学习。无论是媒体的误解,还是企业和学者的误导,我认为这没有反映学术的真实情况。人工智能发展 60 多年,跟我同岁,前 30 年主要是基于逻辑的,即基于规则的专家系统,但成功的极少,或者说最后还是没办法满足实际应用的需求,原因就在于规则的碎片化。那种基于特定句式的一条条的碎片化规则多了之后,就会出现重叠、循环,矛盾,就难以管理了。这是第一个大问题。第二个大问题就是规则的不确定性传播尚无严谨的数学理论。不确定性是现实中大量存在的。所以基于规则的专家系统逐渐淡出,让位于能够处理不确定性的大数据机器学习。


大数据机器学习主要是用加工后的大数据训练机器,获得一个可并行计算的非线性函数或模型,使输入与输出尽可能匹配。就全科临床诊断而言,输出就是疾病,输入则是患者的症状、体征、风险因素、化验结果、影像结果等等,至少有一万个变量,每一个变量至少有阴性、阳性、未知三种状态,一个输入就是这些变量的一个状态组合,这种组合比 3 的 1 万次方还多,是一个天文数字。不同样本空间的数据覆盖的组合区域是不同的。大数据覆盖的通常是三甲医院病历中的变量状态组合,但基层的变量状态组合往往与之不同,导致大数据机器学习模型在训练和测试数据集上实现的输入输出匹配在基层失灵。这就是著名的泛化问题。我们的应用场景在基层,但我们学习的数据集来自三甲医院。这种样本空间的错位导致实际使用中诊断正确率大幅降低。换句话说,大数据机器学习模型在测试集上的正确率不能代表实际应用的正确率,原因就在于泛化问题。我们可不可以用基层的数据来学习呢?理论上可以,实际上不可行。因为基层的数据难以保证诊断结论正确性和信息记载完备性,不同的基层情况也不同,即不同基层的样本空间是不一致的,千变万化。因此,解决之道在于避免泛化问题。怎么才能在全科临床诊断中避免泛化问题呢?答案就是基于临床专家的包含不确定性的医学知识,而非匹配式或黑箱式的数据学习。知识是鲁棒的,其正确性不以应用场景变化而不同,即知识不存在泛化问题——这就是我们原创的新一代人工智能 DUCG 的解决之道。


DUCG 的优点首先在于其无泛化问题,且诊断正确率高。我们构建的 DUCG 系统的正确率首先由自己验证,然后再拿到第三方的三甲医院去验证,之后我们才投入实际应用,并在实际应用中验证。我们目前已上线的知识库都是基于主诉症状的跨科室的知识库,覆盖了咳嗽咳痰、腹痛、呕血、发热、胸痛、心悸、头晕、头痛、颈腰背痛、呼吸困难、下尿路症状、肥胖、妇科症状、儿童发热等 36 个主诉症状,每个库包含十几到上百个能引起该主诉症状的疾病,DUCG 根据患者病情信息进行鉴别诊断,第三方测试验证每个库的正确率 95% 以上,其中少见病正确率 80% 以上。基层非常需要对少见病的正确诊断,因为基层对常见病通常还能正确诊断,出问题的主要是少见病。少见病数量虽少,但病种繁多。如果存在大量漏诊误诊,就难以让患者放心,难以实现基层首诊。


DUCG 的第二个优点是诊断结果和知识库的可解释性。哪些风险因素怎么影响疾病的发病率?疾病与症状、体征、实验室检查结果和影像学检查结果存在什么因果关系?不确定性如何计量和表述?我们都采用图形直观的方式进行表达,清晰可解释,包括计算方法也是全透明的,每个计算公式都具有清晰的物理意义,可证实或证伪。我们采用模块合成方式来构建大型复杂 DUCG 知识库,每个知识模块不大,可解释性强,更新可在模块层面进行。模块更新后将自动合成为新知识库,即可用于疾病鉴别诊断。例如国家卫健委发布第五版新冠肺炎指南后,我们在一天内增加了新冠肺炎诊断模块,合成知识库后用于包括新冠肺炎在内的各种疾病的鉴别诊断,即不仅诊断患者是否患新冠肺炎,而且诊断若不是新冠肺炎的话是那种疾病、如何治疗。如果只判断是否新冠肺炎,那是筛查,而不是鉴别诊断。鉴别诊断就是要从众多可能疾病中诊断出病人患的是什么病。这样才能实现基层首诊,有效防控疫情。


作为辅助诊断,人工智能医疗尚不能代替医生看病,法律责任还要由医生来负,那么诊断结果就必须要有可解释性。否则医生怎么相信智能系统的诊断是正确的呢?按照现在大数据的技术路线,难以解决可解释性问题,包括模型本身和诊断结果的可解释性。DUCG 具有强可解释性。


DUCG 的第三个优点是能动态生成患者个体优化临床检查路径。看病的过程其实是一个动态找寻病情信息并据此进行诊断的过程,并不是已经收集了病情信息后由智能系统来下是什么病的结论,也不是针对某个疾病考虑做什么检查以收集病情信息,而是在不知道疾病的情况下基于已知病情信息确定下一步应当优先收集什么病情信息,遵循动态生成的患者个体优化临床检查路径准确获取病情信息,并做出正确诊断,由此实现精准医疗,大幅减少检查项和节省看病费用。


DUCG 的以上三个全球领先的技术优点同时也是基层首诊最需要的基本功能。总之,DUCG 辅助诊疗平台给临床诊断带来了颠覆性的冲击,使基于经验的临床诊断变成了精密的科学计算,大大缩短了基层医生诊断疾病的培训过程,大幅提高了其诊病水平。


Q

采 访:

您曾说“DUCG系统跟现在流行的基于大数据的智能系统不一样,不是大数据,而是大知识”,如何理解二者的差别?有何意义?

A

张 勤其实现在很多医生并不喜欢大数据人工智能,因为医生除了卖数据和标注数据外,很难将自己的知识真正融入大数据机器学习模型中,对大数据模型怎样得出诊断结果的也茫然无知。DUCG 在建库时不需要任何病历数据,而是直接跟专家级医生深度合作。很多医生愿意参与,迄今我们已经与 30 多位北京著名三甲医院的临床专家签约,深度合作,进行知识库构建、测试和维护,效果良好。一个智能临床辅助诊断系统水平如何、是否有用,应当由医生来判断。事实上,培养一个临床专家至少要经过比如说八年的医学院系统学习,然后当一二十年的临床大夫,这个过程中他读了很多教科书、文献,积累了很多临床经验,看过甚至撰写了很多临床指南和规范,这些东西全部都融汇在心、而不是装在电脑或纸质文件中供使用时查询。你没看到过一个专家看病的时候去翻教科书吧?什么是知识库?一些招标文件把知识库看作是将这些教科书、病历、指南、规范等资料数字化,存储到计算机里,通过检索工具可查询,便美其名曰知识库,其实这是一个碎片化的可联想或模糊检索的数据库,但被各级政府和媒体误认为知识库了。事实上,知识库应当是与推理算法相匹配的可以活用的知识,其表现形式未必是自然语言或图像描述的文档资料。


又比如知识图谱,尽管被冠以知识二字,但它描述的是相关性(Association),而非因果性(causation),因而难以称为知识。以肺癌为例,从病历大数据上很容易统计出抽烟的人得肺癌的可能性比不抽烟的大。但烟酒不分家,抽烟的人往往也喜欢饮酒,因此从病历数据统计上看,饮酒也与肺癌强相关。但从医学知识来看,饮酒跟肺癌没有因果关系,仅抽烟有。可见,相关性不等于因果性,把相关性描述为知识是牵强的。我们需要的是真正的知识,是在医学院学习的那种,以人体结构、生化理化和细胞或分子生物学等科学为基础的知识,而不是统计数据显示的相关性。数据挖掘可以启发人们发现还没有被认知的知识,但就实用而言,已知的知识为什么不用呢?DUCG 将临床专家内化于心的知识用图形直观的方式表达出来,并按照严格的算法加以利用,这使得 DUCG 与大数据深度学习和知识图谱有本质区别。


Q

采 访:

在我国医改进程中,DUCG 医学诊疗系统最大的价值是什么?

A

张 勤刚才我说了全科医生的培养很难,尤其是高水平的全科医生就更难了。除了培养难,学成后也难以留在基层,因为基层艰苦,文化教育和生活质量都成问题。即使给高工资,也留不住人,何况基层根本就给不出高工资(例如 18 万以上的年薪)。国家花了很多钱推行 “5+3”、“3+2” 的全科医生培养计划,今年年底要达到 20 万个,十年后要达到 70 万个。但事实上,不管培养了多少全科医生,也很难到基层去,都愿意待在大城市大医院,很多人又从全科改成了专科,因为专科容易发表论文,容易晋升职称。全科综合性要求高,但发表论文不易,很难晋升职称。我国与发达国家不同,城乡差别大,基层医生的生活质量与大医院的专科医生差得很远。发达国家规定患者必须先到家庭全科医生看病,然后才能转诊到大医院。这是因为其城乡环境和收入差别小。我国则不行。所以比较现实的方案不是让全科医生下基层,而是让智能辅助系统下基层,赋能现有基层医生提高水平,然后才能实现基层首诊,双向转诊,实现分级诊疗。现在来看,DUCG 似乎是唯一一个能满足这样需求的专业化的智能全科诊断平台。


Q

采 访:

DUCG 医学诊疗平台具有鲜明开放性的特点,如何实现这个开放性?

A

张 勤DUCG 的推理算法在后台运行,称之为推理机。医生和病人使用的叫用户平台。还有一个是给建库专家用的编辑和调试平台,多个专家可以同时在这个平台上构建调试自己的知识库,每个知识库结合推理机和用户平台,就是一个实用的产品。在编辑调试平台上,我们提供了规范化定义的变量库,供建库专家选用变量。建库专家也可以往里面增加自己定义的变量(当然要经过 DUCG 同意),由此积累变量,形成国家规范。推理机、用户平台和编辑调试平台都是共享的,因而是开放性的。有时我们也对同一个主诉请多个专家建库,这些库可能各有所长,用户可以自己选择,就像患者选择医生一样。我们也向用户推荐好的知识库。


Q

采 访:

DUCG 医学诊疗平台如何商业化应用?面临什么样的挑战?

A

张 勤商业化应用是维系我们这个团队生存和发展的基础。我们从开始商业化开发到现在将近 4 年了,加上之前的理论建立、开发实验,共计 30 多年了。大家说十年磨一剑,我们 30 多年了,这一剑还没有真正磨成(从商业成功的意义上看)。从技术上看,也可以说我们的产品已经磨成了,而且已经在山东胶州和重庆忠县大规模实际使用,我们提供及时的支持服务,除了培训和更新知识库外,一旦基层医生觉得有问题,我们 24 小时之内要回溯和解决问题,有时还要联系建库专家参与解决问题。但要真正在市场上取得成功,所面临的就不是一个单纯技术问题了,有很多你意想不到的问题。


我们面临的第一个问题是目前智慧医疗市场混乱,没有权威认证,泥沙俱下,良莠难分。而医疗是人命关天的大事,如果不具备专业可靠的诊断正确率,就可能产生误导,至少不能实现基层首诊的本意。所以国家相关部门应尽快组织力量来检验市面上的这些智慧医疗系统,到底哪个是正确的?正确率是多少?是否存在泛化问题?是否有可解释性?是否能帮助基层医生精准收集病情信息?


第二是由于 DUCG 医疗诊断是我们原创的理论,非主流的大数据机器学习,导致我们迄今未得到国家项目的支持。在这个良莠难分的时代,拥有国家项目支持很大程度上是一张名片,没有这张名片就很容易被边缘化。


第三是资金问题。如上所述,面对现实,我们要经历一个大浪淘沙、去伪存真的过程。这个过程可能要两年以上。在这个过程中,我们需要维持团队、完善产品、对客户提供服务、市场宣传等等,这些都需要资金支撑。比起上市公司或独角兽企业来说,我们获得的资金微不足道,但我们却要与他们抗衡,以小搏大。我们是一个技术团队,搞市场不是我们的长项。我们只有靠过硬的技术去拼。下一步,我们要坚定真金不怕火炼的信念,砥砺前行。无论前方的路有多艰难,我们用先进的智慧医疗技术服务基层医疗,呵护广大百姓健康的梦想不会改变,DUCG 在路上。


张 勤

清华大学互联网产业研究院产业转型顾问委员会委员,全国政协常委,中国科协荣誉委员,国际核能院院士,中国人工智能学会会士、不确定性人工智能专委会主任,中国工程教育认证协会副理事长,中国知识产权研究会副理事长兼学术顾问委员会主任,国家核电重大专项战略咨询专家组组长,中广核集团科技委顾问,清华大学核研院、计算机系双聘教授、博导,清华大学博士后校友会会长,北航计算机学院兼职教授、博导,北理工软件学院兼职教授、博导,厦门大学知识产权研究院兼职教授、博导。


文章来源|中国报道