![]() |
一名有心脏瓣膜置换史的患者坐进牙椅,今天要做一颗智齿拔除。医生知道这类患者拔牙前需要考虑抗生素预防,但记不清2021年之后指南调整了什么。然而在诊室里也没有充足的时间查文献,他拿出手机,打开一个AI工具,输入了患者情况……
这个决定,可能顺利,也可能惹麻烦。
2026年1月,大连医科大学口腔科团队用72道这样的“最难题”,专门考了GPT-5、DeepSeek和Claude三个AI模型。这是据研究者所知,全球首次针对这类高风险牙科场景的系统性测试。
结果,可能比我们想象的更微妙。
• GPT-5:72题答对65题,准确率 90.28%
• Claude:答对64题,准确率 88.89%
• DeepSeek:答对63题,准确率 87.50%
统计检验显示,三者之间没有显著差异( $p>0.05$ ,卡方检验)——换句话说,在这72道题里,三个模型的水平基本相当,没有哪一个明显碾压另外两个。
90%,听起来不错。但这个数字会骗人。 要理解它真正意味着什么,你得先知道这场考试有多难。

普通的牙科AI研究,通常是拿执照考试题库来测——龋齿怎么分类、根管治疗适应症、X光片怎么读。这类题有标准规则,背熟了就能答对。
这次不一样。
研究团队出的题,专门针对一类临床上最棘手的患者:有系统性疾病史的患者——心脏病、糖尿病、慢性肾病、肝硬化、药物依赖、正在化疗……这类患者每次坐进牙椅,都不是一个"普通口腔治疗"的问题,而是一个牵扯全身风险的决策:这个患者能不能打含肾上腺素的局麻药?拔牙前要不要预防性用抗生素?凝血功能异常,术中出血怎么处理?降压药和局麻药会不会有反应?
题目不考背知识点,而是"给定一个有具体病史的患者,选最安全的治疗方案"——没有万能公式可套,每一道都需要在多个约束条件之间权衡。
如果普通牙科AI题是月考基础题,这次考的是高考压轴题。
题目来源是全球口腔临床决策的权威参考书 Little & Falace《Dental Management of the Medically Compromised Patient》第10版,覆盖18种系统性疾病,共72道题,每道题独立作答,AI不能靠上下文猜。金标准是教材答案键,没有人为主观判断。
到这里,90%的分数就有了具体含义。 而那10%——大约每10个高风险决策中有1个出错——究竟出在哪里,才是这场测试真正值得关注的地方。
GPT-5、Claude、DeepSeek在物质滥用(Substance Use Disorders)类别的准确率,全部是50%。
50%是什么概念?掷硬币的概率。
为什么这类题这么难?来看一个典型场景:一个有阿片类药物依赖史的患者来做下颌智齿拔除,术后疼痛管理怎么做?
这道题没有简单的答案。你需要同时考虑:既要有效控制疼痛,又不能给患者提供触发成瘾行为的药物;患者可能还在用一些你不知道的非处方药或街头药物,存在相互作用的风险;患者对"疼痛管理"本身可能有心理依赖,处理不当会引发额外的医患矛盾……
没有一条规则可以直接套用,需要多因素实时权衡。
AI最擅长的是"找规则"。但这类题里,规则本身就是模糊的。 遇到这种场景,三个模型,全部退化成了运气。

这是更让人不安的数字。
感染性心内膜炎(Infective Endocarditis)类别的准确率:GPT-5 75%,DeepSeek 25%,Claude 25%。
每4道题只答对1道——这不是"表现不佳",这是在瞎猜的水平线上。
回到文章开头的那个场景:在本次测试的感染性心内膜炎题目中,心脏瓣膜置换史的患者,你问Claude或DeepSeek要不要预防性用抗生素,它有75%的概率给你的是一个错误答案。
为什么会这样?研究者指出,感染性心内膜炎的抗生素预防指南经历了更新,而相关建议的适应症在不同版本之间存在变化。AI的训练数据有知识截止日期,遇到指南更新过的领域,它可能还在用旧答案。 而你在诊室里,不一定知道它在参考的是哪一版。
这是AI在动态医学知识场景中一个问题:它学习的是某个时间点之前的文献。医学指南更新了,它并不知道。
除了上面两个"集体瞎猜"的领域,还有一类问题更隐蔽:
• 三个模型同时答错:5道题,占比 6.9%
• 三个模型给出不同答案:6道题,占比 8.3%
加起来,约15%的题目,AI要么错,要么三个说法互相矛盾。
"同时答错"意味着这些问题超出了当前所有主流AI模型的能力边界。"答案不一致"则意味着:你换一个AI工具,可能得到完全不同的建议——而你无法提前知道哪一个是对的。
把这个比例代入日常使用:就像一本教科书,你无法提前知道哪一页印错了,只知道大概每7页里有1页有问题。但你每翻一页,都不知道自己是不是翻到了印错的那一页。
不是"能用/不能用"的问题,而是"用在哪、用来干什么"。
✅ 可以用的场景
肝病、慢性肾病、神经系统疾病、肺病、获得性出血障碍——研究中,三个模型在这些类别的准确率全部是100%。
这些领域的共同特点是:临床指南清晰,决策路径高度结构化。比如慢性肾病患者的用药剂量调整,有明确分层标准,AI可以作为快速检索工具,帮你核对用药剂量、确认有无禁忌,比自己翻教材快得多。
⚠️ 可以参考、但要核实的场景
目前大多数系统性疾病的中等复杂场景,AI只能给你一个参考方向。但"参考"的意思是:它可以帮你想到你可能遗漏的维度,而不是直接告诉你答案是什么。
❌ 不能单独依赖的场景
物质滥用患者的疼痛管理、感染性心内膜炎的抗生素预防决策——在这两类场景里,AI给出的建议和碰运气差不多。
这三类场景背后,有一条通用边界:AI是知识检索工具,不是临床决策工具。 这两者的差异在于:用AI查一个药物的肾功能禁忌症,你还会用自己的判断去核实;但如果你直接把AI的建议当成决策结果输出,跳过核实这个环节,早晚会踩到那15%的雷区。
整体准确率87.50%,略低于GPT-5和Claude——但这不是故事的全部。
在两个领域中,DeepSeek表现反超了另外两个模型:糖尿病管理和性传播疾病管理。这两个领域DeepSeek准确率均达到100%,而GPT-5在这两个类别的准确率只有75%,Claude在这两个类别的准确率分别为75%、100%。
不过也不能过早下结论,因为DeepSeek由中国团队开发,训练语料的构成与GPT-5、Claude不同,某些领域的相对优势可能反映了训练数据的特定覆盖深度。但每种疾病只测了4道题,这个差异在统计上置信度有限,现在下"国产AI在某领域更强或更弱"的结论还太早。
更值得关注的是一个尚未有人做的研究:这套测试基于美国教材,但中国口腔临床环境有自己的特殊性。
据WHO数据,中国约有8700万乙肝病毒慢性携带者,占全世界乙肝病毒慢性携带者总数的三分之一,且携带者中获得诊断的不足25%,相关牙科处置场景其实在中国临床中出现频率更高;DRG付费模式、带量采购政策会直接影响治疗方案选择,这些在美国教材里完全不存在;国内的部分诊疗指南在细节上也与国外的诊疗指南存在一些差别……
用一套美国教材的题来判断AI在中国诊所里能不能用,这个结论是打折扣的。中国口腔AI真正需要的,是一套基于本土指南的独立深度测试——但目前还没有人做过。
GPT-5、DeepSeek、Claude,通过牙科考试了吗?
通过了——但只通过了大部分。
在有明确指南、规则清晰的疾病类别里,三个AI的表现已经相当可靠,可以作为临床辅助检索工具来用。
但在最难的那类题——物质滥用、感染性心内膜炎——三个模型的表现,和一个复习不够充分的学生差不多。更麻烦的是,你在诊室里问它的时候,它不会提示你"这道题我可能答错了"。
对大多数系统性疾病的常规问题,AI已经够用。但在高风险患者面前,"差不多",不够用。
参考资料:
Altos O., Awad A., Bashah A., Chen G. Performance of GPT-5, DeepSeek, and Claude in dental MCQs for medically compromised patients. Journal of Translational Medicine (2026).
