中文
English

GPT-5、DeepSeek、Claude通过牙科考试了吗?

好的牙编辑部
2026-03-13

一名有心脏瓣膜置换史的患者坐进牙椅,今天要做一颗智齿拔除。医生知道这类患者拔牙前需要考虑抗生素预防,但记不清2021年之后指南调整了什么。然而在诊室里也没有充足的时间查文献,他拿出手机,打开一个AI工具,输入了患者情况……

这个决定,可能顺利,也可能惹麻烦。

2026年1月,大连医科大学口腔科团队用72道这样的“最难题”,专门考了GPT-5、DeepSeek和Claude三个AI模型。这是据研究者所知,全球首次针对这类高风险牙科场景的系统性测试。

结果,可能比我们想象的更微妙。

先看成绩单

• GPT-5:72题答对65题,准确率 90.28%

• Claude:答对64题,准确率 88.89%

• DeepSeek:答对63题,准确率 87.50%

统计检验显示,三者之间没有显著差异( $p>0.05$ ,卡方检验)——换句话说,在这72道题里,三个模型的水平基本相当,没有哪一个明显碾压另外两个。

90%,听起来不错。但这个数字会骗人。 要理解它真正意味着什么,你得先知道这场考试有多难。

这不是普通牙科题

普通的牙科AI研究,通常是拿执照考试题库来测——龋齿怎么分类、根管治疗适应症、X光片怎么读。这类题有标准规则,背熟了就能答对。

这次不一样。

研究团队出的题,专门针对一类临床上最棘手的患者:有系统性疾病史的患者——心脏病、糖尿病、慢性肾病、肝硬化、药物依赖、正在化疗……这类患者每次坐进牙椅,都不是一个"普通口腔治疗"的问题,而是一个牵扯全身风险的决策:这个患者能不能打含肾上腺素的局麻药?拔牙前要不要预防性用抗生素?凝血功能异常,术中出血怎么处理?降压药和局麻药会不会有反应?

题目不考背知识点,而是"给定一个有具体病史的患者,选最安全的治疗方案"——没有万能公式可套,每一道都需要在多个约束条件之间权衡。

如果普通牙科AI题是月考基础题,这次考的是高考压轴题。

题目来源是全球口腔临床决策的权威参考书 Little & Falace《Dental Management of the Medically Compromised Patient》第10版,覆盖18种系统性疾病,共72道题,每道题独立作答,AI不能靠上下文猜。金标准是教材答案键,没有人为主观判断。

到这里,90%的分数就有了具体含义。 而那10%——大约每10个高风险决策中有1个出错——究竟出在哪里,才是这场测试真正值得关注的地方。

那10%去哪了:两个让人皱眉的发现

发现一:物质滥用患者——三个AI全部只答对一半

GPT-5、Claude、DeepSeek在物质滥用(Substance Use Disorders)类别的准确率,全部是50%。

50%是什么概念?掷硬币的概率。

为什么这类题这么难?来看一个典型场景:一个有阿片类药物依赖史的患者来做下颌智齿拔除,术后疼痛管理怎么做?

这道题没有简单的答案。你需要同时考虑:既要有效控制疼痛,又不能给患者提供触发成瘾行为的药物;患者可能还在用一些你不知道的非处方药或街头药物,存在相互作用的风险;患者对"疼痛管理"本身可能有心理依赖,处理不当会引发额外的医患矛盾……

没有一条规则可以直接套用,需要多因素实时权衡。

AI最擅长的是"找规则"。但这类题里,规则本身就是模糊的。 遇到这种场景,三个模型,全部退化成了运气。

发现二:感染性心内膜炎——DeepSeek和Claude只答对25%

这是更让人不安的数字。

感染性心内膜炎(Infective Endocarditis)类别的准确率:GPT-5 75%,DeepSeek 25%,Claude 25%。

每4道题只答对1道——这不是"表现不佳",这是在瞎猜的水平线上。

回到文章开头的那个场景:在本次测试的感染性心内膜炎题目中,心脏瓣膜置换史的患者,你问Claude或DeepSeek要不要预防性用抗生素,它有75%的概率给你的是一个错误答案。

为什么会这样?研究者指出,感染性心内膜炎的抗生素预防指南经历了更新,而相关建议的适应症在不同版本之间存在变化。AI的训练数据有知识截止日期,遇到指南更新过的领域,它可能还在用旧答案。 而你在诊室里,不一定知道它在参考的是哪一版。

这是AI在动态医学知识场景中一个问题:它学习的是某个时间点之前的文献。医学指南更新了,它并不知道。

还有一个雷区,更难发现

除了上面两个"集体瞎猜"的领域,还有一类问题更隐蔽:

• 三个模型同时答错:5道题,占比 6.9%

• 三个模型给出不同答案:6道题,占比 8.3%

加起来,约15%的题目,AI要么错,要么三个说法互相矛盾

"同时答错"意味着这些问题超出了当前所有主流AI模型的能力边界。"答案不一致"则意味着:你换一个AI工具,可能得到完全不同的建议——而你无法提前知道哪一个是对的。

把这个比例代入日常使用:就像一本教科书,你无法提前知道哪一页印错了,只知道大概每7页里有1页有问题。但你每翻一页,都不知道自己是不是翻到了印错的那一页。

AI的应用场景

不是"能用/不能用"的问题,而是"用在哪、用来干什么"。

✅ 可以用的场景

肝病、慢性肾病、神经系统疾病、肺病、获得性出血障碍——研究中,三个模型在这些类别的准确率全部是100%。

这些领域的共同特点是:临床指南清晰,决策路径高度结构化。比如慢性肾病患者的用药剂量调整,有明确分层标准,AI可以作为快速检索工具,帮你核对用药剂量、确认有无禁忌,比自己翻教材快得多。

⚠️ 可以参考、但要核实的场景

目前大多数系统性疾病的中等复杂场景,AI只能给你一个参考方向。但"参考"的意思是:它可以帮你想到你可能遗漏的维度,而不是直接告诉你答案是什么。

❌ 不能单独依赖的场景

物质滥用患者的疼痛管理、感染性心内膜炎的抗生素预防决策——在这两类场景里,AI给出的建议和碰运气差不多。

这三类场景背后,有一条通用边界:AI是知识检索工具,不是临床决策工具。 这两者的差异在于:用AI查一个药物的肾功能禁忌症,你还会用自己的判断去核实;但如果你直接把AI的建议当成决策结果输出,跳过核实这个环节,早晚会踩到那15%的雷区。

DeepSeek的成绩怎么看

整体准确率87.50%,略低于GPT-5和Claude——但这不是故事的全部。

在两个领域中,DeepSeek表现反超了另外两个模型:糖尿病管理性传播疾病管理。这两个领域DeepSeek准确率均达到100%,而GPT-5在这两个类别的准确率只有75%,Claude在这两个类别的准确率分别为75%、100%。

不过也不能过早下结论,因为DeepSeek由中国团队开发,训练语料的构成与GPT-5、Claude不同,某些领域的相对优势可能反映了训练数据的特定覆盖深度。但每种疾病只测了4道题,这个差异在统计上置信度有限,现在下"国产AI在某领域更强或更弱"的结论还太早。

更值得关注的是一个尚未有人做的研究:这套测试基于美国教材,但中国口腔临床环境有自己的特殊性。

据WHO数据,中国约有8700万乙肝病毒慢性携带者,占全世界乙肝病毒慢性携带者总数的三分之一,且携带者中获得诊断的不足25%,相关牙科处置场景其实在中国临床中出现频率更高;DRG付费模式、带量采购政策会直接影响治疗方案选择,这些在美国教材里完全不存在;国内的部分诊疗指南在细节上也与国外的诊疗指南存在一些差别……

用一套美国教材的题来判断AI在中国诊所里能不能用,这个结论是打折扣的。中国口腔AI真正需要的,是一套基于本土指南的独立深度测试——但目前还没有人做过。

回到最初的问题

GPT-5、DeepSeek、Claude,通过牙科考试了吗?

通过了——但只通过了大部分。

在有明确指南、规则清晰的疾病类别里,三个AI的表现已经相当可靠,可以作为临床辅助检索工具来用。

但在最难的那类题——物质滥用、感染性心内膜炎——三个模型的表现,和一个复习不够充分的学生差不多。更麻烦的是,你在诊室里问它的时候,它不会提示你"这道题我可能答错了"。

对大多数系统性疾病的常规问题,AI已经够用。但在高风险患者面前,"差不多",不够用。

参考资料:
Altos O., Awad A., Bashah A., Chen G. Performance of GPT-5, DeepSeek, and Claude in dental MCQs for medically compromised patients. Journal of Translational Medicine (2026).

下一篇:这是最后一篇
上一篇:这是第一篇
快讯尾图广告(固定)-副本1
ABUIABACGAAgrOTSxAYo59uBjQcwsAk4ygI
插件代码
✉️
订阅我们的资讯
我们精心整理重要新闻与独家洞察,第一时间直达您的收件箱。
独家资讯、独家数据、独家故事
会员解锁·更多产业深度内容
1  /  40
自由容器
广告图
ABUIABACGAAg6qGpxwYouMDB-QMwsAk4rAI
去往PC端
更大视野·更多细节,点此去往PC端 >>
自由容器
插件代码
【好的牙】内容基于公开资料与专业判断,供行业参考,不构成决策建议,读者需自行判断与承担风险; 版权归属本平台,未经授权不得转载或商用。 🧾 如需勘误 / 投稿 / 合作,请联系客服微信:HDSW_001
广告弹窗
4
2026华南国际口腔展