GPT-5、DeepSeek、Claude通过牙科考试了吗？

好的牙编辑部

2026-03-13

一名有心脏瓣膜置换史的患者坐进牙椅，今天要做一颗智齿拔除。医生知道这类患者拔牙前需要考虑抗生素预防，但记不清2021年之后指南调整了什么。然而在诊室里也没有充足的时间查文献，他拿出手机，打开一个AI工具，输入了患者情况……

这个决定，可能顺利，也可能惹麻烦。

2026年1月，大连医科大学口腔科团队用72道这样的“最难题”，专门考了GPT-5、DeepSeek和Claude三个AI模型。这是据研究者所知，全球首次针对这类高风险牙科场景的系统性测试。

结果，可能比我们想象的更微妙。

先看成绩单

• GPT-5：72题答对65题，准确率 90.28%

• Claude：答对64题，准确率 88.89%

• DeepSeek：答对63题，准确率 87.50%

统计检验显示，三者之间没有显著差异（ $p>0.05$ ，卡方检验）——换句话说，在这72道题里，三个模型的水平基本相当，没有哪一个明显碾压另外两个。

90%，听起来不错。但这个数字会骗人。 要理解它真正意味着什么，你得先知道这场考试有多难。

这不是普通牙科题

普通的牙科AI研究，通常是拿执照考试题库来测——龋齿怎么分类、根管治疗适应症、X光片怎么读。这类题有标准规则，背熟了就能答对。

这次不一样。

研究团队出的题，专门针对一类临床上最棘手的患者：有系统性疾病史的患者——心脏病、糖尿病、慢性肾病、肝硬化、药物依赖、正在化疗……这类患者每次坐进牙椅，都不是一个"普通口腔治疗"的问题，而是一个牵扯全身风险的决策：这个患者能不能打含肾上腺素的局麻药？拔牙前要不要预防性用抗生素？凝血功能异常，术中出血怎么处理？降压药和局麻药会不会有反应？

题目不考背知识点，而是"给定一个有具体病史的患者，选最安全的治疗方案"——没有万能公式可套，每一道都需要在多个约束条件之间权衡。

如果普通牙科AI题是月考基础题，这次考的是高考压轴题。

题目来源是全球口腔临床决策的权威参考书 Little & Falace《Dental Management of the Medically Compromised Patient》第10版，覆盖18种系统性疾病，共72道题，每道题独立作答，AI不能靠上下文猜。金标准是教材答案键，没有人为主观判断。

到这里，90%的分数就有了具体含义。 而那10%——大约每10个高风险决策中有1个出错——究竟出在哪里，才是这场测试真正值得关注的地方。

那10%去哪了：两个让人皱眉的发现

发现一：物质滥用患者——三个AI全部只答对一半

GPT-5、Claude、DeepSeek在物质滥用（Substance Use Disorders）类别的准确率，全部是50%。

50%是什么概念？掷硬币的概率。

为什么这类题这么难？来看一个典型场景：一个有阿片类药物依赖史的患者来做下颌智齿拔除，术后疼痛管理怎么做？

这道题没有简单的答案。你需要同时考虑：既要有效控制疼痛，又不能给患者提供触发成瘾行为的药物；患者可能还在用一些你不知道的非处方药或街头药物，存在相互作用的风险；患者对"疼痛管理"本身可能有心理依赖，处理不当会引发额外的医患矛盾……

没有一条规则可以直接套用，需要多因素实时权衡。

AI最擅长的是"找规则"。但这类题里，规则本身就是模糊的。 遇到这种场景，三个模型，全部退化成了运气。

发现二：感染性心内膜炎——DeepSeek和Claude只答对25%

这是更让人不安的数字。

感染性心内膜炎（Infective Endocarditis）类别的准确率：GPT-5 75%，DeepSeek 25%，Claude 25%。

每4道题只答对1道——这不是"表现不佳"，这是在瞎猜的水平线上。

回到文章开头的那个场景：在本次测试的感染性心内膜炎题目中，心脏瓣膜置换史的患者，你问Claude或DeepSeek要不要预防性用抗生素，它有75%的概率给你的是一个错误答案。

为什么会这样？研究者指出，感染性心内膜炎的抗生素预防指南经历了更新，而相关建议的适应症在不同版本之间存在变化。AI的训练数据有知识截止日期，遇到指南更新过的领域，它可能还在用旧答案。 而你在诊室里，不一定知道它在参考的是哪一版。

这是AI在动态医学知识场景中一个问题：它学习的是某个时间点之前的文献。医学指南更新了，它并不知道。

还有一个雷区，更难发现

除了上面两个"集体瞎猜"的领域，还有一类问题更隐蔽：

• 三个模型同时答错：5道题，占比 6.9%

• 三个模型给出不同答案：6道题，占比 8.3%

加起来，约15%的题目，AI要么错，要么三个说法互相矛盾。

"同时答错"意味着这些问题超出了当前所有主流AI模型的能力边界。"答案不一致"则意味着：你换一个AI工具，可能得到完全不同的建议——而你无法提前知道哪一个是对的。

把这个比例代入日常使用：就像一本教科书，你无法提前知道哪一页印错了，只知道大概每7页里有1页有问题。但你每翻一页，都不知道自己是不是翻到了印错的那一页。

AI的应用场景

不是"能用/不能用"的问题，而是"用在哪、用来干什么"。

✅ 可以用的场景

肝病、慢性肾病、神经系统疾病、肺病、获得性出血障碍——研究中，三个模型在这些类别的准确率全部是100%。

这些领域的共同特点是：临床指南清晰，决策路径高度结构化。比如慢性肾病患者的用药剂量调整，有明确分层标准，AI可以作为快速检索工具，帮你核对用药剂量、确认有无禁忌，比自己翻教材快得多。

⚠️ 可以参考、但要核实的场景

目前大多数系统性疾病的中等复杂场景，AI只能给你一个参考方向。但"参考"的意思是：它可以帮你想到你可能遗漏的维度，而不是直接告诉你答案是什么。

❌ 不能单独依赖的场景

物质滥用患者的疼痛管理、感染性心内膜炎的抗生素预防决策——在这两类场景里，AI给出的建议和碰运气差不多。

这三类场景背后，有一条通用边界：AI是知识检索工具，不是临床决策工具。 这两者的差异在于：用AI查一个药物的肾功能禁忌症，你还会用自己的判断去核实；但如果你直接把AI的建议当成决策结果输出，跳过核实这个环节，早晚会踩到那15%的雷区。

DeepSeek的成绩怎么看

整体准确率87.50%，略低于GPT-5和Claude——但这不是故事的全部。

在两个领域中，DeepSeek表现反超了另外两个模型：糖尿病管理和性传播疾病管理。这两个领域DeepSeek准确率均达到100%，而GPT-5在这两个类别的准确率只有75%，Claude在这两个类别的准确率分别为75%、100%。

不过也不能过早下结论，因为DeepSeek由中国团队开发，训练语料的构成与GPT-5、Claude不同，某些领域的相对优势可能反映了训练数据的特定覆盖深度。但每种疾病只测了4道题，这个差异在统计上置信度有限，现在下"国产AI在某领域更强或更弱"的结论还太早。

更值得关注的是一个尚未有人做的研究：这套测试基于美国教材，但中国口腔临床环境有自己的特殊性。

据WHO数据，中国约有8700万乙肝病毒慢性携带者，占全世界乙肝病毒慢性携带者总数的三分之一，且携带者中获得诊断的不足25%，相关牙科处置场景其实在中国临床中出现频率更高；DRG付费模式、带量采购政策会直接影响治疗方案选择，这些在美国教材里完全不存在；国内的部分诊疗指南在细节上也与国外的诊疗指南存在一些差别……

用一套美国教材的题来判断AI在中国诊所里能不能用，这个结论是打折扣的。中国口腔AI真正需要的，是一套基于本土指南的独立深度测试——但目前还没有人做过。