ChatGPT 未通过泌尿科医生的自我评估测试

生活 编辑:
导读 在人们对人工智能 (AI) 技术在医学和医疗保健中的潜在作用越来越感兴趣的时候,泌尿外科实践中报道的一项新研究发现,开创性的 ChatGPT

在人们对人工智能 (AI) 技术在医学和医疗保健中的潜在作用越来越感兴趣的时候,泌尿外科实践中报道的一项新研究发现,开创性的 ChatGPT 聊天机器人在主要专业自我评估工具上表现不佳。

ChatGPT 在 AUA 广泛使用的泌尿外科自我评估研究计划 (SASP) 中的正确答案率不到 30%。“ChatGPT 不仅对泌尿外科实践中的临床问题的正确答案率很低,而且还会犯某些类型的错误,从而构成传播医学错误信息的风险,”医学博士、公共卫生硕士 Christopher M. Deibert 及其同事评论道内布拉斯加医疗中心。

经过 AI 训练的聊天机器人能否通过临床泌尿外科知识测试?

大型语言模型 (LLM) 的最新进展为将 AI 技术用作调解人类交互的工具提供了机会。“通过充分的培训和应用,这些人工智能系统可以处理复杂的信息,分析想法之间的关系,并对询问产生连贯的反应,”作者指出。

ChatGPT(Chat Generative Pre-Trained Tranormer)是一种创新的 LLM 聊天机器人,激发了人们对在包括健康和医学在内的广泛环境中使用的兴趣。在最近的一项研究中,ChatGPT 在美国医师执照答案 (USMLE) 的所有三个步骤中的得分都达到或接近及格水平,而无需任何关于医学主题的特殊培训或反馈。这种经过 AI 训练的创新工具能否在更高级的外科专业临床知识测试中表现同样出色?

为了找出答案,Deibert 博士及其同事评估了 ChatGPT 在 AUA 的自我评估研究计划 (SASP) 中的表现——这是一项包含 150 个问题的实践答案 ,涉及泌尿外科医学知识的核心课程。SASP 是一项有价值的临床知识测试,适用于泌尿科医生培训和执业专家,为董事会认证做准备。该研究排除了 15 个包含视觉信息(例如图片或图表)的问题。

标签:
免责声明:本文由用户上传,如有侵权请联系删除!