链载Ai

标题: 医生 AI大模型 = 诊断 “黄金搭档”?普林斯顿大学最新研究揭示人机协同医疗临床决策新范式 [打印本页]

作者: 链载Ai    时间: 昨天 19:17
标题: 医生 AI大模型 = 诊断 “黄金搭档”?普林斯顿大学最新研究揭示人机协同医疗临床决策新范式

摘要

在高风险的医疗诊断领域,单纯依赖大型语言模型(LLMs)或人类医生都存在局限——LLMs 会幻觉、缺乏常识且有偏见;人类则受经验局限与知识覆盖面的限制。本研究提出一种混合集体智能(Hybrid Collective Intelligence, HCI)方法,将医生的临床推理与 LLM 的信息处理能力结合,对 2,133 个真实感病例(含 40,762 份医生诊断与 5 个最先进 LLM 的诊断输出)进行加权融合。结果显示,混合集体在所有专业与经验层级下的诊断准确率均显著优于人类单独、AI 单独及各自的集体形式。


背景

每年美国约79.5 万例死亡或永久伤残与诊断错误相关。尽管 LLM 在自然语言处理与多领域问答中表现出色,包括医学在内的众多场景,但它们的结构性缺陷(如幻觉、偏见、缺乏常识让其在临床高风险应用中存在安全隐患。
研究表明,“集体智能”能通过不同专家独立判断的组合提升整体准确性。本研究创新地将人类专家与多个 LLM 视为“同台评审”,利用各自优势与互补性,构建混合集体智能体系。

为什么 1+1>2?关键在于错误类型的差异性:
举个例子:在一例 “俄亥俄州建筑工人胸痛” 病例中,AI 更易联想到真菌感染(当地高发),而医生可能优先考虑职业相关肺部疾病,二者结合最终锁定 “组织胞浆菌病”。

研究方法

数据来源

LLM 选择

  1. Anthropic Claude 3 Opus
  2. Google Gemini Pro 1.0
  3. Meta LLaMA 2 70B
  4. Mistral Large
  5. OpenAI GPT-4
    每个模型需输出前五个最可能的诊断

融合流程

  1. 标准化处理

    将所有人类与 LLM 的原始诊断映射至 SNOMED CT 唯一 ID,统一同义词、缩写、英式/美式拼写等
  2. 加权多数投票





欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5