链载Ai

标题: 医疗大模型:数据 知识双轮驱动实现医学推理、医患问答、病历自动生成、临床决策,为未来医疗服务提供全新可能性 [打印本页]

作者: 链载Ai    时间: 前天 22:18
标题: 医疗大模型:数据 知识双轮驱动实现医学推理、医患问答、病历自动生成、临床决策,为未来医疗服务提供全新可能性

医疗大模型:数据+知识双轮驱动实现医学推理、医患问答、病历自动生成、临床决策,为未来医疗服务提供全新可能性

1.指令数据集构建

目前大多数开源的ChatLLM项目使用的是其他模型(如:ChatGPT)生成的指令数据,其不可避免的存在数据幻想的问题,数据幻想问题将严重影响LLM在实际场景中的应用和拓展。因此,本项目为了提高医疗领域的知识问答的准确性,使用如下方式构造指令数据集:

  1. 启真医学知识库收录的真实医患知识问答数据(疾病、药品、检查检验、手术、预后、食物等),共计560K条指令数据;
  2. 药品知识数据:在启真医学知识库的药品文本知识基础上,通过对半结构化数据设置特定的问题模板(如:“{药品}的适应病症是什么?”)构造指令数据集,共计180K条指令数据;
  3. 疾病知识数据:在启真医学知识库的疾病文本知识基础上,通过对半结构化数据设置特定的问题模板(如:“{疾病}的典型症状是什么?”)构造指令数据集,共计298K条指令数据;

1.1训练细节

  1. QiZhen-Chinese-LLaMA-7B- Checkpoint-3500:本项目基于Chinese-LLaMA-Plus-7B进行指令微调,该项目在7张A800(80G)上进行训练,本次开源的是LoRA权重为训练过程中的第3500 steps(训练23h50min) ;
  2. QiZhen-Chinese-LLaMA-7B- Checkpoint-6000:本项目基于Chinese-LLaMA-Plus-7B进行指令微调,该项目在7张A800(80G)上进行训练,本次开源的是LoRA权重为训练过程中的第6000 steps(训练40h56min);
  3. QiZhen-ChatGLM-6B- Checkpoint-2500:本项目基于ChatGLM-6B进行指令微调,该项目在7张A800(80G)上进行训练,本次开源的是LoRA权重为训练过程中的第2500 steps(训练16h20min);
  4. QiZhen-CaMA-13B-Checkpoint-3600:本项目基于CaMA-13B进行指令微调,该项目在7张A800(80G)上进行训练,本次开源的是LoRA权重为训练过程中的第3600 steps(训练37h37min)。
  5. QiZhen-CaMA-13B-Checkpoint-6000:本项目基于CaMA-13B进行指令微调,该项目在7张A800(80G)上进行训练,本次开源的是LoRA权重为训练过程中的第6000 steps(训练54h30min)。
  6. QiZhen-CaMA-13B-Checkpoint-12400:本项目基于CaMA-13B进行指令微调,该项目在6张A800(80G)上进行训练,本次开源的是LoRA权重为训练过程中的第12400 steps(训练114h46min)。

1.2 模型下载

模型指令数据集Base ModelLoRA下载
QiZhen-Chinese-LLaMA-7B- Checkpoint-3500740KChinese-LLaMA-Plus-7B百度网盘
QiZhen-Chinese-LLaMA-7B- Checkpoint-6000740KChinese-LLaMA-Plus-7B百度网盘
QiZhen-ChatGLM-6B- Checkpoint-2500740KChatGLM-6B百度网盘
QiZhen-CaMA-13B-Checkpoint-3600740KCaMA百度网盘
QiZhen-CaMA-13B-Checkpoint-6000740KCaMA百度网盘
QiZhen-CaMA-13B-Checkpoint-124001038KCaMA百度网盘

2.模型快速使用

2.2 QiZhen-Chinese-LLaMA-7B

  1. 环境安装;
pip install -r requirements.txt
  1. 获取Chinese-LLaMA-Plus-7B,详情见这里;

  2. 下载LoRA,将模型下载并放在lora目录下;

  3. 执行scripts/merge_llama_plus.sh 脚本;

sh scripts/merge_llama_plus.sh
  1. 修改gradio_chinese-llama_demo.py里的模型位置参数;
  2. 启动demo;
python gradio_chinese-llama_demo.py

2.2QiZhen-ChatGLM-6B

  1. 环境安装;
pip install -r requirements.txt
  1. 获取ChatGLM-6B,详情见这里;

  2. 下载LoRA,将模型下载并放在lora目录下;

  3. 修改gradio_chatglm_demo.py里的模型位置参数;

  4. 启动demo;

python gradio_chatglm_demo.py

2.3 QiZhen-CaMA-13B-Checkpoint-3600

  1. 环境安装;
pip install -r requirements.txt
  1. 获取CaMA,详情见这里;

  2. 下载LoRA,将模型下载并放在lora目录下;

  3. 修改gradio_cama_demo.py里的模型位置参数;

  4. 启动demo;

python gradio_cama_demo.py

3.效果展示

启真医学大模型坚持“数据+知识双轮驱动”的技术路线,通过大模型技术和医学知识库的紧密结合,融合医疗应用场景中的实际需求,从医学数据治理、医学推理、医患问答、病历自动生成、临床决策辅助支持系统等方面开展迭代研发,助力大模型技术在医疗行业的落地和应用实践。下图是“启真医学知识库辅助大模型生成答案”的案例,该项技术在测试后择机发布。

3.1 模型效果对比

测试1

测试2

测试3

测试4

  1. 心脏杂音:赖特综合征I型的特征性心脏杂音是卵圆孔未闭引起的右向左分流杂音,通常表现为杂音强度、位置和频率的变异性。

  2. 肺动脉高压:赖特综合征I型患者通常患有肺动脉高压,这可能导致呼吸衰竭和心脏功能衰竭。

  3. 生长发育异常:大多数赖特综合征I型患者在儿童和青少年时期会表现出生长发育异常,如身材矮小、营养不良和巨人症。

  4. 心脏结构异常:尽管杂音是赖特综合征I型的主要临床表现,但部分患者也可能患有其他心脏结构异常,如心脏瓣膜疾病和心律失常。

  5. 其他症状:赖特综合征I型患者可能还具有其他症状,如疲劳、呼吸困难、胸痛、咳嗽、腹胀和便秘等。这些症状可能与其心脏杂音和肺动脉高压有关,但也可能与其他因素有关。

    需要注意的是,赖特综合征I型是一种罕见的疾病,其临床表现可能因个体差异而有所不同。如果怀疑自己患有赖特综合征I型,请及时咨询医生进行诊断和治疗。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5