链载Ai

标题: 从8万 数据源提炼洞察,ChatGPT Zilliz LangChain如何成创新药研发新范式 [打印本页]

作者: 链载Ai    时间: 昨天 21:24
标题: 从8万 数据源提炼洞察,ChatGPT Zilliz LangChain如何成创新药研发新范式

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;line-height: 1.75em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">过去几十年中,如果说有一个行业,成功率比赌博还低,成本投入比芯片还高,那必定是创新药。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;line-height: 1.75em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">先看几个数据我们就有概念了:百亿研发成本、90%以上的失败率,十年起步的研发时间。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;line-height: 1.75em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">具体来说:

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;line-height: 1.75em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">过去十多年,全球创新药的平均开发成本高达13亿美元,其中,抗癌和免疫调节药物上,平均每种药物的研发成本高达27亿美元。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;line-height: 1.75em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">但是,药物的研发成功率上,到2022 年仅为 6.3%,且仍有下降趋势。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;line-height: 1.75em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">那么一款新药的研发以及获利期分别是多久呢?

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;line-height: 1.75em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">研发一款新药,10-15年是常态。与此同时,创新药产业还长期被专利悬崖所制约:即一款创新药的专利有效期通常仅有20年,而除掉漫长的6-10年临床,企业对药品的实际独占权仅有12-14年。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;line-height: 1.75em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">若专利悬崖后若无接替产品,常常会出现企业命悬一线或者市值崩塌的情况。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;line-height: 1.75em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">也就是说,在这中间,加速任何一个环节尤其是耗时最久的临床期的效率与变革,无论对药企的发展,还是对病人的生存质量,都至关重要。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;line-height: 1.75em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">而TrialHub 正是这样一个平台。

通过爬取全球医药相关的 80,000 多个来源(包括 PubMed),包括临床试验数据、各国药品报销体系以及患者治疗路径在内的多种数据,并借助大模型与向量数据库对其进行加工汇总,TrialHub 可以极大加速药企和研究组织的临床试验速度与效率。


01

RAG如何变革传统医药研发的临床流程


通常来说,一款创新药的研发时间,大概在十年上下。进一步细分,则可以分为三个阶段:

早期研究与预临床阶段大约 3-6年;临床开发阶段(I期、II期、III期)约 6-10年;市场推广阶段:约 2-5年。

其中,临床往往是耗时最久,资本投入最大的阶段。

那么如何加速临床?TrialHub给出的答案是RAG。

TrialHub 旗下核心产品 “IQ” 允许用户以自然语言提问的方式,获取关于试验和患者的核心信息,解答与患者、适应症、治疗领域、药物相关的问题。可以应用于可行性研究、项目管理、临床运营、患者招募与参与、业务拓展等多个细分业务之中。

相比传统的大模型Agent,IQ的工作流程与能力有三大不同:

在IQ平台的搭建上,TrialHub 则采用了LangChain + ChatGPT API+Zilliz Cloud的模式进行RAG搭建。Embedding模型,则采用基于 BERT 微调的医学专用模型,生成的embedding数据,则会存储在 Zilliz Cloud 中用于高速、精准的检索。目前,这一套系统已管理超过 2.5 亿个向量。


02

创新药临床的RAG搭建,需要怎样的向量数据库?


TrialHub 的数据工程师 Todor Voynikov 加入团队后,接到的首个任务就是从零开始构建一个专业的医药RAG 系统。

在他看来,这样一个生产级RAG,必须保证三个原则:

1.高质量搜索是系统的核心

医疗场景,对失误几乎0容忍。

2.通用embedding模型不行,医疗需要定制语义空间

TrialHub 基于真实医疗文档和记录微调了embedding模型,专门用于各种医学术语的表示。

3.环节中的每一个组件都是业内最优。

在模型侧,TrialHub 采用了行业内认可度最高的 ChatGPT;框架选择了相对成熟的LangChain 。

接下来的问题就是向量数据库,Pinecone、Qdrant、Milvus 这么多方案该如何选择?

经梳理发现,TrialHub 的数据量庞大、信息来源复杂,并且有自定义的测试基准,因此,向量数据库需要满足以下特征:能够处理数十亿个向量、具备商业级的系统可靠性、能够同时处理结构化信息,以及PDF在内格式复杂的非结构化内容。

经过多轮测评,Milvus 因为“在处理从 1,000 到几百万条数据的批量检索任务时,表现非常出色”最终脱颖而出。

在此不久后,TrialHub 又将其向量数据库选型升级到了Milvus 的托管版本 —— Zilliz Cloud,在他们看来,Zilliz cloud拥有:

结语

放眼未来 ,Zilliz Cloud 与TrialHub 还计划继续增大双方的合作范围,包括:

在TrialHub 看来:高质量的医疗RAG,必须以高质量的非结构化信息检索为起点,Zilliz Cloud是加速创新药临床阶段数据的管理与挖掘的重要基础设施。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5