|
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);"> 在当今这个数据驱动的时代,很多有价值的信息其实都藏在非结构化的文本里——比如临床病历、冗长的法律合同,或者用户反馈的讨论串。从这些文档中提取出有意义、可追溯的信息,一直以来都是技术和实践上的双重挑战。 最近,Google AI 推出了一款新的开源 Python 库,叫做ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(0, 152, 116);">LangExtract,就是冲着解决这个问题来的。它利用像 Gemini 这样的大语言模型(LLM),实现自动化信息抽取,而且特别强调结果的ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(0, 152, 116);">可追溯性和ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(0, 152, 116);">透明性。说实话,我看到这个工具的第一反应是:这正是我们在做文本结构化时常常需要但又不容易实现的东西。 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 8px;color: rgb(63, 63, 63);">LangExtract 的几个关键创新点ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(0, 152, 116);">1. 声明式、可追溯的抽取方式ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);"> LangExtract 允许用户通过自然语言指令,再配上几个高质量的“示例”(few-shot examples),来定义自己的抽取任务。也就是说,你可以明确告诉系统:我想抽哪些实体、关系或事实,输出要什么结构。这一点对开发者和数据分析师来说非常友好。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);"> 更重要的是,每一个被抽出来的信息,都会ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(0, 152, 116);">直接关联到原文中的出处。这意味着你可以回溯、验证,甚至做审计。在医疗、金融这类对准确性要求极高的领域,这种可追溯性是非常关键的。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(0, 152, 116);">2. 跨领域的适用性 这个工具不只停留在演示层面,它在真实场景中也有很强的适应能力。比如: - •医疗:从临床记录中自动提取药物名称、剂量、给药方式;
- •金融与法律:从复杂的合同或风险报告中抓取关键条款;
- • 甚至在人文艺术领域,比如分析莎士比亚戏剧中的人物、情感和人物关系,也能派上用场。
我自己试了一下用它处理一段文学文本,发现它的输出不仅结构清晰,还能准确标注出每个信息来自哪一句话,体验感确实不错。 3. 利用 LLM 实现 Schema 强制约束 LangExtract 背后由 Gemini 驱动,同时也支持其他 LLM。它的特别之处在于,能强制输出符合你定义的结构(比如标准的 JSON 格式)。这样一来,结果不仅是准确的,还能直接接入数据库、分析系统或下游 AI 流程。 传统 LLM 经常存在“幻觉”(hallucination)和输出格式不稳定(schema drift)的问题,而 LangExtract 通过结合用户指令和原文内容,把输出“锚定”在真实文本上,有效缓解了这些问题。 4. 可扩展性与可视化支持- •处理长文本能力强:它会自动把长文档切块,然后并行处理,最后再聚合结果,效率比较高;
- •交互式可视化:可以生成交互式的 HTML 报告,每个提取出的实体都能高亮显示在原文中的位置,方便做审核和错误分析;
- •集成方便:支持 Google Colab、Jupyter,也可以单独导出 HTML 文件,开发调试的闭环很顺畅。
我记得以前做类似项目时,光是写个可视化脚本就要花半天,现在 LangExtract 直接内置了这个功能,省了不少力气。 5. 安装和使用都很简单 安装只需要一行命令: pipinstalllangextract 下面是一个从莎士比亚文本中提取人物、情感和关系的小例子: importlangextractaslx importtextwrap
# 1. 定义提示词 prompt = textwrap.dedent(""" Extract characters, emotions, and relationships in order of appearance. Use exact text for extractions. Do not paraphrase or overlap entities. Provide meaningful attributes for each entity to add context. """)
# 2. 提供高质量示例 examples = [ lx.data.ExampleData( text="ROMEO. But soft! What light through yonder window breaks? It is the east, and Juliet is the sun.", extractions=[ lx.data.Extraction(extraction_class="character", extraction_text="ROMEO", attributes={"emotional_state":"wonder"}), lx.data.Extraction(extraction_class="emotion", extraction_text="But soft!", attributes={"feeling":"gentle awe"}), lx.data.Extraction(extraction_class="relationship", extraction_text="Juliet is the sun", attributes={"type":"metaphor"}), ], ) ]
# 3. 对新文本进行抽取 input_text ="Lady Juliet gazed longingly at the stars, her heart aching for Romeo" result = lx.extract( text_or_documents=input_text, prompt_description=prompt, examples=examples, model_id="gemini-2.5-pro" )
# 4. 保存并生成可视化报告 lx.io.save_annotated_documents([result], output_name="extraction_results.jsonl") html_content = lx.visualize("extraction_results.jsonl") withopen("visualization.html","w")asf: f.write(html_content)
运行完之后,你会得到结构化的 JSON 输出,还有一个交互式的 HTML 页面,点开就能看到每个提取结果在原文中的位置,非常直观。 实际应用场景举例- •医学领域:可以从临床或影像报告中提取诊断信息、药物使用情况,并与原文句子一一对应,有助于提升医疗数据的结构化水平和系统间互操作性;
- •金融与法律:自动提取合同中的责任条款、风险项,所有输出都有上下文支撑,便于合规审查;
- •科研与数据挖掘:适合大规模文献分析,比如从 PubMed 上万篇论文中批量抽取实验设计或结果。
Google 团队还专门做了一个叫RadExtract的演示,专门用于结构化放射科报告,不仅能告诉你抽了什么,还能精确指出信息在原文的哪个位置,实用性很强。 和传统方法的对比 | | | | | | | | | | | | | | | | | 以 Gemini 为主,支持其他 LLM,也可本地部署 |
小结 总体来看,LangExtract 为从非结构化文本中提取结构化数据提供了一个新思路。它有几个让我觉得值得推荐的特点: 如果你正在做信息抽取、知识图谱构建,或者需要处理大量非结构化文本,LangExtract 值得一试。项目已经在 GitHub 开源,有教程、代码示例和 Notebook,上手门槛不高。 |