返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

RAG之对于非结构性数据提取

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 17:30 |阅读模式 打印 上一主题 下一主题
前段时间在B站上看到一个up主分享了一个如何《将图片或PDF中复杂的表格数据转成纯文本输入大模型,如何保持表格文字的排版布局不变?》,后面在评论中和up主讨论了一下,当一个文档中出现了多种数据结构形式,比如文本、图片、表格、公式,而不是视频分享中的单一模式,对于这些形式内容的提取可以采用哪些方法呢?
https://www.bilibili.com/video/BV1hJvQeyEZS/?vd_source=a686566edc80a9ac643686804824933c#reply249547265968
其实这种非结构性数据文本在生活中似乎更长见,大家对这种数据的处理也确实比较头疼,后台也有很多好友咨询我处理的方式,这里对我自己的做法进行如下分享:
整体思路可以参考omniparser,首先读取整个文本切分成单叶,然后对于每一页数据结合yolov8等模型对该页文本进行检测切分,整体结构如下,
而对于文章中经常出现的文本、图片、表格、公式等非结构性数据形式,通过检测模型得到对应的模块,然后分别送入对应的sota识别模块,这里可以结合传统的技术,也可以采用多模态技术,比如对于表格内容识别就可以利用Table-LLaVA等。然后再将提取的信息embedding到数据库,结合rag技术实现对基座llm在垂直领域的回答能力。
最后,对于非结构性数据信息的提取,各种新的方式方法有很多,大家在学习中不断总结吧!


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ