返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

打造自己的RAG解析大模型:(新技能)企业垂类数据标注(一)

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 11:48 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;line-height: normal;text-align: center;background-color: rgb(255, 255, 255);visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

在上一篇文章中,我们以通用版面分析服务为例,展示了从模型发布到API集成的完整流程。如果你成功完成了这些步骤,值得庆祝!这不仅意味着你已成功安装PaddleX,还掌握了利用它发布OCR和目标检测等大模型服务的能力,这离创建属于你的RAG解析平台仅一步之遥。现在,你已经拥有百度飞桨提供的通用开源模型部署能力,可以满足一些基础需求。然而,要进一步满足企业的特定需求,还需要对行业数据进行标注,并利用这些数据集进行模型训练,从而打造适用于垂直领域的定制化模型。这种垂类模型能够深入挖掘企业特定场景的信息,更精确地服务于业务目标,最终带来更大的应用价值。

工欲善其事,必先利其器

正如古语所言:“工欲善其事,必先利其器。”想要高效、准确地标注优质的垂类数据集,选择一款合适的标注工具至关重要。在下文中,我将介绍几款开源标注工具,这些工具都经过我的亲身体验,适合处理不同的标注需求。我会详细讲解每款工具的主要功能、支持的标注类型,以及它们在特定场景中的优势,以帮助你找到最合适的标注工具,为高质量的数据集奠定坚实基础。

PPOCRLabelv2

PPOCRLabel 是一款专为 OCR 任务设计的半自动化图像标注工具,能够大大提高标注效率。它集成了 PP-OCR 模型,可自动标注文本区域并重新识别,帮助用户快速完成标注工作。该工具由 Python3 和 PyQT5 编写,导出的数据格式可直接用于 PaddleOCR 的模型训练。

支持标签图形:
  • 矩形框
  • 正方形框
  • 多点框

支持的标注场景:

  • 表格

  • 版面

  • 不规则文本

  • 关键信息

数据导出格式:
  • COCO
  • Paddle Table格式
  • Json

启动后界面:

表格标注示意图:

开源地址:

https://github.com/PFCCLab/PPOCRLabel

Labelme

LabelMe 是一款为计算机视觉研究设计的图像标注工具,提供 Web 和 GUI 两种界面模式,满足不同场景需求。Web 界面支持多人协作标注,适合团队项目和分布式任务,便于数据共享和进度跟踪;而 GUI 界面更适合单人使用,提供直观的交互体验,非常适合经验丰富的独立标注者。

支持标签图形:
  • 矩形框
  • 正方形框
  • 多点框

支持的标注场景:

  • 表格

  • 版面

  • 不规则文本

  • 关键信息

数据导出格式:
  • COCO
  • VOC

启动后界面:

实例分割示意图:

开源地址:

https://github.com/wkentaro/labelme

Label Studio

Label Studio 是一款功能丰富的开源数据标注工具,提供基于 Web 的界面,支持多人协作,适合团队在同一平台上管理多个项目和用户。它不仅支持多种数据类型(如文本、图像、音频、视频),还提供丰富的标注模板,能够满足从简单标注到复杂任务的需求。对于需要灵活处理多种数据类型的团队来说,Label Studio 提供了高效的解决方案,有助于提升标注工作流的规范性和效率。

支持标签图形:
  • 矩形框
  • 正方形框
  • 多点框

支持的标注场景:

  • 表格

  • 版面

  • 不规则文本

  • 关键信息

数据导出格式:
  • COCO
  • VOC

启动界面:

示意图:

项目管理示意图(上图)

数据管理器(上图)

整体说明(上图)

Label Studio支持多账号管理,支持分组标注,可以根据自己的项目来建立标注分组,多人同时标注。

展望

以上介绍的开源标注工具如 PPOCRLabel、LabelMe 和 Label Studio 都各具特色,适用于不同的标注需求。当然,开源社区中还有其他工具同样优秀,如 VoTT、labelImg、roLabelImg,用户可根据具体需求选择。我们列出了这些工具的开源地址,供大家自行探索。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ