链载Ai

标题: 零成本!我用 PaddleOCR API 做了一款视频字幕提取神器 [打印本页]

作者: 链载Ai    时间: 4 小时前
标题: 零成本!我用 PaddleOCR API 做了一款视频字幕提取神器


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 20.8px;display: table;padding: 0.3em 1em;margin: 4em auto 2em;color: rgb(255, 255, 255);background: rgb(183, 110, 121);font-weight: bold;border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">前言

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">前几天在体验视频解析文件AI应用的时候,发现了一个非常方便的功能:ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);font-weight: bold;">自动提取视频内容。核心原理是基于计算机视觉、图像处理和机器学习技术,通过对视频帧序列进行解码、分析和特征提取,将非结构化的视频数据转化为可识别、可检索的结构化信息。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">核心处理流程中肯定会用到OCR技术,如果能把多模态能力和 OCR 技术结合起来并把它整合到视频字幕提取工具里,是不是就能实现零成本提取视频字幕了呢?

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 20.8px;display: table;padding: 0.3em 1em;margin: 4em auto 2em;color: rgb(255, 255, 255);background: rgb(183, 110, 121);font-weight: bold;border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">背景

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">早在10月份的时候,百度飞桨团队就开源过轻量化多模态模型PaddleOCR-VL-0.9B,最近这几天已开放API接口,有了技术支持,我决定动手试试。看是否这个应用场景能落地。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">经过一番折腾,我终于搞定了一套ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);font-weight: bold;">全流程可视化的工具。它不仅能自动提取字幕,还能保留原始的 JSON 数据和时间戳信息,用起来特别顺手。今天就和大家分享一下我的搭建过程和测试效果,希望能帮到有同样需求的朋友。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 20.8px;display: table;padding: 0.3em 1em;margin: 4em auto 2em;color: rgb(255, 255, 255);background: rgb(183, 110, 121);font-weight: bold;border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">为什么要做这个工具?

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">可能有人会问:“视频播放器不是自带字幕吗?”

确实,但很多时候咱们需要的不仅仅是看字幕,而是要用字幕。比如:

以前我用过不少 OCR 模型。在文字定位和识别这块,PaddleOCR里的PP-OCR系列确实是断崖式领先。但它有个小毛病——没有现成的 API,得自己部署。部署的话至少得有一台闲置的电脑或者买一台服务器吧。

好消息是,最近我发现PaddleOCR官网开放了 API!这意味着我可以零成本使用顶级的 OCR 能力,可以不用(白薅)花钱。

一、API 申请与调用

申请 PaddleOCR API 的过程非常简单,几分钟就能搞定:

  1. 1. 打开 PaddleOCR 官网(www.paddleocr.com),注册并登录。
  2. 2. 点击顶部的“API”,进入示例代码界面。
image
  1. 3. 因为咱们的目标是提取字幕,只需要获取每一帧的文本和位置,所以选择PP-OCRv5就够了。如果你要解析文档,也可以试试PaddleOCR-VL或者PP-StructureV3
image
  1. 4. 在示例代码里,你会看到API_URLTOKEN。把这两个参数复制下来,配合官方代码,就能集成到自己的项目里了。
  1. 5. 建议先跑一下官方示例,测试一下效果。你可以截一张视频画面传上去,看看返回的可视化结果。从测试来看,PP-OCRv5能准确识别出图中的所有文字,并给出每一行的坐标。这样我们后面就可以根据坐标,轻松过滤掉非字幕区域的文字。
  1. 6. 目前官方给每个模型提供了3000 页的免费额度。对于个人开发者来说,这完全够用了!如果你量大,也可以申请更多额度(🔗申请链接:https://paddle.wjx.cn/vm/mePnNLR.aspx?udsid=716530)。整个体验非常丝滑,感觉不是在申请,而是直接拿来就用。

二、工具设计与搭建

有了 API,接下来就是实现工具。我的思路很简单:用AI Studio直接build出一个简单的应用。

核心流程如下:

  1. 1.视频分帧






欢迎光临 链载Ai (http://www.lianzai.com/) Powered by Discuz! X3.5