其次,双栏、多栏等复杂版面。
要将文档还原为人类与大模型都能阅读的正确顺序,OCR不是唯一的难点。在实际场景中,我们会遇到多栏、跨页等情况,又或是多栏文字+嵌入其中的跨栏图表。
现在,简单的文档解析工作,很多开发者都能通过开源的PDF解析+OCR模型来完成,对闭源解析工具需求并不算高。需要闭源工具的场景集中在高难度的长尾case,例如页眉页脚、复杂图表、手写字符、公式等。
做过相关工作的开发者都知道,60-90分的研发难度远远高于0-60分的阶段,在这其中需要消耗大量的精力与时间,仍然难以低成本地实现良好效果。而一个产品要能够落地应用,必须具备80-90分的表现。
不论是企业级知识库问答应用,还是为大模型训练提供高质量的结构化数据,这些长尾难点都是无法绕开的问题。同时,上述场景的庞大数据量要求又对解析工具的效率、工程稳定性提出了较高的要求。
因此,我们在TextIn文档解析工具的研发、迭代过程中,以充分满足实用需求为标准,使产品具有以下特点:
▪ 超高速度:100页PDF最快1.5s解析完,而同等页数下,常规工具或大模型解析一般按分钟计算
▪ 支持超大文件:目前同步接口文件最大可达500MB,未来将进一步提高
▪ 支持超长文件:目前支持最长1000页,开发计划已将目标定在5000页