链载Ai
标题:
让GPT帮你读文档:一种简单的实现方法
[打印本页]
作者:
链载Ai
时间:
9 小时前
标题:
让GPT帮你读文档:一种简单的实现方法
GPT-4阅读文档的原理与人类阅读类似。想象一下,当您拿到一份数十页的PDF文件时,您会先关注哪些部分?摘要、总结以及目录结构。接着,您会在心里提出若干问题(大约3-5个),并带着这些问题继续阅读。
为了借助GPT-4实现高效阅读,并尝试突破单次 token 数量限制,我们需要使用官方提供的 embedding 工具箱。简单来说,embedding 的原理就是将一段文本压缩成一组向量数据,就像是将文章片段存储到大脑中。
因此,我们的程序分为以下几个步骤:
第一步:清洗并切片PDF文档
对PDF文档进行清洗,去除重复的页眉、页脚以及目录中的过长连字符,以尽量减少API调用次数(毕竟每次调用都需要花费)。
将文档按段落切片,对于过长的段落则拆分成两部分。
将所有切片输入API生成embedding,并将其存储到 parquet 文件格式中,便于后续复用。
第二步:生成概述和提出问题
读取文档前10页(不超过4096个token)的数据量,提交给GPT-4以生成概述。
让GPT-4根据概述提出五个相关问题。至此,阅读文档和提出问题的第一步已完成。
第三步:回答问题
以“问题一”为例,我们需要执行以下操作:
将“问题一”输入API生成embedding-1。
将embedding-1与之前生成的embedding集合进行一一比对,计算余弦相似度。
对数据进行排序,筛选出Top N条相似的embedding。
将第3步筛选出的embedding原文提交给GPT-4,让其生成一段通顺的回答。
输出第3步Top N的embedding原文,以便了解答案来源。
重复以上过程四次,即可让GPT-4回答五个问题。将所有内容整合到一个Markdown文件中保存即可。
第四步:提供额外的问题支持
有时,我们对GPT-4提出的问题可能并不满意,因此需要继续向文档提问。在这里,我们使用Python的input函数在命令行中执行上述提问流程。当我们提出所有想要问的问题后,这些后续问题的回答将整合到另一个Markdown文件中,并保存在与PDF文件同一路径下。
通过以上步骤,我们可以利用GPT-4更高效地阅读文档,并对文档内容进行深入理解。这种方法既节省了时间,又提高了工作效率,使得我们能够更轻松地处理大量文档资料。
欢迎光临 链载Ai (https://www.lianzai.com/)
Powered by Discuz! X3.5