链载Ai

标题: QA Pairs生成开源项目:大模型应用评测实践 [打印本页]

作者: 链载Ai    时间: 昨天 14:23
标题: QA Pairs生成开源项目:大模型应用评测实践

在评测LLM应用的时候,需要准备一些问答对(QA Pairs)然后才可以使用一些query改写等的实践丰富评测的QA Pairs,才能更加有效的评测LLM应用。这QA Pairs的准备往往会难住很多人,这是因为作为一个测试工程师怎么从已经知道的文档中抽象出问答对是一个很难说清楚的工作,这里面很多技能并能仅仅靠测试领域的知识就可以完成的,往往需要更多的业务知识、表达能力、理解能力等等。

为了解决这个问题,开发了https://github.com/crisschan/qa-gen-cn,该项目能够完成帮助测试工程师迈出LLM应用测试的第一步,基于给定的一些知识生成问答对。一个强大的中文文档问答对(QA pairs)自动生成和验证工具,支持多种LLM提供商,具备完善的质量验证机制。qagen拥有如下的一些特点:

pip install qagen

基础使用

方法一:使用完整脚本(推荐)

# 运行完整的生成和验证流程
python examples/generate_and_validate_qa.py

方法二:使用简化脚本

# 仅生成QA pairs,不进行验证
python examples/generator_and_no_validate_qa.py

方法三:编程方式使用

fromqa_gen_cnimportgenerate_qa_pairs

# 基础使用
qa_pairs = generate_qa_pairs(
doc_path="your_document.txt",
llm_provider="ollama",
llm_model="llama3.1:8b"
)

配置参数详解

LLM配置

# Ollama配置
llm_config = {
"llm_provider":"ollama",
"llm_model":"llama3.1:8b", # 或其他可用模型
"show_chunks":True, # 显示文档分块过程
"chunk_size":500, # 文档块大小
"chunk_overlap":50# 块重叠大小
}

验证配置

validation_config = {
# 语义相似度验证
"similarity_threshold":0.3, # 相似度阈值(0-1)
"similarity_model":"paraphrase-multilingual-MiniLM-L12-v2",

}

高级使用示例

fromqa_gen_cn.generatorimportQAGenerator
fromqa_gen_cn.llm_factoryimportLLMFactory
fromqa_gen_cn.validatorimportQAPairValidator
fromqa_gen_cn.utilsimportload_document

# 1. 初始化LLM
llm = LLMFactory.create_llm(
provider='ollama',
model='llama3.1:8b',
temperature=0.7
)

# 2. 创建生成器
generator = QAGenerator(llm=llm, show_chunks=True)

# 3. 生成QA pairs
qa_pairs = generator.generate_from_document(
doc_path="your_document.txt",
chunk_size=3000,
chunk_overlap=100
)

# 4. 配置验证器
validator = QAPairValidator({
"similarity_threshold":0.4,
'similarity_model':'paraphrase-multilingual-MiniLM-L12-v2'
})

# 5. 验证QA pairs
doc_content =" ".join([doc.page_contentfordocinload_document("your_document.txt")])
validated_pairs = validator.validate(qa_pairs, doc_content)

print(f"生成{len(qa_pairs)}个QA pairs,验证通过{len(validated_pairs)}个")

输出结果

运行完成后,会在output目录生成以下文件:

output/
├── qa_generation_result.json # 完整结果(包含配置、统计等)
├── qa_pairs.json # 纯QA pairs数据
└── statistics.txt # 统计报告

输出格式示例

QA Pairs JSON格式
[
{
"question": "什么是人工智能?",
"answer": "人工智能是计算机科学的一个分支,旨在创建能够模拟人类智能的机器。"
},
{
"question": "机器学习和深度学习的关系是什么?",
"answer": "机器学习是人工智能的分支,深度学习是机器学习的子集,使用神经网络进行学习。"
}
]
统计报告示例
=== QA Pairs 生成和验证统计报告 ===

文档路径: examples/1.txt
LLM配置: {'provider': 'ollama', 'model': 'llama3.1:8b'}

统计信息:
- 总生成数量: 25
- 验证通过数量: 18
- 验证通过率: 72.00%
- 平均问题长度: 23.4 字符
- 平均答案长度: 156.7 字符

验证配置:
- keyword_top_n: 15

验证机制详解

语义相似度验证

关键词匹配验证

长度验证

唯一性验证

5特别注意

Validation 1,2,3,4 validation是互斥的,只能选择一个验证 验证优先级:1>2>3>4,在self.config中配置了:







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5