返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

什么是停用词表?构建RAG系统时为什么要注意异常停用词?

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 12:41 |阅读模式 打印 上一主题 下一主题

停用词表在英文中叫:Stop Words List,它是一个包含常见、但通常对文本分析或自然语言处理任务不重要的词汇的列表。停用词表一般在信息检索、文本分类、情感分析等场景被使用。

因为某些词汇其高频出现在表达具体意义时作用有限,因此被称为“停用词”。在处理文本数据时,通常会将这些停用词从文本中移除,以减少数据的稀疏性,提高处理效率,并可能提升后续分析或模型的性能。

停用词出了一些常用的标点符号,通常包括但不限于以下几类:

介词:如 “的”、“在”、“和”、“以”等。

连词:如 “而且”、“但是”、“因为”等。

助词:如 “了”、“着”、“过”等。

语气词:如 “啊”、“呢”、“吧”等。

在某些上下文中,一些非常常见的实词,如“人们”、“时间”等,也可能被视为停用词,特别是当它们对特定分析任务没有贡献时。

使用停用词表时,需要注意以下几点:

不同领域的停用词可能有所不同,例如,在医学文本中,“患者”可能是一个重要词汇,而在一般文本中则可能被视为停用词。

不同语言的停用词表会有显著差异,因为每种语言都有其独特的词汇和语法结构。

停用词表不是静态的,可能需要根据具体任务和数据集进行动态调整。

目前在一些RAG系统中的文本预处理阶段,通过移除停用词,可以简化文本数据,使其更加专注于表达核心意义的词汇,从而有助于提升后续分析或模型的准确性和效率。

另外,中文常用的停用词已经有大佬整理好了,大家可以直接拿去参考哈,修修改改,基本上就可以用来了。

https://github.com/goto456/stopwords


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ