链载Ai

标题: 发布第三天,我的开源项目突破 1K Star! [打印本页]

作者: 链载Ai    时间: 8 小时前
标题: 发布第三天,我的开源项目突破 1K Star!


今天跟大家来正式介绍一下开源项目:Easy Dataset


3.13 号,对外发布了第一个版本,到 3.16 Star 数破千,截止目前,已经 1.2K Star

为啥这个工具一发布就受到广泛的关注和喜爱呢,下面我来具体介绍一下。

目前各行各业都在积极探索微调自己行业的大模型,其实微调的过程不是难事,最难的是数据集准备的环节,高质量领域数据集的构建始终面临多重挑战,所以我之前数据集的教程一发出,大家问的最多的就是数据集的问题:

我总结了常见问题就是这些:

目前市面上确实没有一款工具可以满足这样的需求,因此,借助 AI,我大概花了 3 个晚上的时间构建出了 Easy DataSet(https://github.com/ConardLi/easy-dataset)的第一个版本,通过系统性解决方案实现从文献解析到数据集导出的全流程闭环。

架构设计

Easy DataSet 以 项目制 为核心单元,贯穿「文献处理-问题生成-答案构建-标签管理-格式导出」全链路:

核心模块:

数据生成引擎:

格式生态适配:

工具使用

目前 Easy Dataset 支持客户端、NPM、Docker 三种启动方式,完全在本地处理数据,无需担心数据隐私问题。

客户端启动(适合新手)

为了解决各种本地部署的环境问题,可以直接用客户端启动,支持以下平台:

可以直接到 https://github.com/ConardLi/easy-dataset/releases/latest 下载适合自己系统的安装包:

NPM 启动(适合开发者)

本项目基于 Next 构建,所以本地只要有 Node 环境就可以通过 NPM 直接启动,适合开发者,需要调试项目的同学:

  1. 克隆仓库:
gitclonehttps://github.com/ConardLi/easy-dataset.git
cdeasy-dataset
  1. 安装依赖:
npminstall
  1. 启动服务器:
npmrunbuild
npmrunstart

Docker启动(适合私有部署):

如果你想自行构建镜像,在云服务或者内网环境私有部署,可以使用项目根目录中的 Dockerfile

  1. 克隆仓库:
gitclonehttps://github.com/ConardLi/easy-dataset.git
cdeasy-dataset
  1. 构建 Docker 镜像:
dockerbuild-teasy-dataset.
  1. 运行容器:
dockerrun-d-p1717:1717-v{YOUR_LOCAL_DB_PATH}:/app/local-db--nameeasy-dataseteasy-dataset

注意: 请将 {YOUR_LOCAL_DB_PATH} 替换为你希望存储本地数据库的实际路径。

功能介绍

项目设置

多模型统一管理:支持 OpenAI 标准协议 的模型接入,兼容 Ollama,用户仅需配置 模型名称、API地址、密钥 即可完成适配。内置模型库预填主流厂商端点,支持删除/新增自定义模型,所有配置 本地加密存储,保障数据安全。

任务参数精细化配置:

文献处理

智能分块引擎:

  1. 章节感知分割:优先按#/##/###标题切分,保留完整章节
  2. 递归字符截断:超长段落按句号→逗号递归切分,确保块长在配置区间
  3. 块元数据:自动生成每块摘要(基于模型抽取)、字数统计、关联原始目录

领域标签树构建:

问题生成

  1. 单块生成:点击文本块「+问题」,基于块内容生成多个问题(密度可调)
  2. 批量生成:勾选多块→一键生成,支持中断/恢复任务
  3. 质量过滤:自动过滤低相关问题(如作者信息、格式说明),人工可批量删除

问题管理

列表视图,可查看和管理已经生成好的所有问题:

领域树视图(基于领域树视图查看和管理问题,可以更方便的掌握全貌,便捷管理问题:):

答案生成:

数据集管理

数据集列表:

可以查看已经生成好的所有数据集,包括创建时间、使用模型、领域标签、是否有思维链等,可对不满意的数据集进行调整和删除。

数据集质检与标注:

多格式导出:

导出示例:

数据集广场

多平台搜索:

聚合 HuggingFace、Kaggle、Opendatalab 等多个平台,输入关键词即可一站式检索,支持跳转原平台下载。

未来规划

当前 Easy Dataset 还处于比较早期的阶段,刚实现了最基本的构想,后续还会陆续支持以下功能,致力于打造成最完善和专业的大模型数据集构造平台:







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5