链载Ai

标题: 回应DeepSeek抄袭的质疑，DeepSeek和OpenAI ChatGPT的比较 [打印本页]

作者: 链载Ai 时间: 昨天 17:08
标题: 回应DeepSeek抄袭的质疑，DeepSeek和OpenAI ChatGPT的比较

先直接回答质疑

质疑1：DeepSeek是通过OpenAI的API进行训练的，盗取了OpenAI的数据

回答：不是，DeepSeek训练是采用了开源大模型的数据，并进行RL自对齐自学习进行训练。假如通过API调用获取的数据，因为存在幻觉，会有很多不可靠的结果，并不会让大模型变得更加聪明。

质疑2：DeepSeek是采用5万张偷运显卡进行训练的，存在着显卡欺骗行为

回答：技术论文已经发表了，相关模型也开源了，论文也发布了，技术专家都在学习，应该过不了多久就会出现不少复制的产品。到时候业界的大模型训练速度由过去的一年提升到2个月以内，甚至显卡多的可以半个月发布一个大版本，将会改写大模型更新慢，推理慢的现状，到时候大家要感谢DeepSeek的贡献，将模型训练推进到一个新的高度。

质疑3：DeepSeek是过于夸大了，没有多大的创新

回答：DeepSeek的创新是颠覆性的，是OpenAI发布ChatGPT后的重要事件，将影响到大模型今后的发展，颠覆产业格局，让开源大模型接近头部的大模型公司，并超越了很多商业化的闭源大模型企业，并建立开源的产业生态。DeepSeek的FP8训练优化，以及今后在推理端兼容多种芯片的格局会出现，从而将成本降低数倍，这是历史性突破。并能够基于DeepSeek生态发展，从软件方向驱动突破技术封锁等问题。

以下是通过技术论文，给大家科普的DeepSeek和OpenAI的不同和创新，介绍DeepSeek V3 和DeepSeek R1两个版本和OpenAI的不同，并解析数据如何训练的。

与OpenAI核心技术对比

混合专家模型（MoE）

背景：MoE 架构并非 OpenAI 首创，早期研究如 Google 的Switch Transformer（2021）已广泛应用，DeepSeekMoE 在此基础上优化了专家负载均衡和细粒度路由策略。
创新点：DeepSeek 提出的无辅助损失负载均衡和动态冗余专家部署是其独特设计，未在 OpenAI 的模型中体现。

注意力机制优化

MLA（Multi-head Latent Attention）：通过低秩压缩 KV Cache 减少显存占用，与 OpenAI 的稀疏注意力或FlashAttention实现方式不同，属于独立优化路径。
技术独立性：MLA 的具体实现（如分块压缩、解耦查询）在技术报告中详细说明，未发现与 OpenAI 专利技术重叠。

多 Token 预测（MTP）

通用性：多步预测是语言模型的常见训练目标（如Eagle、StripedHyena），并非 OpenAI 专属。
DeepSeek 的改进：其 MTP 模块通过深度链式预测和共享参数设计，与 GPT-4 的推测解码（Speculative Decoding）在实现逻辑上存在显著差异。

低精度训练与工程优化

FP8 训练：NVIDIA 的 Hopper 架构及开源框架（如 Transformer Engine）已支持 FP8，DeepSeek 通过分块量化和高精度累加进一步优化，属于行业通用技术。
DualPipe 算法：针对 MoE 的流水线并行优化，解决跨节点通信瓶颈，与 OpenAI 的Megatron或ZeRO策略不同。

训练数据与对齐方法

数据来源：DeepSeek 使用自建的多语言语料（14.8T Token），强调数学与代码数据的增强，与 OpenAI 的数据构造策略（如 WebText、代码合成）无直接关联。
对齐技术：采用知识蒸馏（DeepSeek-R1）和自奖励机制，与 OpenAI 的 RLHF（基于人类反馈的强化学习）在方法论上分属不同范式。

开源与合规性

代码与模型公开：DeepSeek-V3 的模型架构、训练代码和部分数据已开源（GitHub），其技术实现透明，未发现直接复用 OpenAI 代码的痕迹。
学术引用：技术报告中明确引用了相关领域的研究（如 Rotary Positional Embedding、GShard），符合学术规范。

DeepSeek-V3 论文总结

DeepSeek-V3 是由 DeepSeek-AI 推出的高效混合专家模型（MoE），总参数量达 671B，每个 token 激活 37B 参数。以下是其核心创新与关键成果：

核心创新

高效架构设计

Multi-head Latent Attention (MLA)：通过低秩压缩键值对（KV Cache），减少推理时的显存占用，同时保持性能。
DeepSeekMoE：采用细粒度专家（256 个路由专家 + 共享专家）和动态负载均衡策略，提升训练效率。
无辅助损失负载均衡：通过动态调整专家偏置（Bias），避免传统辅助损失对模型性能的负面影响，显著提升专家利用率。

多 Token 预测（MTP）

在训练时预测未来多个 Token，增加训练信号密度，提升模型对长序列的规划能力，同时支持推理时的推测解码加速。

低精度训练优化

引入 FP8 混合精度框架，结合分块量化和高精度累加策略，首次验证了超大规模模型低精度训练的可行性，显著降低显存和通信开销。

训练效率

成本极低：完整训练仅需278.8 万 H800 GPU 小时（约 557.6 万美元），预训练阶段每万亿 Token 消耗 18 万 GPU 小时。
稳定性：全程无不可恢复的损失突增或回滚。
工程优化：

DualPipe 算法：通过计算-通信重叠，减少流水线气泡，提升并行效率。
跨节点通信优化：结合 InfiniBand 和 NVLink 带宽，实现近零通信开销。

性能表现

基准测试

MATH-500（90.2）、CNMO 2024（43.2）刷新非长链思维模型记录。
LiveCodeBench（40.5）和Codeforces（51.6% 分位数）领先所有模型。

知识任务：MMLU（88.5）、MMLU-Pro（75.9）、GPQA（59.1）超越所有开源模型，接近 GPT-4o 和 Claude-3.5-Sonnet。
数学与代码：
中文能力：C-Eval（90.1）、C-SimpleQA（64.8）显著优于 Qwen2.5 等中文模型。

长上下文支持

通过 YaRN 扩展至 128K 上下文，在LongBench v2（48.7）和FRAMES（73.3）中表现优异。

对齐与推理

对齐效果：通过知识蒸馏（DeepSeek-R1）和自奖励机制，在Arena-Hard（85.5% 胜率）和AlpacaEval 2.0（70.0%）中超越多数闭源模型。
推理加速：MTP 模块在推测解码中实现 85-90% 接受率，生成速度提升 1.8 倍。

对比闭源模型

GPT-4o 与 Claude-3.5-Sonnet：

在数学、代码和中文任务上表现接近甚至超越，但在部分知识任务（如 SimpleQA）稍逊。
训练成本仅为闭源模型的极小比例（如 GPT-4 训练成本估计数十亿美元）。

局限与未来方向

部署需求：推荐部署单元较大（预填充需 32 GPU，解码需 320 GPU），对小型团队不友好。
未来改进：探索无限上下文支持、突破 Transformer 架构限制、提升深度推理能力。

DeepSeek-V3 通过算法-框架-硬件的协同设计，在高效训练与强大性能间取得平衡，成为开源模型的新标杆，并为 AGI 的长期演进提供了重要参考。

DeepSeek-R1论文总结

DeepSeek-R1 是由 DeepSeek-AI 提出的基于强化学习（RL）的大语言模型系列，旨在提升模型的推理能力。以下是其核心内容总结：

1. 模型概览

DeepSeek-R1-Zero

训练方法：直接在基模型（DeepSeek-V3-Base）上应用大规模强化学习（GRPO 算法），无需监督微调（SFT）。
特点：通过 RL 自主涌现出反思、多步推理等能力，在数学、编程等推理任务中表现优异（如 AIME 2024 Pass@1 从 15.6% 提升至 71.0%）。
局限性：输出可读性差、语言混合（如中英文混杂）。

DeepSeek-R1

改进方法：引入冷启动数据（数千条高质量长链思维示例）和多阶段训练（SFT + RL），进一步优化推理能力和输出规范性。
性能：与 OpenAI-o1-1217 相当，在 MATH-500 上达到 97.3% Pass@1，Codeforces 评分超越 96.3% 的人类参赛者。

2. 技术亮点

强化学习算法（GRPO）

通过组间评分估计基线，省去评论模型，降低训练成本（公式见论文）。
奖励模型仅依赖规则（如答案准确性、格式一致性），避免神经奖励模型的奖励滥用问题。

冷启动与多阶段训练

冷启动数据：提升输出的可读性和初始稳定性，设计结构化模板（如<think>推理过程 +<answer>答案）。
两阶段 RL：首阶段专注于推理任务，第二阶段结合通用任务（写作、问答）优化对齐人类偏好。

蒸馏小型模型

将 DeepSeek-R1 的推理能力蒸馏至 1.5B 到 70B 的 Qwen 和 Llama 系列模型，效果显著（如 7B 模型在 AIME 2024 上超越 GPT-4o）。
蒸馏模型性能优于直接对小模型应用 RL，证明大模型发现的推理模式对小模型至关重要。

3. 性能对比

推理任务：

AIME 2024：DeepSeek-R1 Pass@1 达 79.8%，略超 OpenAI-o1-1217（79.2%）。
MATH-500：DeepSeek-R1 达 97.3%，与 OpenAI-o1-1217 持平。
Codeforces：Elo 评分 2029，超越 96.3% 人类选手。

通用能力：

MMLU：90.8% Pass@1，显著优于 DeepSeek-V3（85.2%）。
AlpacaEval 2.0：长度控制胜率 87.6%，展示强大的开放域问答能力。

4. 开源贡献

开源模型：

DeepSeek-R1-Zero、DeepSeek-R1 及基于 Qwen/Llama 的 6 个蒸馏模型（1.5B、7B、8B、14B、32B、70B）。

数据与工具：

发布 800K 训练样本（推理与非推理混合数据），支持社区进一步研究与蒸馏。

5. 局限与未来方向

当前局限：

语言混合（中英文以外语言的推理能力不足）。
软件工程任务改进有限（因 RL 训练效率问题）。

未来计划：

提升通用能力（如多轮对话、函数调用）。
优化提示工程（当前对少样本提示敏感）。
扩展多语言支持与异步 RL 训练。

总结

DeepSeek-R1 通过纯强化学习与多阶段训练，展示了 LLM 在自主推理能力上的突破，其性能与闭源模型竞争，并通过开源推动社区发展。未来迭代有望进一步缩小与顶尖模型的差距。

欢迎光临链载Ai (https://www.lianzai.com/)