|
先直接回答质疑质疑1:DeepSeek是通过OpenAI的API进行训练的,盗取了OpenAI的数据
回答:不是,DeepSeek训练是采用了开源大模型的数据,并进行RL自对齐自学习进行训练。假如通过API调用获取的数据,因为存在幻觉,会有很多不可靠的结果,并不会让大模型变得更加聪明。
质疑2:DeepSeek是采用5万张偷运显卡进行训练的,存在着显卡欺骗行为回答:技术论文已经发表了,相关模型也开源了,论文也发布了,技术专家都在学习,应该过不了多久就会出现不少复制的产品。到时候业界的大模型训练速度由过去的一年提升到2个月以内,甚至显卡多的可以半个月发布一个大版本,将会改写大模型更新慢,推理慢的现状,到时候大家要感谢DeepSeek的贡献,将模型训练推进到一个新的高度。 质疑3:DeepSeek是过于夸大了,没有多大的创新回答:DeepSeek的创新是颠覆性的,是OpenAI发布ChatGPT后的重要事件,将影响到大模型今后的发展,颠覆产业格局,让开源大模型接近头部的大模型公司,并超越了很多商业化的闭源大模型企业,并建立开源的产业生态。DeepSeek的FP8训练优化,以及今后在推理端兼容多种芯片的格局会出现,从而将成本降低数倍,这是历史性突破。并能够基于DeepSeek生态发展,从软件方向驱动突破技术封锁等问题。 以下是通过技术论文,给大家科普的DeepSeek和OpenAI的不同和创新,介绍DeepSeek V3 和DeepSeek R1两个版本和OpenAI的不同,并解析数据如何训练的。 与OpenAI核心技术对比混合专家模型(MoE)
注意力机制优化 多 Token 预测(MTP) 低精度训练与工程优化
训练数据与对齐方法
开源与合规性
DeepSeek-V3 论文总结 
DeepSeek-V3 是由 DeepSeek-AI 推出的高效混合专家模型(MoE),总参数量达 671B,每个 token 激活 37B 参数。以下是其核心创新与关键成果:
核心创新高效架构设计
Multi-head Latent Attention (MLA):通过低秩压缩键值对(KV Cache),减少推理时的显存占用,同时保持性能。 DeepSeekMoE:采用细粒度专家(256 个路由专家 + 共享专家)和动态负载均衡策略,提升训练效率。 无辅助损失负载均衡:通过动态调整专家偏置(Bias),避免传统辅助损失对模型性能的负面影响,显著提升专家利用率。
多 Token 预测(MTP) 低精度训练优化
训练效率
性能表现基准测试
长上下文支持 对齐与推理
对比闭源模型
局限与未来方向DeepSeek-V3 通过算法-框架-硬件的协同设计,在高效训练与强大性能间取得平衡,成为开源模型的新标杆,并为 AGI 的长期演进提供了重要参考。 DeepSeek-R1论文总结 
DeepSeek-R1 是由 DeepSeek-AI 提出的基于强化学习(RL)的大语言模型系列,旨在提升模型的推理能力。以下是其核心内容总结:
1. 模型概览DeepSeek-R1-Zero DeepSeek-R1
2. 技术亮点强化学习算法(GRPO) 冷启动与多阶段训练 蒸馏小型模型
3. 性能对比推理任务: AIME 2024:DeepSeek-R1 Pass@1 达 79.8%,略超 OpenAI-o1-1217(79.2%)。 MATH-500:DeepSeek-R1 达 97.3%,与 OpenAI-o1-1217 持平。 Codeforces:Elo 评分 2029,超越 96.3% 人类选手。
通用能力:
4. 开源贡献
5. 局限与未来方向当前局限: 语言混合(中英文以外语言的推理能力不足)。 软件工程任务改进有限(因 RL 训练效率问题)。
未来计划: 提升通用能力(如多轮对话、函数调用)。 优化提示工程(当前对少样本提示敏感)。 扩展多语言支持与异步 RL 训练。
总结DeepSeek-R1 通过纯强化学习与多阶段训练,展示了 LLM 在自主推理能力上的突破,其性能与闭源模型竞争,并通过开源推动社区发展。未来迭代有望进一步缩小与顶尖模型的差距。
|