30美元复现DeepSeek模型

镖师发表于 2025-2-6 14:11:39

斯坦福大学地下室，三个学生干了件大事，用30美元成本复现了估值百亿的DeepSeek核心模型。

学生团队核心秘籍是知识蒸馏，把1750亿参数大模型浓缩成70亿参数精华版，数据来源也巧妙，大部分开源，合成成本才17美元，训练靠谷歌免费显卡，电费13美元。

他们用开源工具搭积木，HuggingFace微调方案、MoE架构组装等，还借助梯度缓存提升训练效率。项目火了，GitHub星标四千，大家都纳闷大公司咋没想到。

测试结果令人意外，MMLU基准测试72.3分，和原版差距极小。推理速度稍慢但用户几乎无感，能效比虽有损耗但成本低可忽略。网友实测，生成小说电费不到半分，大家都在思考企业级AI是否还值得高价购买。

这一事件引发行业地震，DeepSeek估值蒸发17亿美元。投资人慌了，专利律师核查侵权。复现团队收到高薪邀请，印度创业潮兴起，单周注册420家AI公司。

Crystαl 发表于 2025-2-6 14:12:33

投资人慌了是重点！卷来卷去，都死翘翘！

TyCoding 发表于 2025-2-6 14:12:55

是的。deepseek打开了潘多拉魔盒，现在AI圈子全都在干知识蒸馏的事情。
30美元的这套系统，也会被别人蒸馏，最后，成本降到几块钱几毛钱几分钱。
哈哈，实在是太有意思了。

浅生发表于 2025-2-6 14:13:18

部署到手机都能离线应用了

浅生发表于 2025-2-6 14:14:12

不错，现在多等等

IT618发布 发表于 2025-2-6 14:14:59

卧槽这么刺激

独家记忆 发表于 2025-2-6 14:15:34

没看明白，意思是deepseek被噶了？

IT618发布 发表于 2025-2-6 14:15:52

直接拿人家的数据，成本肯定低的。
自己一手训练，成本是很高的。

页: [1]

DZ插件网's Archiver

30美元复现DeepSeek模型