30美元复现DeepSeek模型
斯坦福大学地下室,三个学生干了件大事,用30美元成本复现了估值百亿的DeepSeek核心模型。学生团队核心秘籍是知识蒸馏,把1750亿参数大模型浓缩成70亿参数精华版,数据来源也巧妙,大部分开源,合成成本才17美元,训练靠谷歌免费显卡,电费13美元。
他们用开源工具搭积木,HuggingFace微调方案、MoE架构组装等,还借助梯度缓存提升训练效率。项目火了,GitHub星标四千,大家都纳闷大公司咋没想到。
测试结果令人意外,MMLU基准测试72.3分,和原版差距极小。推理速度稍慢但用户几乎无感,能效比虽有损耗但成本低可忽略。网友实测,生成小说电费不到半分,大家都在思考企业级AI是否还值得高价购买。
这一事件引发行业地震,DeepSeek估值蒸发17亿美元。投资人慌了,专利律师核查侵权。复现团队收到高薪邀请,印度创业潮兴起,单周注册420家AI公司。 投资人慌了是重点!卷来卷去,都死翘翘! 是的。deepseek打开了潘多拉魔盒,现在AI圈子全都在干知识蒸馏的事情。
30美元的这套系统,也会被别人蒸馏,最后,成本降到几块钱几毛钱几分钱。
哈哈,实在是太有意思了。 部署到手机 都能离线应用了 不错,现在多等等 卧槽 这么刺激 没看明白,意思是deepseek被噶了? 直接拿人家的数据,成本肯定低的。
自己一手训练,成本是很高的。
页:
[1]