DeepSeek-V3国产开源模型性能强劲，火爆海外

【深铭易购】资讯：根据官方技术论文披露，DeepSeek-V3 是一个拥有 6710 亿总参数的 MoE（混合专家）模型，在 14.8 万亿 tokens 上完成预训练。V3 模型的总训练成本约为 557.6 万美元，相比之下，类似 GPT-4o 等模型的训练成本高达约 1 亿美元。在定价方面，DeepSeek-V3 的收费标准为：每百万输入 tokens 0.5 元（缓存命中）/2 元（缓存未命中），每百万输出 tokens 8 元，并提供为期 45 天的优惠价格体验期。

显然，高性价比是 DeepSeek 大模型的一大核心优势。今年 5 月，DeepSeek 发布了 V2 开源模型，将推理成本降至每百万 tokens 仅 1 元人民币。此后，字节跳动、腾讯、百度、阿里等科技巨头纷纷下调价格，大模型领域的价格战由此全面爆发。

在 DeepSeek-V3 上线后，其在海外社交媒体平台 X 上迅速引发热议。用户普遍关注的是，这一模型在能力上可以对标主流头部模型，而其训练预算却显著降低。“2048 个 GPU、2 个月、约 600 万美元” 的训练成本，与 GPT-4o 等模型动辄 1 亿美元以上的训练开销，以及至少需要万个 GPU 规模计算集群的需求，形成了鲜明对比。

如此显著的成本优势，使 DeepSeek-V3 成为大模型领域内备受关注的焦点，也有望引领新一轮的行业变革。

值得注意的是，据报道称，小米创始人雷军以千2万年薪招揽DeepSeek开源大模型关键开发者之一罗福莉，领导小米AI大模型团队。业界表示，这是小米全面发力AI大模型的其中一个动作。