正文咨询
DeepSeek-V3国产开源模型性能强劲,火爆海外
发布日期:2024-12-30浏览量:322

【深铭易购】资讯:根据官方技术论文披露,DeepSeek-V3 是一个拥有 6710 亿总参数的 MoE(混合专家)模型,在 14.8 万亿 tokens 上完成预训练。V3 模型的总训练成本约为 557.6 万美元,相比之下,类似 GPT-4o 等模型的训练成本高达约 1 亿美元。在定价方面,DeepSeek-V3 的收费标准为:每百万输入 tokens 0.5 元(缓存命中)/2 元(缓存未命中),每百万输出 tokens 8 元,并提供为期 45 天 的优惠价格体验期。

显然,高性价比 DeepSeek 大模型的一大核心优势。今年 5 月,DeepSeek 发布了 V2 开源模型,将推理成本降至每百万 tokens 仅 1 元人民币。此后,字节跳动、腾讯、百度、阿里等科技巨头纷纷下调价格,大模型领域的价格战由此全面爆发。

DeepSeek-V3 上线后,其在海外社交媒体平台 X 上迅速引发热议。用户普遍关注的是,这一模型在能力上可以对标主流头部模型,而其训练预算却显著降低。“2048 个 GPU、2 个月、约 600 万美元” 的训练成本,与 GPT-4o 等模型动辄 1 亿美元 以上的训练开销,以及至少需要 万个 GPU 规模计算集群 的需求,形成了鲜明对比。

如此显著的成本优势,使 DeepSeek-V3 成为大模型领域内备受关注的焦点,也有望引领新一轮的行业变革。

值得注意的是,据报道称,小米创始人雷军以千2万年薪招揽DeepSeek开源大模型关键开发者之一罗福莉,领导小米AI大模型团队。业界表示,这是小米全面发力AI大模型的其中一个动作。