正文咨询
DeepSeek测试:华为昇腾910C性能达英伟达H100的60%
发布日期:2025-02-05浏览量:43

【深铭易购】资讯tomshardware等多家媒体报道,华为最新发布的AI处理器昇腾910C(Ascend 910C)的推理性能已达到英伟达(NVIDIA)H100 GPU的60%。尽管昇腾910C与英伟达最新的Blackwell系列AI芯片相比仍存在差距,但它有助于减少中国对英伟达GPU的依赖。

DeepSeek研究人员的测试数据显示,在基于DeepSeek模型的推理任务中,昇腾910C的性能可达到英伟达H100的60%。这一数据表明,尽管华为受到美国制裁,无法获得台积电的先进制程技术支持,昇腾910C仍展现出强劲的进步。

昇腾910C采用了Chiplet封装,整合了约530亿个晶体管。与上一代昇腾910芯片采用的台积电N7+制程不同,昇腾910C芯片由中芯国际采用第二代7纳米级(N+2)制程制造。通过手动优化CUNN核心,昇腾910C的性能有望进一步提升。

此外,DeepSeek为昇腾处理器提供了原生支持,其PyTorch存储库使得CUDA到CUNN的无缝转换成为可能,从而大大简化了华为硬件在AI工作流程中的整合。DeepSeek的支持为华为芯片带来了关键优势:从一开始就支持华为昇腾芯片,且能够自主维护PyTorch仓库,只需一行代码即可完成CUDA到CUNN的转换,并且性能优化潜力巨大,经过定制优化可实现更高性能。

根据华为官网的介绍,CANN(Compute Architecture for Neural Networks)是昇腾针对AI场景推出的异构计算架构。它支持多种AI框架,并通过与AI处理器的紧密结合,提升昇腾AI处理器的计算效率,成为提升计算效能的关键平台。CANN还为不同应用场景提供高效易用的编程接口,帮助用户快速构建基于昇腾平台的AI应用和业务。

目前,CANN已经发布了社区版和商用版。社区版主要为开发者提供新特性的体验,商用版则满足商业标准,已发布8.0.0.alpha003版本,针对Ascend C进行了特性增强,商用版CANN 8.0.RC3版本则新增了对7个操作系统的支持,并简化了CANN安装流程。

DeepSeek的Yuchen Jin表示,“长周期训练的稳定性是中国芯片面临的最大挑战”,这主要源于英伟达软硬件生态系统的深度整合,CUDA已经发展了二十多年。尽管昇腾在推理性能方面可以继续提升,但持续的训练工作负载仍需要华为进一步优化软硬件堆叠。

有专家预测,随着AI模型逐步向“Transformer架构”(如GPT、BERT等)发展,CUDA和PyTorch编译器的重要性将逐渐降低。此外,DeepSeek团队在软硬件优化方面的专长,可能大幅减少对英伟达CUDA的依赖,从而显著节省成本。

此前的研究表明,DeepSeek在使用英伟达H800芯片进行训练时,并未使用高级编程语言CUDA,而是直接使用底层的PTX(Parallel Thread Execution)语言,这可能意味着DeepSeek通过使用底层编程语言优化而绕过了CUDA。

对于程序开发人员而言,CUDA是一种友好的高级语言,开发者只需关注程序和算法的运行逻辑,而无需深入理解硬件层面的执行细节,极大简化了开发难度。相比之下,PTX语言接近汇编语言,允许进行更细粒度的优化,例如寄存器分配和线程/warp级别的调整,但编程过程复杂且难以维护,因此行业普遍采用CUDA等高级语言。

北京航空航天大学副教授黄雷表示,绕过CUDA可以直接根据GPU的驱动函数进行开发,实现更细粒度的操作。这表明DeepSeek拥有能够编写PTX语言的内部开发者。如果未来使用国产GPU,DeepSeek将在硬件适配方面更加得心应手,能够根据硬件驱动函数接口进行代码编写,从而使自家的大模型更容易适配国产硬件。