阿里发布首颗量产AI「超大芯片」:高出兄弟公司新品四倍,上
2019-09-25 14:30:53 来源:机器之心公众号 作者:王冬梅
周岁之际,平头哥带来了首颗云端 AI 芯片含光 800,「这同时也是互联网公司的首颗『大芯片』」,达摩院院长张建锋为其写下注脚。
所谓「大芯片」,是指单靠一颗含光 800NPU,能够在一秒内处理 7.8 万张图片。
含光 800 主要用于云端视觉处理场景,性能打破了现有 AI 芯片记录。据阿里数据显示,性能及能效比全球第一,在芯片测试标准平台 ResNet-50 上的具体分数为:
性能 78563 IPS(Image Per Second),是第二名高 4 倍;
能效比 500 IPS/W,是第二名(150)3.3 倍。
张建锋现场展示了该颗芯片和业界典型算力「怪兽」的对比,其中包括两款 AI 芯片、两款 GPU 芯片,但并未点名其芯片品牌和型号。不过,张建锋补充道,「这是我们的兄弟公司,前不久刚开发完发布会」。
对比英伟达官网 Tesla V100 计算卡的公开数据,针对 ResNet50 模型一秒能够处理图片(推理)的数量为 7830images/sec,这个数字相当于目前含光 800 的十分之一。

在杭州城市大脑的业务实测中,1 颗含光 800 的算力相当于 10 颗 GPU。
换句话说,阿里的含光 800 将云上的推理性能推到了极致。
作为一名后来者居上的非传统芯片挑战者,阿里平头哥团队除了充分发挥出硬件层面的深厚积淀,还针对配套的软件栈和开发工具做了巨大投入,以撼动英伟达在云上的强大生态。目前,阿里具备完全自主能力的包括自研的芯片架构、软件编译器、框架、工具链等。
在深度学习开发工具和支持方面,阿里从 2015 年起就开始打造人工智能学习平台 PAI,涵盖多种训练和计算加速工具,强调大规模分布式计算的能力优势,目前已经迭代到第三代。
针对针对广告、搜索、推荐等典型数据处理场景,阿里自研了新一代工业级分布式深度学习框架——XDL,主打高维稀疏数据的性能优化,为 AI 算力的软硬一体化战略落地提供了优异的先天条件。
与此同时,含光 800 针对 INT8 数据类型做了大量优化,最终在性能、良率、功耗等指标上均表现良好。
「相较于训练,目前推理才是云上更大的核心业务需求」。据平头哥算法负责人星瞳表示,无论是在线还是离线的业务需求都是基于推理来完成,比如常见的检测、分类、分割、识别等运算。
02 突破传统 ASIC 局限
含光定位于一款 ASIC 架构的 NPU 专用加速器,ASIC 意味着针对某种特定的需求而专门定制,NPU 则将方向瞄准深度学习领域的神经网络加速 (Natural Processing Unit)。
- 热点聚合:













闽公网安备 35020302000061号