阿里发布首颗量产AI「超大芯片」：高出兄弟公司新品四倍，上

2019-09-25 14:30:53 来源：机器之心公众号作者：王冬梅

周岁之际，平头哥带来了首颗云端 AI 芯片含光 800，「这同时也是互联网公司的首颗『大芯片』」，达摩院院长张建锋为其写下注脚。

所谓「大芯片」，是指单靠一颗含光 800NPU，能够在一秒内处理 7.8 万张图片。

含光 800 主要用于云端视觉处理场景，性能打破了现有 AI 芯片记录。据阿里数据显示，性能及能效比全球第一，在芯片测试标准平台 ResNet-50 上的具体分数为：

性能 78563 IPS(Image Per Second)，是第二名高 4 倍;

能效比 500 IPS/W，是第二名(150)3.3 倍。

张建锋现场展示了该颗芯片和业界典型算力「怪兽」的对比，其中包括两款 AI 芯片、两款 GPU 芯片，但并未点名其芯片品牌和型号。不过，张建锋补充道，「这是我们的兄弟公司，前不久刚开发完发布会」。

对比英伟达官网 Tesla V100 计算卡的公开数据，针对 ResNet50 模型一秒能够处理图片(推理)的数量为 7830images/sec，这个数字相当于目前含光 800 的十分之一。

在杭州城市大脑的业务实测中，1 颗含光 800 的算力相当于 10 颗 GPU。

换句话说，阿里的含光 800 将云上的推理性能推到了极致。

作为一名后来者居上的非传统芯片挑战者，阿里平头哥团队除了充分发挥出硬件层面的深厚积淀，还针对配套的软件栈和开发工具做了巨大投入，以撼动英伟达在云上的强大生态。目前，阿里具备完全自主能力的包括自研的芯片架构、软件编译器、框架、工具链等。

在深度学习开发工具和支持方面，阿里从 2015 年起就开始打造人工智能学习平台 PAI，涵盖多种训练和计算加速工具，强调大规模分布式计算的能力优势，目前已经迭代到第三代。

针对针对广告、搜索、推荐等典型数据处理场景，阿里自研了新一代工业级分布式深度学习框架——XDL，主打高维稀疏数据的性能优化，为 AI 算力的软硬一体化战略落地提供了优异的先天条件。

与此同时，含光 800 针对 INT8 数据类型做了大量优化，最终在性能、良率、功耗等指标上均表现良好。

「相较于训练，目前推理才是云上更大的核心业务需求」。据平头哥算法负责人星瞳表示，无论是在线还是离线的业务需求都是基于推理来完成，比如常见的检测、分类、分割、识别等运算。

02 突破传统 ASIC 局限

含光定位于一款 ASIC 架构的 NPU 专用加速器，ASIC 意味着针对某种特定的需求而专门定制，NPU 则将方向瞄准深度学习领域的神经网络加速 (Natural Processing Unit)。

暂时禁止评论

微信扫一扫