<
>

阿里发布首颗量产AI「超大芯片」:高出兄弟公司新品四倍,上

2019-09-25 14:30:53 来源:机器之心公众号 作者:王冬梅

基于冯诺依曼结构的传统通用处理器,比如常见的 x86 CPU、GPU,它们采用分离的存储和运算处理单元设计,面向大量的深度神经网络计算任务时,需要大量读写运行操作,受限于带宽限制,效率较为低下。

ASIC 芯片能够特定场景和算法进行定制,意味着执行特定算法时能获得最高的效率和性能。

以含光 800 为代表的神经网络芯片,根据神经网络推理运算特征,设计特定的硬件神经元、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率。

基于这一思路,市面上的神经网络加速芯片层出不穷,形成了百家争鸣的盛况。但我们同时也应用看到专用和定制的反面,常见的 ASIC 通常在场景的迁移性和算法通用性方面大打折扣,通常只会在十分明确的算法场景下表现优异。

将目光聚焦在阿里的含光 800,似乎走了一条不太寻常的 ASIC 之路。

它不仅实现了同时兼容海量的图像搜索、城市大脑领域的视频识别、智慧医疗领域的医疗影像识别、网页设计领域的图像生成等不同计算需求环境,还针对这些丰富的场景挖掘出了极大的计算优化潜能。

根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要 40 颗传统 GPU,延时为 300ms,使用含光 800 仅需 4 颗,延时降至 150ms。

拍立淘商品库每天新增 10 亿商品图片,使用传统 GPU 算力识别需要 1 小时,使用含光 800 后可缩减至 5 分钟。

平头哥算法负责人星瞳向机器之心解释了背后的优化机制:

虽然上述业务看起来比较多样化,但在视觉领域的计算多由若干典型计算架构构成,上升到骨干网络上的差异性比较小,所以尽管定位于一款 ASIC 芯片仍强调一定的通用性,保证兼容常见的深度学习算法和框架,

与此同时,针对具体的行业应用,还需要阿里达摩院的算法人员针对不同场景进一步优化。星瞳向机器之心透露,这是含光 800 算力针对性提升的关键,比如套用风格迁移的思路,加速算法的移植和优化。

整体来看,这些应用和算法加速的基础主要脱胎于阿里数字经济体内部以及阿里云外部的业务实践,进一步凸显出阿里打造芯片生态的独特思路。

值得注意的是,平头哥用最短的时间完成了芯片的设计、流片整个过程,7 个月完成前端设计,之后仅了 3 个月就成功流片。

芯片设计是一个复杂的系统工程,单纯完成设计并不意味着就可以流片成功,这是行业的深水区,假如流片失败,就意味着硬件设计需要推倒重来,这比软件出 BUG 问题更加严重。一般芯片公司需要做两次(engineering sample、production sample)或多次才能流片成功。

暂时禁止评论

微信扫一扫

易采站长站微信账号