Kneron发布全系列低功耗人工智能专用处理器IP

终端人工智能解决方案领导企业耐能(Kneron)今日正式发布Kneron NPU IP神经网络处理器系列(Kneron NPU IP Series),是针对终端设备所设计的专用人工智能处理器IP。Kneron NPU IP系列包括三款产品,分别为超低功耗版KDP 300、标准版KDP 500、以及高效能版KDP 700,可满足智能家居、智能安防、智能手机,以及各种物联网设备的应用。全系列产品具备低功耗、体积小的特性,且提供强大的运算能力。别于市面上用于人工智能的处理器,其功耗动辄数瓦起,Kneron NPU IP的功耗为100毫瓦(mW)等级,针对智能型手机脸部识别专用的KDP 300,功耗甚至不到5毫瓦(注一)。

Kneron创始人暨CEO刘峻诚表示:「要在终端设备上进行人工智能运算,同时满足功耗与效能需求是首要考虑,Kneron NPU IP实现了这样的目标,为终端人工智能带来革命性的发展。Kneron自2016年推出该公司首款终端设备专用的人工智能处理器NPU IP后,就不断改善其设计与规格,并针对不同产业应用进行优化。我们很高兴推出全系列新一代产品,同时宣布KDP 500已获得客户采用,于第二季进入量产制造(Mask tape-out)阶段。」

Kneron NPU IP是针对终端设备所设计的专用人工智能处理器,让终端设备在离线环境下,就能运行 ResNet、YOLO等深度学习网络。Kneron NPU为完整的终端人工智能硬件解决方案,包含硬件IP、编译程序(Compiler)以及模型压缩(Model compression)三大部分,可支持各种主流的卷积神经网络(Convolutional Neur al Networks,CNN)模型,如Resnet-18、Resnet-34、Vgg16、GoogleNet、以及Lenet等,以及支持主流深度学习框架,包括Caffe、Keras和TensorFlow。

Kneron NPU IP功耗为100毫瓦等级,超低功耗版的KDP 300甚至不到5毫瓦,全系列产品的每瓦效能在1.5 TOPS/W以上(注二),由于采用了多项独家技术,因此能实现低功耗、高运算力的需求。在架构设计上,运用卷积核拆分(Filter decomposition)技术,将大卷积核的卷积运算区块分割成多个小卷积运算区块分别进行运算,然后结合可重组硬件卷积加速(Reconfigurable Convolution Acceleration)技术,将多个小卷积运算区块的运算结果进行融合,以加速整体运算效能。通过Kneron先进的压缩技术,则能将未经优化的模型压缩数十倍。内存分层储存技术(Multi-level caching)可减少占用CPU资源以及降低数据传输量,进一步提升整体运作效率。此外,Kneron NPU IP能结合Kneron影像识别软件,提供实时识别分析、快速响应,不仅更稳定,也能满足安全隐私需求。由于软硬件可紧密整合,让整体方案体积更小、功耗更低,以协助产品快速开发。

Kneron NPU IP产品系列介绍:

1. NPU IP- KDP 300低功耗版

锁定手机3D脸部识别应用,可进行3D结构光与来自双镜头的立体影像识别分析,让真人脸部识别更快速精准。KDP 300亦适用于需要超低功耗的终端设备,该处理器包含运算与静态随机存取内存(SRAM)的功耗不到5毫瓦。

2. NPU IP- KDP 500标准版

可进行快速实时、大规模的脸部、手势、身体识别与分析,以及深度学习。适用于智能家居、智能安防等领域。运算能力可达152 GOPS(500MHz) (每秒十亿次运算),功耗仅有100毫瓦。

3. NPU IP- KDP 700高效能版

能处理更进阶与复杂的人工智能运算,以及深度学习推理应用,可应用在高阶智能型手机、机器人、无人机、智能监控设备等。KDP 700具有优异的运算能力,信息吞吐量可高达4.4 TOPS(1GHz) (每秒万亿次运算),功耗为300~500毫瓦。

注一:应用条件为CNN slice size 150×150、CNN frame rate 5fps、main frequency 20Mhz的计算结果。

注二:每瓦效能会因纳米制程不同而异。在40纳米制程下,Kneron NPU IP的每瓦效能达1.5TOPS/W以上。