全球区块链监管查询平台

简体中文
下载WikiBit

二值神经网络芯片eth_自动驾驶芯片市场火爆科技巨头抢滩中国企业能否一战

二值神经网络芯片eth_自动驾驶芯片市场火爆科技巨头抢滩中国企业能否一战 WikiBit 2023-06-08 11:00

本资讯是关于自动驾驶芯片市场火爆科技巨头抢滩中国企业能否一战,中科院提出图神经网络加速芯片设计这是一种怎样的芯片呢,马斯克发布了个芯片他想造世界第一超算,独家 | 寒武纪二代芯片发布在即提前揭秘如何挑战英伟达!相关的内容,由数字区块链为您收集整理请点击查看详情

  Ⅰ 自动驾驶芯片市场火爆,科技巨头抢滩,中国企业能否一战

  [汽车之家 新鲜技术解读]? 自动驾驶系统,最关键的部件是什么呢?是传感器?是控制软件?还是处理芯片呢?我个人认为在目前这个阶段来说,处理芯片是一个最关键的部件,它的性能直接影响自动驾驶系统的好坏。过去,顶尖的芯片技术一直是国外企业垄断的,但随着中国芯片企业近年的快速追赶,情况已经有所改观。今天我们就来聊聊中国自动驾驶芯片究竟处于一个怎样的水平?

  ● 自动驾驶芯片是干什么用的?

  虽然目前L3级别有条件自动驾驶车辆在中国尚未落地,但从一些带有高阶L2驾驶辅助系统的车辆上我们可以发现,这些车辆都带有数量不少的传感器用以检测车辆周围的障碍物,从而为控制系统决策提供数据支持。这些传感器包括毫米波雷达、超声波雷达、摄像头等。这些传感器每秒钟会产生数GB(1GB=1024MB=10242KB)的数据,自动驾驶芯片需要流畅地处理这些数据才能保证系统及时作出正确的决策,从而确保车辆的行驶安全。

  可能大家对每秒数GB的数据没有概念,这里举一个生活中的例子。普通的USB3.0接口U盘,其读取速度峰值接近200MB/s,要从这个U盘中读取1GB的文件大约需要5秒左右的时间,足见每秒数GB的数据量是相当大的。

  自动驾驶系统除了需要解决大流量数据传输问题,还需要解决的就是如何能快速处理这些海量数据,而强大的自动驾驶芯片正是那把正确的钥匙。

  ● 国外的自动驾驶芯片处在怎样的水平?

  虽然本文主要是讲中国自动驾驶芯片的,但知己知彼,百战百胜,在审视本土状况之前,我们还是先要来简单了解国外的情况。国外自动驾驶芯片真正能够大规模进入量产车市场的无非三家,英伟达、Mobileye(现已被英特尔收购)、特斯拉。

  其中,走实用路线的Mobileye目前市场占有率在70%以上,市场上的产品主要是应用于L2驾驶辅助系统的EyeQ3芯片(算力0.256TOPS,“TOPS”是每秒万亿次运算的意思,详细介绍请看这篇文章相关介绍,本文标注的算力如无特别说明均指的是8位整数计算能力)以及具备L3级别自动驾驶能力的EyeQ4芯片(算力2.5TOPS)。像是小鹏G3、蔚来ES6/ES8、广汽新能源Aion LX就采用了EyeQ4芯片作为其驾驶辅助系统的核心。

  相较于英伟达上代自动驾驶平台旗舰之作DRIVE PX Pegasus 320TOPS的算力,新的DRIVE AGX Orin平台的旗舰配置实现了成倍的性能增长。此外,DRIVE AGX Orin平台的扩展柔性化程度相比以往平台进一步提升,能够通过硬件配置的增减,满足从一般驾驶辅助到L5级别完全自动驾驶等不同级别车辆的需求。

  特斯拉Autopilot 1.0系统采用的是1颗英伟达Tegra3芯片+1颗Mobileye EyeQ3芯片;Autopilot 2.0系统采用的是1颗英伟达Tegra Parker芯片+1颗Pascal架构GPU芯片;Autopilot 2.5系统采用的是2颗英伟达Tegra Parker芯片+1颗Pascal架构GPU芯片。

  已经搭载在最新下线特斯拉车型上的自研FSD芯片,单颗芯片算力为72TOPS,Full Self-Driving Computer集成有两颗独立工作的FSD芯片,一颗“挂了”,另外一颗马上“顶上”,提升了整套系统的安全性和稳定性。

  当然了,除了上面三家锋芒毕露的企业,还有不少企业在垂涎自动驾驶芯片这块蛋糕,其中包括高通、赛灵思、恩智浦等,但这些企业真正走向量产车的自动驾驶芯片还不成规模,限于篇幅,这里就不作介绍了。

  ● 迅速崛起的中国自动驾驶芯片企业

  好了,看完国外的情况,我们目光回到国内。自动驾驶芯片市场火爆,国外科技巨头抢滩登陆,中国企业究竟实力怎么样呢?下面我们一起来看看。

  ◆ 寒武纪

  中科寒武纪科技股份有限公司(下称“寒武纪”)的前身是中国科学院计算技术研究所下,由陈云霁和陈天石两兄弟领导的一个课题组。该课题组在2008年开始研究神经网络算法和芯片,并在2012年开始陆续发表研究成果。

  2016年,上述课题组提出的深度学习处理器指令集DianNaoYu被ISCA2016所接受,实验表明搭载该指令集的芯片相较于传统执行X86指令集的芯片,在神经网络计算方面有两个数量级的性能优势。随着课题组的研究成果趋于成熟,中科寒武纪科技股份有限公司正式成立,并着手将其芯片和指令集向商业领域转化。也是在2016年,寒武纪发布了首款商用深度学习处理器寒武纪1A。

  聊完这家公司的身世,下面我们来看看它的产品。目前寒武纪有两款最新的人工智能芯片IP授权,分别是Cambricon-1M和Cambricon-1H。性能指标最强的Cambricon-1M-4K在1GHz时钟频率下拥有8TOPS的算力;性能指标最弱的Cambricon-1H8mini在1GHz时钟频率下拥有0.5TOPS的算力。所有型号的详细算力参数可以参看下表。

  Cambricon-1M和Cambricon-1H被定义为终端智能处理器IP。我们在手机或者汽车这些终端上出现的人脸识别、指纹识别、障碍物识别、路标识别等应用都能通过在芯片中集成上述处理器IP实现加速。

  上面提到的“边缘”一词来自于“边缘计算”。 边缘计算是指在靠近智能设备(终端)或数据源头(云端)的一端,提供网络、存储、计算、应用等能力,达到更快的网络服务响应,更安全的本地数据传输。边缘计算可以满足系统在实时业务、智能应用、安全隐私保护等方面的要求,为用户提供本地的智能服务。思元220在边缘计算中扮演着提高数据安全、降低处理延时以及优化带宽利用的角色。

  目前寒武纪高算力芯片产品被定义为智能加速卡,可用于服务器中加速人工智能运算。谷歌的AlphaGo人工智能机器人打败韩国世界围棋冠军李世石的新闻相信各位有所耳闻,AlphaGo人工智能机器人的背后其实是谷歌自研的TPU芯片。寒武纪的高算力芯片产品的特性和应用也与谷歌TPU类似,当然它们之间也可以算是竞争对手了。

  所不同的是思元270-S4采用的是被动散热设计,最大热设计功耗为70W,定位为高能效比人工智能推理设计的数据中心加速卡。这也意味着该卡会有“功耗墙”设定,即当加速卡功耗达到阈值上限时会降低算力以保证较低的功耗和发热。

  思元270-F4相当于是“满血版” 思元270-S4,最大热设计功耗150W,采用涡轮风扇进行主动散热。良好的散热和充足的供电使得思元270-F4能够发挥出思元270芯片的全部性能。该卡定位是为桌面环境提供数据中心级人工智能计算力,简而言之就是为台式机配的高性能人工智能加速卡。

  虽然思元270在制造工艺上只采用了台积电的16nm工艺,但整体能耗比还是做得比较不错的。虽然单卡算力不及最新的英伟达旗舰计算卡,但5张思元270-S4/思元270-F4并行的话,峰值算力也能达到英伟达A100的水平。只是英伟达A100更先进的工艺应该在能耗比上面会有一定的优势。

  其中思元100-C搭载了视频和图像解码单元,采用被动散热方式,最大热设计功耗为110W;思元100-D不搭载视频和图像解码单元,采用被动散热方式,最大热设计功耗为75W。目前思元100系列产品已经于2019年在滴滴云和金山云上得到应用。其中滴滴云采用思元100板卡加速弹性推理服务,该服务用于深度学习推理任务;而金山云则采用思元100板卡加速语音、图像、视频等人工智能应用。

  前面讲的尽是服务器级的计算卡,这是不是偏离了我们应该聊的自动驾驶芯片话题呢?其实不然。前面也提到了,寒武纪目前是一家专注于人工智能芯片开发的企业,自动驾驶领域确实涉足不深,但通过和其他国内友商的联合还是有一些建树的。

  WiseADCU CN1自动驾驶运算域控制器提供了L3或以上级别自动驾驶系统所需的算力以及传感器连接数量需求,实现了仿真、模型、系统、架构、编码、加速、算法七个关键控制点的自主可控。

  实际上威盛集团由于处理器产品性能竞争力弱,早就退出了主流X86处理器市场的竞争,市场中就剩下英特尔和AMD在角力。兆芯成立后,吃透了威盛的X86技术,并在威盛当时最新的处理器架构基础上进行全面的改进和优化,先后推出了ZX-A、ZX-C以及ZX-C+等处理器产品。

  6月2日,科创板上市委发布2020年第33次审议会议结果公告,寒武纪上市获得通过,从受理到审批通过,寒武纪只用了68天,刷新了科创板审核速度。寒武纪上市后成为A股中唯一一家人工智能芯片公司,该领域的市场空间在2022年有望超过500亿美元,发展潜力巨大。打通了A股融资渠道的寒武纪究竟能否凭借其独特的技术优势进一步发展壮大呢?这谁都说不准,但可以确定的是,寒武纪的成功上市让很多投身于该领域的公司赢得了信心,看到了希望,中国人工智能芯片时代或将由此开启。

  ◆ 地平线机器人

  好了,聊完寒武纪,我们来聊聊另外一家人工智能芯片企业——地平线机器人技术研发有限公司(下简称“地平线”)。地平线是由前网络深度学习研究院常务副院长余凯于2015年创立的,专注于自动驾驶与人工智能芯片的一家公司。余凯也是网络自动驾驶的发起人。

  余凯建立的地平线,一直以来坚持的是软件和硬件相结合的方向。他认为,算法、芯片和云计算将构成自动驾驶的三个核心支点。相比起前面介绍的寒武纪注重打造高性能硬件芯片,地平线的商业模式是把以“算法+芯片”为核心的嵌入式人工智能解决方案,提供给下游厂商。打个比方比较好理解,如果说寒武纪卖的是处理器芯片,那么地平线卖的就是安装了操作系统的整机。产品方面,相较寒武纪从终端到云端的芯片产品布局,地平线虽然自研芯片,但更偏重的是以产品功能来划分产品线。

  硬件上,征程二代芯片内部集成了两个Cortex A53核心、两个自研的BPU(Brain Processing Unit,可用于加速人工智能算法)核心、DDR4内存控制器以及输入输出控制器,算力达到4TOPS,典型功耗为2W,这比起目前主流的Mobileye EyeQ4芯片的算力和能耗比都更优秀。

  这些智能音箱有较强的自然语义识别功能,能够识别人们发出的语音命令,结合物联网技术,人们通过简单的语音命令除了能够让音箱播放在线音频资源外,还能够控制各种家电,如开关、灯泡、风扇、空调等。这就是AIoT的一个最简单的应用例子。

  从硬件方面看,旭日二代芯片内部集成了两个ARM Cortex A53核心、两个自研的BPU核心、DDR4内存控制器以及输入输出控制器,算力达到4TOPS,典型功耗为2W。从参数上看,旭日二代和征程二代好像没什么差别,实际上征程二代可以看做是旭日二代的车规版,它满足AEC-Q100标准,在工作温度、电磁辐射等标准上会更高一些。虽然征程二代和旭日二代均采用台积电28nm工艺制造,但旭日二代芯片尺寸为14x14mm,比征程二代芯片17x17mm的尺寸更小,更有利于内嵌到AIoT设备当中。

  和寒武纪一样,地平线同样拥有自研的人工智能加速芯片技术。所不同的是,地平线更注重软件和硬件的整合,从而为下游厂商提供成熟的解决方案。在资本市场,地平线同样受到追捧,其投资者众多,其中包括了世界半导体行业巨头英特尔和SK海力士以及国内的一线汽车集团等。未来地平线是否会和寒武纪一样登录科创板目前还不得而知,但CEO余凯对于在科创板上市是持积极态度的。我个人是支持有更多像地平线这样的企业登录科创板,更充分的竞争可以避免垄断同时促进该领域的加速发展。

  ◆ 西井科技

  西井科技创办于2015年,它起初是一家做类脑芯片的厂商。所谓的类脑芯片简单来说就是以人脑的工作方式设计制造出来的芯片。目前大行其道的冯?诺依曼结构处理器芯片,其计算模块和存储单元是分离的,芯片工作的过程中需要通过数据总线来连接计算模块和存储单元,数据传输上的开销太大从而限制着这类芯片的工作效率和能耗比的提升。

  类脑芯片模仿的是大脑神经元的工作形式,大脑的处理单元是神经元,内存就是突触。神经元和突触是物理相连的,所以每个神经元计算都是本地的,而从全局来看神经元们是分布式在工作。类脑芯片由于具有本地计算和分布式工作的特点,所以在工作效率和能耗上相比冯?诺依曼结构处理器芯片更有优势。

  虽然这种类脑芯片看着和普通的处理器芯片在外观上没有什么不同,但其实内部运作原理与传统的处理器芯片有着本质的区别。国内除了西井科技开发出了类脑芯片,像是清华开发的天机(TianJic)芯片和浙大开发的达尔文(DARWIN)芯片都是类脑芯片。所不同的是,西井科技的DeepSouth芯片是全球首块可商用5000万类脑“神经元”芯片。

  西井科技这艘大船拿着投资人动辄过亿的投资款,肯定是要追求盈利的。不管公司的技术有多超前,无法商业化在逐利的资本市场必然是无法接受的。随着人工智能和自动驾驶产业的兴起,西井科技找到了技术商业化的契机。

  相比起我们前面两个厂商动辄上百TOPS算力的产品,西井这两款产品的算力确实有点拿不出手。但西井科技的这两款芯片能够实现片上学习,可以随时新增样本进行增量训练来提升推理准确率。

  可能大家看到这里还是没看懂西井科技这两块芯片的优势所在,我在这里稍微解析一下大家就能够明白。目前的自动驾驶算法都是通过高性能服务器进行模型训练(让计算机去看摄像头或激光雷达等传感器获取的环境数据,学习目标判断方法),然后将训练好的模型再部署到车载硬件之中(把机器学习到的高效目标判断方法固化到车载自动驾驶系统之中)。

  在实际应用方面,西井科技并没有一头冲进乘用车自动驾驶系统领域,而是在智能港口和智能矿场干出了自己的一片天地,并把触角伸向了智慧医疗和智慧物流领域。2017年10月,公司与全球知名港机巨头振华重工建立长期合作伙伴关系,这是西井科技进军智能港口的重要一步。

  自动驾驶卡车要在港区自动装卸集装箱,需要自动驾驶系统精细的车辆控制、敏锐的环境识别以及准确的定位,这些都需要港区高清地图配合。西井科技的无人集装箱卡车定位精度在5cm以内,这是实现集装箱自动装卸的关键。全球首辆港区作业无人集装箱卡车作业成功,充分展现了西井科技在卡车自动驾驶系统以及高精度地图绘制领域的实力。

  除了自动驾驶和高清地图绘制外,西井科技还为企业打包了一整套智能港口和智能矿场解决方案,利用人工智能技术提升港口和矿场的运作效率,同时能够进一步降低其运营成本。深挖行业中存在的机遇,逐步筑起行业壁垒是西井科技面对人工智能芯片市场激烈竞争的重要策略。

  作为全球最早落地行业应用的自动驾驶团队,西井科技旗下自动驾驶品牌Qomolo逐路目前涵盖了无人驾驶跨运车、无人驾驶新能源集卡和无人驾驶矿卡三大项目。

  面对乘用车自动驾驶芯片领域的激烈竞争,我认为短期内西井科技不会进入该领域。相反它会通过深耕已有的智能港口、智能矿场以及无人驾驶重卡市场,进一步筑高上述市场的壁垒,扩大自身的行业影响力和竞争力。但不能忽视的是,西井科技掌握的类脑芯片技术或有可能成为未来自动驾驶芯片领域的一个风口。

  上文详细介绍中国3家知名自动驾驶芯片公司及其产品,相信大家应该对目前国内自动驾驶芯片现状有了一个更深了解。除了这三家公司,数字地图供应商四维图新通过收购杰发科技也布局自动驾驶芯片市场,但量产芯片目前尚未落地。网络的昆仑芯片以150W的功耗实现了260TOPS的算力,竞争力很强,但其定位为云端全功能人工智能芯片,主要用在服务器之上。网络在自动驾驶领域的亮点还是在于其Apollo自动驾驶软件平台。

  ● 全文总结:

  寒武纪、地平线、西井科技这三家公司都有着各自的特色和亮点。寒武纪专注于芯片研发,产品算力最强;地平线除了研发芯片,还提供完整的自动驾驶软件方案,对主机厂开发更友好;西井科技掌握独特的类脑芯片设计,在智能港口、智能矿场以及无人驾驶卡车领域已经站稳了阵脚。整体来看,中国自动驾驶芯片在性能和功耗上和外国芯片相比并不差,如何在中国开放L3级别有条件自动驾驶车辆落地这个时间节点用产品和服务先发制人是中国自动驾驶芯片企业的制胜关键。究竟鹿死谁手,让我们拭目以待吧,好戏即将上演!(图/文/汽车之家 常庆林?部分图片源于网络)

  Ⅱ 独家 | 寒武纪二代芯片发布在即,提前揭秘如何挑战英伟达!

  「初创公司要贸然打入云端市场,简直就是自寻死路」。

  长久以来,云端的数据中心市场被视为创业公司的禁地,因为英特尔、英伟达、AMD 等巨头林立,竞争太过凶残。

  但近年来,云计算势不可挡,云端芯片市场呈现爆发式增长,不乏勇者前来破局。

  作为一家发源于中科院计算所、背靠多家「国字辈」资本、估值已经来到 30 亿美金的硬核创业公司,寒武纪挑战云端市场的底气十足。

  2018 年 5 月,寒武纪发布首颗云端 AI 芯片,并对外透露获得中国前三大服务器浪潮、联想、曙光的订单。据机器之心了解,滴滴、海康威视也已经成为寒武纪的客户。

  与此同时,寒武纪成数亿美元 B 轮融资。据机器之心了解,目前寒武纪的估值约为 30 亿美元,与今年 2 月完成 6 亿美元融资后成为「全球最具价值的 AI 芯片公司」的地平线不相上下。

  一年后,寒武纪二代芯片已经箭在弦上,这颗积蓄了中科院计算所研发实力四年之久的二代或将为行业带来不小震荡。

  机器之心独家获悉,寒武纪二代云端芯片或将于本月公布,同时我们采访到寒武纪技术研发相关知情人士、寒武纪云端芯片客户等多方信源,提前揭秘关于该颗芯片的细节亮点和核心技术。

   这回有了中文名

  据机器之心了解,寒武纪二代云端 AI 芯片代号为「MLU270」,延续上一代芯片「MLU170」的 MLU(Machine Learning Unit)系列。今年初,寒武纪已经为旗下芯片注册两大中文商标名,分别是「思元」、「玄思」。综上,寒武纪二代云端 AI 芯片中文名为「思元 270」。

  在今年的新品议程表上,虽然还名列有其他芯片,但「思元 270」及其板卡将会是重头戏。这也表明寒武纪将从终端向华为等品牌商授权 IP 的模式,转向主打云端市场的芯片方案提供商。

  在芯片架构方面,寒武纪二代芯片将从上一代的「MLUv01」升级为「MLUv02」。考虑到视频数据正呈现爆炸性增长,成为数据中心的任务主流,寒武纪在「思元 270」里内建视频解码单元,瞄准海量的视频处理市场专门配置。

  据机器之心了解,寒武纪「思元 270」在今年年初研制成功,制程工艺方面明显抛弃了此前终端市场的激进打法,选择仍然沿用台积电 16nm 工艺,定位于「专注云端训练计算」。

  对比两大巨头的主流云端产品线,英伟达去年 9 月发布并已发货的 Tesla T4 采用 14nm 工艺,AMD 去年 11 月发布的 Radeon Instinct MI60 和 MI50 采用 7nm 工艺,寒武纪这次似乎希望单纯依靠技术路线取胜,不再如去年对于 7nm 工艺寄予厚望。

   「让英伟达难受」

  在芯片性能方面,「思元 270」的性能参数有意向业界标杆英伟达 Tesla T4 看齐。

  据机器之心目前了解到的情况来看,「思元 270」可支持 INT16/INT8/INT4 等多种定点精度计算,INT16 的峰值性能为 64Tops(64 万亿次运算),INT8 为 128Tops,INT4 为 256Tops。

  对比 Tesla T4,FP16 的峰值性能为 65 Tops,INT8 为 130 Tops,INT4 为 260 Tops。

  功耗方面,「思元 270」功耗为 75w,与 Tesla T4 持平。

  但值得注意的是,这些「理论峰值」不过是纸面规格,真正实测水平相比理论峰值通常有一定缩水。据某大体量计算数据中心负责人,同时也是阿里云早期核心技术研发人员李立表示,「T4 在实测过程中,75w 功耗维持不了多久就降一半频率。」

  据该负责人介绍,他在几个月前已经拿到「思元 270」的具体规格和特性,「对比而言,第一代 MLU100 是试水,第二代 270 就聚焦多了,威力非常大,NV 后面会很难受。」

  与此同时,该负责人还指出,「寒武纪的方案在某些领域可能不会特别好使,尚待观察。」

   核心技术解密

  这里需要引入一对运算表示法的概念,整数运算(定点运算)与浮点运算。

  它们是计算机计算中最为常用的两种运算表示法,顾名思义,其差异就体现在整数和浮点上,加减乘除运算都是一样的。

  整数表示法,即所有位都表示各位数字,小数点固定;浮点表示法,则分成两部分,阶码和尾数,尾数就是数字部分,阶码表示乘幂的大小,也就是小数点位置。所以浮点数在做运算的时候,除了对尾数做加减乘除,还要处理小数点位置。

  基于两种不同的运算表示法规则,导致面对同样长度的整数和浮点运算,后者计算模式更为复杂,需要消耗更多的资源去处理,并且二者功耗差距通常是数量级的。 简单来说,就是浮点运算占用的芯片面积和功耗相比于整数运算器都要大很多倍。

  但浮点运算又有其不可取代性。首先,定点表示法运算虽然直观,但是固定的小数点位置决定了固定位数的整数部分和小数部分,不利于同时表达特别大的数或者特别小的数,可能「溢出」。

  而浮点的精度虽然没有定点大,但是浮点运算的小数点位置可以移动,运算时不用考虑溢出,所以科学计算法一般都使用浮点。所谓「溢出」,指超出某种数据格式的表示范围。

  此外,具体到使用 GPU 做训练,业界通常更倾向于浮点运算单元,主要是因为在有监督学习的 BP 算法中,只有浮点运算才能记录和捕捉到训练时很小的增量。 由于训练的部分模块对精度要求比较高,所以通常必须是高精度的浮点运算,比如 FP32 才能搞定,FP16 都难。

  综上,虽然浮点运算相比定点运算在功耗、计算速度、性价比等方面都不占优势,但截止目前,浮点计算在云端的训练场景中仍具有不可替代的特性,并且以高精度运算为主。

   那么,如何在不增加芯片面积和功耗的前提下,如何大幅提升芯片做训练的运算能力就成为云端训练芯片的主要研课题之一。

  参考计算过程相对简单的推断计算思路,目前该领域的 AI 芯片多采用集成大量整数运算器或低精度浮点运算器。

  面对计算过程更为复杂的训练计算,业界一直在尝试是否可能用性价比更高的定点运算器实现。「但这个问题在学术界也还没有普适的解决方案。」王一说道。

  李立表达了类似的观点, 目前大家的研究热点之一,就在于如何全部的定点单元(比如 INT8)代替浮点单元,或者以主要的定点单元配合少量的高精度浮点计算单元(比如 FP32)做更多的训练任务,目的是达到定点计算的快速度,同时实现接近高精度浮点计算的精度。

  谈到目前该方向的研究成果和代表论文,李立表示,行业相关的研究文章已经有一些,不过都不具有普适性。

  王一进一步向机器之心透露了关于实现低精度运算的「关键心法」,要做好低精度训练,就要找到一个好的数据表示方法,既能表达最后大的数,又能让 0 附近的小量能够更好地表达,因此这个数据表示可能需要有自适应性,能随着训练的过程调整。

  他还补充, 「低精度训练确实未必要是浮点数,只要能把数域表达好,0 附近的小量表达好,什么样的数据表示都可以。」

  综上,寒武纪在大幅度提升训练阶段的计算功耗比方面,很有可能采用的是以整数为主的低精度运算,这在目前已公布的 AI 芯片项目中属于首创。

  实际上,寒武纪在计算机计算领域的开创精神和技术积淀由来已久。早在 2014 年—2016 年期间,寒武纪创始人兼 CEO 陈天石、陈云霁两兄弟的研究就基本奠定了神经网络芯片的经典设计思路,也就是现在常谈到的 AI 芯片架构。

  当时他俩的「DianNao 系列」论文横扫体系结构学术圈: Diannao(电脑)是 ASPLOSཊ 最佳论文(亚洲第一次),DaDiannao(大电脑)是 MICROཊ 最佳论文(美国以外国家的第一次)……

  而在大洋彼岸,美国两家风头正劲的 AI 芯片公司 Graphcore、GTI(Gyrfalcon Technology, Inc.)正是沿用了 DianNao 系列论文的基本思路,采用大量堆叠的简单计算单元以实现复杂的云端计算。(机器之心曾进行过相关报道,《一款芯片训练推理全搞,Hinton 为其背书,Graphcore 完成 2 亿美元融资》、《30 年前的「CNN 梦」在这颗芯片落地,能效比高出 Tesla10 倍 | CES 直击》)

  此外,要切数据中心市场的蛋糕,一套完备成熟的软件生态也是其核心竞争力的重要体现。英伟达之所以能够在云端训练领域成为绝对主流,其 CUDA 软件生态的基础功不可没。

  据机器之心了解,寒武纪从 2016 年起逐步推出了寒武纪 NeuWare 软件工具链,该平台终端和云端产品均支持,可以实现对 TensorFlow、Caffe 和 MXnet 的 API 兼容,同时提供寒武纪专门的高性库,可以方便地进行智能应用的开发,迁移和调优。

   「云芯」之争一触即发

  尽管前述了寒武纪的种种硬核技术护体、大资本和客户加持,但想要真正在数据中心市场扎下根,以实现陈天石去年在发布会上谈到的目标:到 2020 年底,力争占据中国高性能智能芯片市场的 30% 份额,仍然面临着异常残酷的市场竞争。

  整体上,英特尔在数据中心服务器芯片市场仍然牢牢占据着的 95% 以上份额。

  而随着深度学习计算和人工智能技术逐步兴起的云端训练市场,同样被巨头绝对垄断。目前 90% 以上的云端加速采用英伟达 GPU,AMD、FPGA 占据非常小的份额,剩余市场还在被国内外芯片创业公司不断瓜分。

  据机器之心了解,近期还有一家国内知名 AI 算法公司将要入局云端推理芯片市场。据德勤最新出炉的报道显示,到 2022 年,全球人工智能训练市场的规模将达到约 170 亿美元,云端推理芯片市场的规模将达到 70 亿美元。

  可以预见,2019 年,AI 芯片之争将从端燃及云上,云端的大体量、高增速市场势必迎来更多强劲玩家。

  (应采访者需求,文中李立、王一均为化名。)

  Ⅲ 中科院提出图神经网络加速芯片设计,这是一种怎样的芯片呢

  随着技术发展,人工智能技术也在不断的发展。现有的芯片已经难以满足一些神经网络的计算了,中科院提出了图神经网络加速芯片,这种芯片专用于图神经网络的运算。让我们一起来了解一下什么是图神经网络,这种芯片有什么重大的突破。

  图神经网络的应用前景非常广泛,不仅用在日常交通预测、网约车调度、运动检测等民用领域,还可以助力科研的知识推理、化学研究以及在知识图谱、视觉推理等学科发展方向上。

  Ⅳ 马斯克发布了个芯片,他想造世界第一超算

  托尼看了以后,印象最深的就是那个 “ AI ” 机器人

  发布会前半部分展示了半天的 FSD 多厉害 ,又说了自己的新芯片 DOJO 多牛逼,把这场发布会前沿 科技 的氛围拉到顶点。

  结果这 AI 机器人一上来彻底把气氛整活跃 ( ) 了。

  你想象中的机器人是不是下面这样:

  或者是这样:

  托尼当时心想,我特斯拉也是第一次搞机器人,哪怕搬个模型上来我也觉得牛逼。

   结果没想到是个 —— 舞蹈机器人?

   关键它还是人假扮的!

  如果我站在马斯克的那个位置,当时我的大姆脚趾能犁出一个三室一厅来。

  本来还在畅想威尔史密斯《 机械迷城 》里的画面,这机器人一跳舞就瞬间把我拉回现实。

  不过话说回来,你要是真把它当成一个搞行为艺术的机器人,那可就错了。

  PPT 里的他可是有不少的黑 科技 。

   这个人形机器人身高 1.72 米,体重 65 公斤,承载力约 20 公斤。

  但是机器人嘛,长的像人只是基本要求,行为举止也要像人才行。

  所以特斯拉给它身上装了 40 个电机推杆 ,保证它可以像人的关节一样自由活动。

  马斯克设想这个机器人的实体版本将在明年面世,设计初衷就是用来处理那些 “ 不安全、重复的、无聊的工作 ”。

  比如山林灭火、救援、排爆等危险工作。

  又或是像《 机械公敌 》里那样,帮人们遛狗,送快递,打扫房间。

  马斯克也声称特斯拉将成为 “ 世界上最大的机器人公司 ”,让机器人更加成熟化和普遍化。

  不过要想实现这个愿望,这机器人还差一双洞察全局的 “ 双眼 ”。

   也就是让机器人和周围的环境有更多的交互。

  比如我们文章开头波士顿动力搞的那个双足人形机器人 Atlas。

  为了保证它正常的行走,不仅在身上装了电机, 还有各种液压平衡装置,处理器,传感器等等,后台要实时进行仿真模拟。

  所以按照 Atlas 机器人的思路, 机器人要和人完全一样,还必须拥有环境感知能力和运动协调性。

  所以马斯克的机器人就需要 一个 AI 或者说大脑,来进行实时感知和运算。

  这就要介绍到特斯拉这次 AI 日的重磅嘉宾, DOJO 芯片。

  其实这块芯片马斯克从 2019 年的时候就开始预热,经常发推说特斯拉正在开发一个叫做 DOJO 的神经网络芯片,可以用来处理庞杂的视频数据。

  并且最后加上一句 ,它是个猛兽。

  但它有多猛,咱先来列几个参数。

   台积电 7 nm 工艺,单芯片面积达 645 平方毫米,包含 500 亿个晶体管, BF16 / CFP8 峰值算力达 362 TFLOPS,FP32 峰值算力达 22.6 TFLOPS。

   DOJO 组成的一个训练单元的接口带宽每秒 36 TB,算力总达 9 PFLOPS。

  我们拿目前全球第一的富岳超级计算机算力作比较, 它的超频算力为 2.15 EFLOPS,默频 1.95 EFLOPS,而特斯拉之前用英伟达 A100 GPU 组成的超算算力已经达到 1.8 EFLOPS,排到世界第五。

   马斯克还称 DOJO 组成的新一代超算比上一代强 10 倍,这话难道是想争超算界第一?

  并且特斯拉还放了张图来比较,大概意思就是:

   你英伟达 GPU 和谷歌 TPU 连我 DOJO 的车尾灯都看不到。

  不仅如此。

   DOJO 还能进行模块化组装,多个芯片间无缝衔接,组成超大规模的计算阵列。

  这也就是特斯拉最早在预热海报里放的那个图, 一个集合了 25 块 DOJO 芯片的训练模块。

  总之,强就完事了。

  而且马斯克这个 DOJO 只做一件事 ,训练 AI。

  我们可以理解为它被拿去 专门训练辅助驾驶系统 AutoPilot 和 FSD。

  咱都知道马斯克一直想做的就是 纯视觉端到端的自动驾驶 ,纯视觉代表你要有大量的视频数据去处理。

   它们这次在车上用了 8 颗摄像头,可以立体的描绘出周围环境。

   然后把这些数据交给 DOJO,DOJO 就可以实时绘制车周围的环境图,并且据此给车辆发出相应的指令,注意这里的关键点是实时。

  这个过程像不像我们人类的大脑处理图像的逻辑?

   我们也是眼睛看到图像,大脑处理图像,然后下发指令,手脚给出相应的动作,而且也是实时的。

  “ 大批量的实时处理 ” 是 DOJO 算力最好的体现,它直接把 自动驾驶系统改造成一有思想的生物体,有大脑、有眼睛、有神经甚至还有预感。

  而 DOJO 的意义还不至于此。

  无论是特斯拉 Autopilot 还是 FSD,或者是别的新能源车企,目前也都只是辅助驾驶的领域,并不是真正意义上的自动驾驶功能,而 DOJO 的成熟应用可以加速从辅助驾驶到自动驾驶的过度。

  因为我们有足够多的驾驶数据可以用来学习,但是现有的计算机处理能力导致 AI 学习效率不高。

  而 DOJO 就像是围棋领域的阿尔法狗,它专注于自动驾驶领域,所以甚至可以超过人类驾驶员,成为自动驾驶车辆的全能领航员。

  马斯克说 “ 这些东西都是花费了巨资研制的,所以不太确定要不要开源,但是如果有其他公司想要获得许可,那是可以做到的 ”。

   所以说 DOJO 也给了老马坚定的走纯视觉路线实现自动驾驶的决心。

  虽然这个 DOJO 目前还没个准消息啥时候能用上,但是马斯克这个人懂得都懂,这人最擅长的就是制造惊喜。

  但是请答应我,惊喜不是惊吓。

  以后别再辛苦员工穿个紧身衣在台上尬舞了,我宁可看一个海报或者模型放那,也不想再多看一次 “ 超级变变变 ”。

免责声明:

本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性作出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任

  • 通证换算
  • 汇率换算
  • 购汇计算
/
当前汇率
可兑换金额

0.00