刚才收场的Tesla Autonomy举动中,Tesla绝顶大方的先容了我方的Full Self-Driving (FSD) Computer从体例到芯片的许众细节。从芯片来看,其透后度横跨了除Google
刚才收场的Tesla Autonomy举动中,Tesla绝顶“大方”的先容了我方的Full Self-Driving (FSD) Computer从体例到芯片的许众细节。从芯片来看,其“透后度”横跨了除Google第一代TPU除外总共的AI干系芯片。实质上,和Goolge TPU的境况似乎,正在此次发表之前,Tesla也做了必定的专利组织,这正好让咱们能够从区别角度更长远的领悟Tesla的FSD芯片。
正在简直先容体例和芯片安排之前,Pete Bannon最先说了项宗旨条件,“唯有一个客户Tesla”,这就很大水平上下降了芯片需求的庞杂性。总结起来,FSD芯片的需求就落到了如下几点,递次是功耗,算力,Barch size(latency),安适性。正在后面的Q&A中,Pete进一步提到Model 3的功耗的目的是每英里250W(Elon Musk对此作了添加,实质的功耗和道途处境有必定合连)。
前面几个需求合键响应正在芯片安排上,而安适性则正在体例层面也有许众思考,比方大方的冗余安排。统一块板卡上的两颗芯片的供电和数据通道都是独立且互为备份的。而一个很乐趣的思法是两颗芯片同时都对同样的数据实行剖析,然后比拟剖析结果(或者互相验证),再得出最终结论。
正在这个地方Elon Musk还亲身插进来讲了一下这块板卡上的任何一面要是涌现毛病都不会影响基础的汽车的行驶(他正在之后的Q&A枢纽还添加阐述了这一点)。
之后Pete Bannon就首先对芯片实行绝顶细致的阐述。最先是芯片的外观,硅片和极少总体新闻。后面的Q&A枢纽中流露了该芯片操纵的是Samsung的14nm工艺。
然后是SoC芯片的基础构成一面,CPU(12核A72),GPU,各样接口,片上汇集。这些一面都是采用第三方尺度IP。
其它还特意夸大了一个SAFETY SYSTEM(如下图所示),是一个独立的CPU,有最终的担任权。
当然,芯片中自研的最紧张的一面是Neural Network Processor,也是发表中要点先容的实质。最先是完全新闻,每颗芯片有两个NNP,每个NNP有一个96×96个MAC的矩阵,32MB SRAM,事情正在2GHz。以是一个NNP的惩罚材干是96x96x2(OPs)x2(GHz) = 36.864TOPS,单芯片72TOPS,板卡144TOPS。
这里较量值得注视的片上SRAM的数目。要是咱们比拟Google的初代TPU(256 x 256MAC,24MiB SRAM),这个片上存储的数目是相当高的。从下图也能够看到NNP中存储器大要占了总面积3/4以上。Pete Bannon的讲明是为了下降功耗,他们的安排目的是将总共的模子都能存储正在片上。精度的选拔是乘法8bit,加法32bit。之后Pete Bannon先容了芯片事情的办法,没有太众崭新的东西。
读256B activation和128B weight,颠末变形和buffer,组合成96×96的乘加,然后正在MAC矩阵中实行运算,末了结果shift out到特意的ReLU和Pool的硬件模块,然后再以每周期128B的带宽存回memory。因为MAC矩阵是96 x 96,以是正在把数据输入给MAC矩阵之前,须要做数据花样的变换。竣事这一系列手脚,总带宽需求是1TB/Sec。思考到所罕睹据都正在片上SRAM中,这个带宽较量容易满意。
Pete Bannon还提了一下担任逻辑功耗的题目,以为ICache,Register File和Control逻辑破费的能量要远比运算破费的能量大,以是NNP的安排就尽量简化了担任逻辑,只做运算。相应的,指令集较量粗略,唯有8条指令:DMA Read,DMA Write,Convolution,Deconvolution,Inner-product,Scale,Eltwidth,Stop。编程模子(担任流)也绝顶粗略,竣事一次运算只需修设4个新闻。其它也先容了编译器械,这个基础也是常睹的性能。
末了,Pete Bannon给出了芯片的实质功能目标,2300 帧/秒,72W。当然咱们并不晓畅这是运转什么汇集的结果。要是是讲演中给出的如下示例汇集,每帧须要35GOPS,每秒是35×2300=80TOPS,即能到达55%驾驭的诈骗率。
到此咱们看到了FSD芯片的极少细节,但还亏损以充溢领悟它的架构安排。实质上,正在此次公然之前,Tesla是给NNP申请了一系列专利的[2],咱们能够从中看到极少更细致的东西。
Tesla目前公然的专利,大要的思绪和Google之前给TPU申请专利也是差不众的(Google的神经汇集惩罚器专利),先申请完全框架和门径的专利,然后是简直运算,数据花样企图,Vector惩罚,网罗下面几个。
nal Array Microprocessor system with variable latency memory access(Mar. 2018)
这里先要阐述一下,专利和实质告终恐怕是有很大分别的。咱们对专利的阅读合键是行动比拟和参考。下面咱们合键看一下第一个专利,即完全架构和门径的专利。固然这里的名字叫“ACCELERATED MATHEMATICAL ENGINE”,但权柄央求里的说法是,“A matrix processor for accelerating co
nvolutions in a neural network”,基础即是一个CNN加快器。
它的基础硬件架构合键是缠绕一个大的矩阵惩罚器(MATRIX PROCESSOR)做作品(如下图)。
Data和Weight辨别颠末一个FORMATTER实行花样的转换,存入BUFFER,之后有一个硬件电途读出供给给矩阵惩罚器。专利中提到FORMATTER能够用软件或者硬件告终,它们实质芯片中该当是硬件告终的。因为要有用诈骗这种领域(96×96)的MAC矩阵,必需把输入数据排好,这个FORMATTER起到了很大用意。于是他们也特意对它申请了专利(Google也是似乎境况),有风趣的同砚也能够看看。
正在竣事了矩阵乘加运算后,结果会移出(shift)矩阵惩罚器(依照专利里的描写,该当是从上向下逐级挪动)实行后续惩罚,网罗累加,ReLU,和Pooling。由Vector Engine和Post-Processing Unit竣事。这一面也有特意的专利(申请工夫要晚极少),表述上和主架构专利相似有点区别等。其它即是担任逻辑一面,这一面是一个尽量粗略的安排。
source:Tesla patent “ACCELERATED MATHEMATICAL ENGINE”
能够看出合键的区别正在于Tesla众了一级累加器ShiftAcc,撑持的数据流也能更伶俐极少。总得来说,Tesla描写的架构和Google TPU专利描写的NNP(Neural network processor)是似乎的,可是看起来正在安排和表述上更为无缺。正在简直告终上,一个合键区别正在于,FSD芯片合键操纵片上SRAM事情,而不像是Google TPU还须要操纵片外的DRAM。当然,如故那句话,专利不代表简直告终,并且Google的专利要早许众。这里只是纯朴参考一下。
这几个专利中另有极少蓄谋思的细节,工夫合连我每来及细读。大众感风趣能够我方阅读一下,乐趣的新闻也接待留言分享。我把这四个专利整顿了一下,大众能够正在后台回答“teslapat”得回下载的链接。回答“googlepat”能够得回Google专利的链接。
回到Tesla的举动,正在芯片发表之后还实行了Q&A枢纽,这一面原来也很蓄谋思。最先,Elon Musk说了如下一段话(大意),“咱们此日之以是要供给如斯细致的新闻,即是由于,正在一首先,看待Tesla云云从没做过芯片的公司来说,要研发一颗全国最进步的芯片看起来是不恐怕的。咱们的目的即是云云,并且咱们的目的不但仅是领先一点,而是大幅度的领先。”从这段话能够看出,Tesla自研芯片该当是有须要性和材干上的质疑的。看待体例和运用厂商来说,这种质疑也是很平常的。须要性较量容易讲,如问答枢纽所说,Telsa要是每年卖上百万辆车,而自研芯片能让整车本钱下降,当然就值得去做。而针对芯片研发的材干的质疑,此次发表算是一个答复。以是,固然这颗芯片目前还说不上全国领先(目标上和Nvidia的比拟是不太科学的,这个Nvidia已有回应),Musk也要硬着头皮去说。从另一个角度,这颗芯片起码能够注明自研的可行性。并且Musk也很卖力夸大了这套体例的上风正在于它的软硬件都是特意为Tesla的主动驾驶定制的。比拟Nvidia,他是这么说的,“Nvidia is great company, but they have many customers, as they apply their resources, they need to do a generalized solution. We care a
bout one thing so private. It was designed to do that increadibly well and the software was also designed runing on that hardware increadibly well. The combination of hardware and software I think is unbeatable.” 看起来Tesla会正在这条途上接续走下去。正在被问道工艺题目的时分,Elon Musk特意提到下一代芯片正正在研发当中(曾经halfway done)。
另有一个合于实质途测和仿真的题目,Elon Musk说,“Tesla也做很好的仿真,可是如故很难模仿切实处境产生的各样境况,要是仿真处境可以模仿切实境况(这里他顿了一下)咱们也不晓畅我方是不是存在正在仿真处境中。”相仿他确实卖力的感知了一下。
Tesla的主动驾驶芯片是FSD体例的最紧张一面,其对标的产物该当是Nvidia的Nvidia Xavier SoC芯片(参考Hot Chips 30 – 巨头们亮“肌肉”中干系一面)。客观来看,Tesla的芯片和NvidiaXavier SoC芯片正在各方面如故有差异的。Tesla的SoC安排中,除了自研的Neural Network Processor一面除外,其它都是用业界尺度IP,并没做太众定制事情,只可说中规中矩。而NNP也是一个较量粗略的架构,也很难说做了许众架构和技巧上的革新。从另一个角度来看,这款芯片要是真的大方操纵了,那它起码也是及格的。能够看到,Tesla的目的和施行战略是明白和实质的,这是体例厂商自研芯片的最大上风。
汽车测试网-成立于2008年,报道汽车测试技巧与产物、趋向、动态等 联络邮箱 marketing#auto-testing.net (把#改成@)
微信扫一扫打赏
支付宝扫一扫打赏
