新北市學車交流論壇
標題:
運算性能突破360 TFLOPS,特斯拉展示全自動駕驶汽車AI訓練芯片Dojo...
[打印本頁]
作者:
admin
時間:
2024-4-24 18:04
標題:
運算性能突破360 TFLOPS,特斯拉展示全自動駕驶汽車AI訓練芯片Dojo...
不讓Nvidia、Google專美于前,在本年Tesla AI Day勾當上,美國電動汽車大厂特斯拉(Tesla)展示自家最新主動駕驶汽車利用同時,首度公然表露一款便宜AI練習芯片Dojo D1,夸大具有GPU的壮大運算力,更兼具CPU的應用弹性,和超高速傳输带宽,乃至在AI算力表示也優于Google的TPU v
帶夜燈纸巾盒
,3,可供给362 TFLOPS運算機能,特斯拉不只用它加快AI練習建立全主動駕驶汽車,将来也将作為首款人型呆板人Tesla Bot的AI練習利用。
這颗主動駕驶汽車AI芯片D1,是由Tesla工程团队一手開辟完成,從芯片架構、建造到封装
薑膏
,,采纳先辈7纳米制程,其内置高达500亿個晶體管。按照Tesla的先容,D1處置器芯片是由354個高機能練習節點所構成的,每一個練習節點均可视為是一個個運算芯片,每一個練習芯片皆采纳定制ISA指令集架構設計完成,出格對付ML事情负载履行加
草本祛痘膏
,以優化,并内置1.25MB高速的SRAM和低延迟和高带宽的收集fabric,使得单一芯片,在BF16/CFP8测试基准下,其運算機能可达1.024 TFLOPS。
由354個練習節點所構成的D1模块芯片,其運算力更一举到达362 TFLOPS(每秒1万亿次浮點運算),若以今朝市道市情已知的ML芯片 (
持久藥
,TPU v三、GPU(HBM-Links互联)或其他創業公司ML芯片)機能来做比力,Tesla指出,D1算力表示還優于其他市道市情ML芯片,乃至比Google的TPU v3表示都還好。此外這颗處置器自己的热設計功耗(TDP)唯一400瓦,相较之下,TPUv3有到达450瓦。
不只運算機能,Tesla也出格夸大這颗AI處置器,在設計上采纳新的芯片互联架構,可供给内部高速互联,总带宽可到达每秒40TB的傳输能力,并且每一個D1芯片,能支撑至多576信道,可用于高速I/O利用,跟當前最先辈收集互换機比拟,Tesla暗示,D1芯片可供给高达两倍的傳输带宽。
Tesla Dojo项目重要卖力人Genesh Venugopa则说:“Dojo D1處置器芯片是一款纯呆板進修練習呆板,彻底專為ML練習和高速带宽而設計。”
不但是主動駕驶汽車AI練習上會用到,Tesla首席履行官马斯克在會中也流露,来岁将展现一款人型呆板人原型Tesla Bot,也将應用到這颗AI練習芯片,作為呆板人AI練習来利用。他暗示,Tesla是世上最大的呆板
關節疼痛冷敷貼
,人公司,“由于咱們的汽車就像装了轮子的半感知呆板人(semi-sentient robot),以是應用到人型呆板人身上也说得通。”
Genesh Venugopa暗示,该鑽研团队最新還以约1,500個D1芯片互联打造一套ML練習引擎體系,称為練習瓦片(Training Tile),每一個Training Tile體系,可供给運算機能更高,到达9 petaFLOPS,即是是一台AI超等计较機。今朝他們已完成一台Training Tile原型。
為了打造這套AI練習體系,鑽研团队费經心思,不但設計Dojo接口處置器作為host bridge,用于與PCIe Gen4的毗连,還参加高速带宽的DRAM同享内存,并以Radix收集毗连建立低延迟Mesh架構。另在電源方面,则從新定制一個電力调解器模块,搭配52伏特直流電输入,可以做到更省功耗,更省電。不只硬件,在软件面向,他們也连系了DPU (Dojo Processing Unit)、Dojo Compiler Engine、Neural N
治療肩頸痛
,et models等软件组件,建立完备软件倉库,借此来實现AI運算范围化。
接下来,他們還要以120個Training Tile體系建立一個超大型ExaPOD運算集群,其運算機能更可达1.1 ExaFLOPS(每秒一百千万亿次運算),還具备多达每秒36TB對外高速带宽。待完成今後,Genesh Venugopa暗示,它将是世上最快的AI練習超等计较機,預期在不异本钱下,可供给多4倍機能,并且更省電,每瓦機能将能晋升1.3倍之多。将来還會開辟下一代Dojo硬件,機能更晋升10倍。
歡迎光臨 新北市學車交流論壇 (https://bbs.hair999.com.tw/)
Powered by Discuz! X3.3