特斯拉|马斯克的凡尔赛:我们都用人模仿机器人了 你们还在用人模仿机器人( 四 )


【特斯拉|马斯克的凡尔赛:我们都用人模仿机器人了 你们还在用人模仿机器人】在这样的背景下 , 特斯拉再次发挥其市场上没有就自己造的精神 , 自研了“Dojo” , 顺便打破了不知道多少世界纪录 , 特斯拉“被迫”的成为了人工智能巨头 。 好吧 , 又被马斯克装到了 。
“Dojo”超级计算机本身与消费者有着遥远的距离 , 不过我们抱着欣赏凡尔赛产品的心情来了解一下“Dojo”的技术细节吧:
据悉 , “Dojo”单个芯片算力为 362 TFLOPS , 25 个芯片为一组 , 组成一个训练模块 。 算力可以达到 9 PFLOPS , 接口带宽为 36 TB/s 。 这次特斯拉推出的机柜模型由 120 个训练模块组成 , 内置 3000 个 D1 芯片 , 超过 100 万个训练节点 , 算力将达到 1.1 EFLOPS , 是特斯拉现有超级计算机的一万倍 。 并且Dojo 支持无限连接 , 理论上性能无上限 。 根据公开的数据 , Dojo的演算力已经达到全球第五 , 仅次于第一的日本『富岳』、第二的美国Summit、第三的美国Sier , 以及第四的中国『神威太湖』 。
除了惊人的数据 , “Dojo”有趣的地方在于采用了非常规的封装形式 , 第一层和第五层铜质结构是水冷散热模块;第二层结构由5*5阵列共25个芯片组成;第三层为25个阵列核心的BGA封装基板;第四层和第七层只是物理承载结构附带一些导热属性;第六层是功率模块 , 以及上面竖着穿过散热与芯片进行高速通信的黑色长条状互联模块 。 而第二层5*5阵列的共25个芯片 , 采用InFo-SoW技术 , 有一整块300mm的晶圆制成 。 InFo-SoW不像传统模式将晶圆切割成多个芯片 , 而是所有的芯片都来自于同一个晶圆 , 不但不进行切割 , 反而是直接讲整个晶圆做成一个超大芯片 , 实现system on wafer的设计 。 也正是这样独特的封装形式 , 让Dojo解决了此前海量的物理结构成本高、通讯效率低、发热大等问题 。
“Dojo”的技术就聊这些 , 其实这里有一个问题 。 特斯拉自动驾驶算法的训练需要将来自全球超100万辆(截至目前)特斯拉车辆采集的真实数据汇聚于其在北美的数据中心 , 然后通过Dojo进行深度神经网络训练 , 以此帮助特斯拉的Autopilot不断进化 , 最终实现以纯视觉为基础的完全自动驾驶(FSD) 。
但是 , 特斯拉在国内关于数据安全的争议一直不断 , 涉及国家安全的关键区域禁止特斯拉进入的事件长期在网上发酵 。 对此 , 特斯拉曾表示 , “数据隐私安全 , 关乎着每一个消费者 。 特斯拉将严格遵守数据安全法 , 保护消费者数据相关权益” 。 同时表示 , 特斯拉已在中国建立数据中心 , 以实现数据存储本地化 , 并将陆续增加更多本地数据中心 。
在自动驾驶算法的训练中 , 尤其是针对本土市场驾驶员习惯的做出反应的算法训练需要用到Dojo或其他算力强大的超级计算机对数据进行处理并展开训练 。 也就是特斯拉不仅需要将数据存储在中国本土 , 还需要在中国建立有处理、训练能力的数据中心 , 未来特斯拉是否会将Dojo或其他超级计算机部署在中国本土 , 有待持续关注 。
“Dojo”超级计算机的用途是训练其自动驾驶神经网络 , 那具体有哪些工作?首先当然是通过“无监督学习算法”对新产生的海量数据进行自动标注 , 随着特斯拉新车销量持续快速增长 , 这类数据的增长也会以相应的速度飞速上升 。
其次是针对特殊场景的针对性训练 , 例如“AI DAY”上提到一起前方卡车卷起的风雪遮挡前方车辆的极端案例 。 这样的场景在现实中并不多见 , 但发生时会异常危险 , 因此 , 特斯拉会利用现有的超级计算机或未来的Dojo模拟更多的类似场景多神经网络进行训练 。

相关经验推荐