GPU|苹果M1 Max GPU解析:低耗高能的秘密并不复杂( 二 )


深入探究苹果新GPU设计 , 它的诀窍其实并不复杂
当然 , 如果你还想了解更多有关新款MacBook Pro的配置信息和功能特点 , 那么推荐大家可以去翻看我们三易生活今天早些时候发布的《新款MacBook Pro“炸场” , 苹果自研芯片再度傲视全行业》一文 , 其中会有更加详细的产品解析 。
而接下来我们要讲的 , 可能是到目前为止还没有其他媒体分析过的一件事 , 那就是此次M1 Pro与M1 Max的GPU设计 , 以及它们背后所体现出来的产品设计思路 。
首先 , 让我们来看看M1 Pro和M1 Max的GPU性能数据 。 根据目前的公开信息显示 , M1 Pro的16核GPU单精度浮点算力为5.2TFlops , 整个SoC的功耗约为65W;而M1 Max的32核GPU单精度浮点算力为10.4TFlops , 整个SoC的功耗为100W 。
以M1 Max为例 , 10.4TFlops的GPU单精度浮点算力意味着什么呢?这意味着它的理论性能已经超过了桌面版Geforce RTX2080S(10.14TFlops)、移动版Geforce RTX3080 Max-Q(9.585TFlops) , 或是PS5集成的Oberon GPU(10.28TFlops)的水准 。
但是这里就产生了一个问题 , 如果根据M1 Max和M1 Pro的功耗差值来推算 , 将不难得出 , M1 Max的GPU功耗最高不会超过70W(这还是多算了一个媒体引擎在里面 , 实际应该更低) 。 而它的三个对比对象的功耗 , 却分别达到了250W、80W和125W左右(PS5是180W SoC设计 , 但其CPU规格基本等同于桌面版65W的Zen2 APU) 。
那么 , 苹果是如何实现比A、N两家老牌GPU厂商都性能更高、同时功耗更低的GPU设计的呢?要搞清楚这一点 , 我们还需要了解两件事 。 一是在苹果的M1 Pro和M1 Max芯片里 , 每一个GPU“核心”其实都包含了64个ALUs(算术逻辑单元) , 而ALU其实才是我们在PC上常说的GPU“流处理器”;二是对于M1 Max来说 , 它的GPU运行频率为1278MHz , 这一点M1 Pro上也是一样的 。
弄明白了这些 , 我们就可以列出下面这个表格了 。
大家看明白了吗?没错 , 其实苹果的自研芯片之所以能够做到用极低的功耗去实现相当于旗舰级的性能 , 诀窍其实无非就两条 。 一是更积极地采用最先进的半导体制程 , 用制程换取更高的晶体管密度和能效比;其二则是采用“多核心+低频率”的设计思路 , 用更多的流处理器去确保性能 , 同时压低运行频率来保障功耗和发热更为可控 。
M1 Max的设计优势 , 传统PC行业并非不懂
请注意 , 这种“先进制程+超多核心+低运行频率”的芯片设计思路 , 在整个PC行业来说其实并不是什么新东西 。 因为长期以来 , 各种专业级显卡和服务器CPU一直都是这么做的 。
你以为RTX3090S就是NV的旗舰?其实A100才是他们真正看重的产品
比如NVIDIA的Tesla A100计算卡相比即将发布的RTX3090S , 前者拥有几乎翻倍的核心规模(542亿晶体管 vs 283亿晶体管) , 但因为采用了更先进的制程(A100是台积电7nm , 而3090S是三星8nm)、更低的运行频率(1275MHz vs 1395MHz) , 结果就是A100的功耗最终与RTX3090S完全相同 。
Intel并不是没有10nm的桌面高性能CPU , 他们只是没有针对家用市场而已
又比如说 , 大家都知道现在Intel的桌面旗舰CPU Core i9-11900K实际功耗可以到200W以上 , 而它采用的是14nm、8核心、主频5.3GHz的设计 。 可很多人可能不知道的是 , Intel还有一款名为Xeon W3375的工作站CPU , 其拥有10nm、38核心、4GHz的恐怖规格 , 但功耗却只比11900K高了一点点(270W) 。
这说明其实其他的PC芯片厂商也明白 , 更先进支持+多核心+低频率的设计 , 能够更容易实现高能效比的这个道理 。 只不过 , 先进的制程加上超大尺寸的多核心芯片 , 本身就意味着比“高频率小芯片”高得多的制造成本 。 因此在如今的大多数民用PC芯片上 , 高频率、高发热、高功耗的“小芯片”才会成为主流 。

相关经验推荐