核弹再升级英伟达Tegra X1解析

在CES 2015上，英伟达首先抛出了一颗重磅炸弹：Tegra X1，在发布时，英伟达宣城新的X1处理器的性能达到了上代K1的两倍，这也就意味着Tegra X1成为了当今市面上性能最强悍的移动处理器，下面请跟我们一起来看X1到底有多强，又强在哪里吧。

首先从英伟达的老本行GPU开始分析，早在GTC 2014的时候，英伟达就宣称下一代Tegra处理器将使用Maxwell架构的GPU，而Maxwell架构早就在桌面级的GPU上出现过了，而英伟达为了把这个架构放在移动处理器之上也是下了不少功夫，和Tegra K1的Kepler GPU不一样，X1上的Maxwell GPU可以算是从0开始全新设计的，而不是某个随随便便移植的作品。

当英伟达决定将移动处理器业务放在第一位的时候，这家公司的野心可见一斑，对于Tegra而言，高优先级的待遇意味着英伟达最新和最强的GPU都会以更快的速度登陆移动处理器——Maxwell 1的发布和Tegra X1的发布仅仅相隔了一年，相较于Kepler和K1两年的时间间隔确实短了很多。

此外，高优先级同样意味着英伟达将从架构底层上为移动处理器做出专属的功耗优化，而这一点不仅对于Tegra有利，对于桌面级的GPU的能耗降低也是有着显著作用的。

如此而来，Tegra X1就是英伟达这个策略下的第一个产物，这对于英伟达来说也是意义深远，得益于这样的产品策略，Tegra X1在已经非常强大的Tegra K1的基础上又获得了进化，而这些进化很多还是得益于使用了Maxwell架构。在CPU部分，英伟达决心要做市面上最强的CPU，所以英伟达也找上了ARM要来了A57架构（不过鉴于今后一段时间之内高端的CPU架构基本都会是A57，所以Tegra X1的最大武器依旧是那颗丧心病狂的GPU）。

进一步深入Tegra X1的GPU，我们所看见的是一颗为了Tegra而设计的Maxwell-2 GPU，相对于前作的Kepler，Maxwell 2架构加入了一系列的新功能，其中包括了第三代的多边形彩色压缩技术，每个CUDA核心的能效比也获得了提升，其他图形方面的功能还包括保守型光栅化算法、立体化覆盖资源和多帧抗锯齿等，这些听起来很酷的功能统统被塞进了Tegra X1之中。

在X1之中，英伟达对内存带宽和总体效率的改进在所有改进之中是最重要的，因为这两点基本就是移动处理器的瓶颈所在，在对于内存带宽的优化上，移动处理器厂家对于高端移动处理器的做法往往是对内存总线频率（Memory Bus）进行升级（升级到96位或者128位），这种简单粗暴的方法当然是效果最好并且最直观的，但是升级内存带宽就意味着升级成本和增加移动处理器以及周边设备的复杂度，在X1上，英伟达仍旧采用了64位的内存总线，于是为了不让性能强大的GPU饿着，英伟达加入了数据压缩，再配上LPDDR4的更新换代，X1的GPU效能才能获得全面发挥。

此外移动处理器的散热设计功耗（TDP）也是一个限制因素，对这方面进行改进的好处也是大大的：在降低处理器功耗的同时还能够提升性能，对发热进行控制也使得处理器在连续不断工作的时候表现更佳，这也就是为什么X1要使用台积电的20纳米工艺来对Maxwell的功耗进行优化。

最后但最重要的部分，就是X1还具有一个移动GPU专属的功能，而这个功能在桌面GPU上是没有出现的，而这个功能被英伟达称为“Double Speed FP16”，在加入这个功能之后，CUDA单元能够在FP16之下达成更高的性能，这在部分应用场景下是有用的。

和之前的Kepler和Fermi一样，Maxwell仅具有特定的FP32和FP64 CUDA核心，X1自然也不例外，在知晓了FP16的重要性之后，X1有着处理FP16任务独特的方式。在K1之上，FP16被简单地提升到FP32并调用FP32核心进行处理，而X1会将两个FP16包在一起变成一个单个的Vec2包，然后交由一个FP32 CUDA核心进行处理。

一言以蔽之，X1能够将同一个进程之中的两个FP16进行打包处理，打包之后，X1对于CUDA核心的利用就更加充分和灵活。

其实这也不是啥新奇的想法了，英伟达的竞争对手早就开始这么干了，总体来说这种处理方法依旧有点投机取巧的味道，ARM和Imagination在当下的GPU之中都具有FP16的兼容能力（要么就是有FP16处理单元或者更优良的ALU调配），而甚至AMD也要加入了，英伟达这么做也是情理之中。

但FP16的重要性又在哪里呢？这个其实说来话长，简单点说，FP16广泛地存在于Android的显示排序工作之中，因为对于Android来说这种低精度的计算对于省电是至关重要的；此外，FP16运算还在移动游戏领域有一定的地位，此外，FP16还存在于图像识别应用之中（比如英伟达自己的Drive PX平台）。

虽然FP16也有它自身的限制——16位对于现在的浮点数来说也确确实实不够了，不过在包括上方提到的应用之中，FP16依旧有着重要的发挥，由此对FP16快速准确的处理也显得重要起来了。

在功能性上就这么多了，剩下的就是用数据说话的时间。

总的来说，X1的GPU由两个Maxwell SMM塞进一个GPC组成，总的CUDA数量达到了256个，相比K1的单SMX直接翻倍，这也就意味着诸如几何和纹理单元这样的基础东西也加倍了，X1上能耗比更优的CUDA核心也使得Kepler望尘莫及。

除了CUDA核心数量之外，英伟达还对光栅ROP单元进行了修改，X1这回有了16个ROP，达到了K1的四倍，而这个ROP数量也赶上了GM107的ROP数量，这个提升对于X1支持4K@60Hz也是至关重要的，同时升级的带宽管理策略（效率和实际带宽均有）也保证了这些ROP在处理重型任务的时候不会饿着。

最后，我们还是不可避免地回到了谈论时钟频率和预期性能方面，英伟达官方暂时还没有公布X1的GPU频率，不过根据他们公布的性能数据来看，还是能猜出一点端倪的：英伟达宣称X1的FP16处理能力达到了1TFLOPs，由此推算，这颗GPU的最大频率可能已经达到了1GHz（1GHz×2FP16×2FMA×256=1TFLOPs）。

这个频率水平基本已经是桌面计算机级别的了，而这样的高频率对于一款移动处理器来说也已经是非常激进了，而对于X1最终将以什么形式落到消费者的手中依旧还是个未知数，目前唯一确定的就是搭载Tegra X1的设备肯定不会在短时间之内与我们见面（当然对于英伟达自家的产品就不一定了），这样的一颗核弹满速运转的时候，功耗和散热也会是一个无法回避的问题。

Via Anandtech

更新：现场性能测试 by Hardwarezone

3D Mark性能，得分达到43241分，为苹果A8X的两倍。

GFXBench跑分，帧数炸裂。

平均功耗图，作为对比的苹果A8X平均功耗为2.651瓦，X1的平均功耗为1.498瓦，这个功耗如果再控制一下，Tegra X1上手机还真不是不可能的。