经典重庆

标题: 指令集全面优化 22nm全新Haswell处理器解读 [打印本页]

作者: admin 时间: 2013-4-16 18:12
标题: 指令集全面优化 22nm全新Haswell处理器解读

　　本届IDF上，Intel在处理器领域的亮点之一就是正式推出了Haswell架构的全新Intel处理器。与此前的处理器产品相比，Haswell究竟做了哪些改进，又为用户带来哪些好处呢？通过Intel官方的Haswell处理器培训资料进行分析，也许能找到一些答案。

　　两条腿走路的Tick-Tock

　　先说说Intel的开发策略。与竞争对手不同，Intel采用了Tick/Tock的开发模式，即像时钟的钟摆一样对处理器进行开发。在钟摆到Tock的在节奏时，制程工艺不变，对内核架构进行升级，而当钟摆到Tick节奏时，内核架构不变，对制造工艺进行升级。这样架构和制程进行互补，同时也拉长了开发周期，避免盲目追求“革命性”产品而对关键业务造成巨大风险。

　　在这种开发模式下，当钟摆摆动到Tock一侧时，Haswell架构诞生了。这一代处理器在制程上使用了22nm工艺，该工艺最早用于生产前一代Ivy Bridge架构产品，所有可能遇到的“地雷”基本上已经被Ivy Bridge趟得干干净净，工艺相对成熟可靠，不会对给新品制造带来什么麻烦。而在架构上，则进行非常大胆的尝试，成为全新的Haswell微架构。

　　这次IDF2013上发布的新品全部采用了Haswell架构，那么他们之间有什么样的关系呢？本质上说，无论是基于平板电脑、PC还是服务器的处理器，虽然针对的应用环境各不相同，但从某方面来看，他们全部都是“近亲”。

　　在一些分析文章中经常会有这种情况，就是当一些分析师遇到这样的情形时，会大力进行批判，认为这是一种缺乏创新的行径。那么对创新该如何理解？为了创新而创新、为了改变而改变，真的是很理性的选择吗？每个人对此的理解都不一样，但至少Intel在行动上拒绝这种观点。当一种新的架构被研发出来之后，能否在其生命周期内对价值进行充分挖掘，这才是最关键的。

　　至少，无论是Sandy Bridge、Ivy Bridge还是最新的Haswell，都已经被Intel验证过它们能够在多个领域被广泛使用，并且随着产品更新，应用领域越来越广泛，甚至已经能够涵盖从服务器到移动终端的所有设备。Intel需要做的就是针对不同应用领域在某些特定规格上做一些定制化。毕竟PC和X86服务器的应用诉求还是会有一定差异的，这种差异就需要定制化来弥补。

该帖已经同步到经典微博 admin的微博

作者: admin 时间: 2013-4-16 18:14

　说不清推翻还是继承前代的Haswell

　　最新的Intel三代处理器架构是Sandy Bridge、Ivy Bridge以及Haswell，不过由于Tick-Tock开发模式的关系，从架构上来说，Sandy Bridge与Ivy Bridge实在是太相似了，只不过制造工艺从32nm提升到了22nm。下面两张图，你能看出Sandy Bridge和Ivy Bridge的区别吗？

　　而等到了全新的Haswell出来，这种情况发生了明显变化。如果再往前挖出来三代Tock架构的话，分别是Nehalem、Sandy Bridge和Haswell，每一代相对前一代都有翻天覆地的架构改动。下面这张Haswell架构图，可以和上面的对比一下，两者区别非常明显。

　　从这个结构图上可以看到两个最直接的特性，第一是图形处理器的面积明显增大。图形处理部分，相对而言运算流水线普遍较短，性能提升依赖的是规模优势以及运算单元数量优势，运算性能与晶体管规模之间的正比关系十分明显，因此通过面积对比，几乎可以直接分析出Haswell的内置图形处理器比上代大约能够提升多少。

　　从图中显示出的第二个特性则是超大缓存的引入，这一块在Ivy Bridge家族中是不具备的。超大缓存带来的直接好处是处理器的数据吞吐能力获得全面提升，延迟也大幅降低。同时GPU与CPU之间的数据交换也变得更高效。

　　通过这样的架构改革，我们获得了最新Haswell架构的处理器。但是从架构布局图上来看，对于GPU和缓存以外的部分，看起来其实又没有那么明显。图中System Agent、Core和LLC部分的架构设计变动并没有多大。可以说Haswell与Sandy Bridge两代架构之间还是有很大关联性的。

该帖已经同步到经典微博 admin的微博

作者: admin 时间: 2013-4-16 18:18

　变革关键词：指令集、数据吞吐

　　通过前面的介绍，对于硬件部分已经可以有了一个大致的了解。Intel在硬件部分的设计思路大致有两点，第一是统一内核设计，基于不同应用领域对于内核架构做微调整，不难想象在未来的产品中Intel也将继续沿着这条路线走下去，以卸下不同产品线产品研发的负担。第二是提升单核运算性能，这样在统一内核的基础上，提升单核性能可以帮助Intel提升在全产品线、全应用领域上的竞争力。第三则是在前者的基础上，做到保持或者进一步减少处理器的功耗，以降低设备的TCO(总拥有成本)，让Intel变得更有竞争力。

　　对于处理器、芯片厂商来说，针对不同的产品做定制化研发是一个沉重的负担。并且随着产品线被细分，在传统的X86 PC、服务器之外，还诞生出了超极本、移动终端、智能手机等新兴产品，如果沿袭传统的开发模式，随着介入的领域越来越多，研发、制造的负担也会变得越来越重，并且风险成倍提升。Intel则针对各条产品线诉求共通的部分做研发，以统一内核架构的方式将诉求集中到几个关键点，并进行重点解决，而用诉求中有差异的部分对不同领域的产品进行区分。

　　那么Haswell改进的最终目标又是什么呢？从一些介绍PPT中想找出一些共同要素其实也并不难。以下是几页关键PPT。

　　可以看到在Port 0和Port 1增加了两个全新的FMA指令集，与前代产品相比，融合乘法和加法单元的FMA指令集直接让峰值FLOPS翻倍。同时为了避免整数和浮点运算都集中于Port 0和Port 1，新增加了Port 6，增加了整数单元分担一部分运算工作，提升运行效率、降低延时，在此基础上，Port 6还增加了分支单元，降低Port 0上出现冲突的可能性。另外，还增加了Port 7，主要作用是降低Port 2和Port 3执行存取指令的压力，存储指令可以转移到Port 7上来。

　　除了指令集优化之外，提升性能最直接的方式还在于提升高速缓存性能。Haswell的L1存取指令带宽、以及L2的部分关键通道带宽都有了翻倍甚至成倍提升，因此Haswell在某些关键应用上的性能会将前代产品远远甩在后面。

　　将这些改变的效果进行归纳，得到的结论就是他们不同程度的提升了处理器的数据吞吐量和执行效能。对于处理器，尤其是Intel处理器来说，其运算能力即使在非常高强度的环境下也是可以胜任的，瓶颈在于如何将运算任务进行分解和输送。如果将一个处理器作为整体，我们是看不到这些的，但如果将处理器拆解成一个个不同功能的模块，如何发挥出每个模块的最大效能，是Intel一直在重点研究的内容，也是内核架构不断改变和升级的原动力。

该帖已经同步到经典微博 admin的微博

欢迎光临经典重庆 (http://bbs.jdcq.net/)