在2020年英特尔架构日,大多数关注焦点都集中在即将面世的Tiger Lake 10nm笔记本电脑CPU上,但是英特尔还宣布了其Xe GPU技术,战略和计划方面的进步,这可能会在未来几年震惊整个行业。
集成的Xe图形可能是Tiger Lake笔记本电脑CPU的最佳功能之一。尽管我们尚未获得官方认可的测试结果,更不用说第三方测试了,但一些泄漏的基准测试表明Tiger Lake的集成显卡在Ryzen 4000 mobile中击败了Vega 11芯片组,幅度达35%。
假设这些泄漏的基准在现实世界中泛滥成灾,那么对于英特尔在笔记本电脑领域的声誉下降来说,它们将是一个非常需要的镜头。但是,Xe不仅能做到这一点。
一个新的挑战者出现
英特尔的7nm Xe架构旨在涵盖整个GPU应用程序,但是首款Xe产品Ponte Vecchio专门针对数据中心和超级计算环境中的高端深度学习和培训。
Enlarge / Intel的7nm Xe架构旨在覆盖整个GPU应用程序,但是Ponte Vecchio(第一个Xe产品)专门针对数据中心和超级计算环境中的高端深度学习和培训。
英特尔公司
自任何第三方真正挑战高端显卡的两方锁定以来已有很长时间了-大约20年以来,您唯一可行的高性能GPU选择是Nvidia或Radeon芯片组。我们首先听到了英特尔在2019年做出改变的计划,但当时,英特尔只是在谈论即将在Ponte Vecchio推出的Xe GPU架构,该产品旨在实现HPC超级计算和数据中心的使用。
该公司当时还没有准备好谈论它,但是我们在英特尔的Supercomputing 2019平台上发现了一张幻灯片,其中提到了将Xe架构扩展到工作站,游戏和笔记本电脑产品线的计划。我们仍然还没有看到来自英特尔的台式机游戏卡,但是Xe已经取代了旧的UHD产品线和功能更强大的Iris +替代品,并且与去年相比,英特尔现在更愿意谈论近期的扩展。 。
当我们向英特尔高管询问2019年的“游戏”幻灯片时,他们似乎对此毫无保留。当我们在2020年建筑日再次询问时,羞怯感消失了。英特尔仍没有台式电脑游戏(Xe HPG)卡的日期,但英特尔高管表示对该领域的“市场领先性能”(包括板载硬件光线跟踪)充满信心。
仔细看看Xe LP
如果您遵循我们之前对Tiger Lake建筑的报道,那么画廊中的第一张图应该看起来很熟悉。Xe LP GPU与Tiger Lake CPU一样,从英特尔重新设计的FinFET晶体管和SuperMIM电容器中获得了相同的好处。特别是,与Gen11(Ice Lake Iris +)GPU相比,这意味着在更大范围的电压范围内以及整个板上更高的频率提升方面具有稳定性。
有了更大的电压动态范围,Xe LP可以以比Iris +更低的功率工作,并且还可以扩展到更高的频率。增加的频率提升意味着在相同的电压Iris +可以管理的更高频率。很难夸大该曲线的重要性,因为它不仅影响部分工作负载,而且影响全部工作负载的电源效率和性能。
但是,这些改进并没有随着电压和频率的提高而结束。高端Xe LP具有96个执行单元(与Iris + G7的64个相比),并且每个执行单元都具有比Iris + G7宽两倍的FP / INT算术逻辑单元。为每个16 EU子切片添加一个新的L1数据缓存,并将L3缓存从3MiB增加到16MiB,您可以开始了解Xe LP到底有多大的改进。
Xe LP的96-EU版本在每个时钟周期的额定32位浮点运算(FLOPS)比Iris + G7高50%,并且在更高的频率下启动。这与我们之前引用的泄露的Time Spy GPU基准非常吻合-i7-1165G7的Time Spy GPU得分为1,482,而i7-1065G7的得分为806(而Ryzen 7 4700U的得分为1,093)。
使用OneAPI改善买入
GPU市场成功的最大业务关键之一是通过吸引多个市场来降低成本并增加收入。英特尔为Xe赢得广泛吸引力并降低制造和设计成本的战略的第一部分是可扩展性,而不是针对笔记本电脑零件,台式机零件和数据中心零件采用完全独立的设计,他们打算通过添加更多子包来相对简单地扩展Xe。随着SKU向高端市场转移,更多的欧盟国家也加入其中。
英特尔还需要在更大程度上真正打入市场,这是另一个关键的差异化因素。AMD的Radeon产品线遭受这样一个事实,即无论它们对游戏玩家有多大吸引力,它们都会使AI从业者感到冷漠。这不一定是因为Radeon GPU无法用于AI计算-问题比较简单;整个生态系统充满了专门为Nvidia的CUDA架构设计的库和模型,除此之外没有其他。
一次编写AI代码,可在任何地方运行-不是Java,而是Intel的oneAPI
除非它提供比价格稍便宜或功能更强大的硬件更诱人的东西,否则需要大量代码重写的竞争性深度学习GPU架构似乎不太可能成功。英特尔的答案是提供“一次编写,随处运行”的环境,特别是OneAPI框架,该框架有望在今年晚些时候进入生产发布状态。
许多人期望所有“严重”的AI /深度学习工作负载都将在GPU上运行,GPU通常可以提供比CPU(甚至具有Intel的AVX-512“深度学习加速”指令集的CPU)更高的吞吐量。在数据中心中,很容易订购所需的任何配置,而几乎没有空间,功率或加热方面的限制,但这至少接近真实情况。
但是,在推理工作负载方面,GPU执行并不总是最好的答案。尽管GPU的大规模并行体系结构提供的吞吐量可能比CPU更高,但建立和拆除短工作负载所涉及的延迟常常会使CPU成为可接受的甚至更好的替代方案。
数据中心根本无法完成越来越多的推理,而推理是在边缘进行的,因为电力,空间,热量和成本方面的限制经常会使GPU退出运行。这里的问题是,您无法轻松地将为Nvidia CUDA编写的代码移植到x86 CPU上,因此开发人员需要对计划和支持的体系结构做出艰难的选择,而这些选择会影响代码的可维护性以及性能。路。
尽管英特尔的OneAPI框架是真正开放的,并且英特尔邀请硬件开发人员为非英特尔零件编写自己的库,但Xe图形显然像英特尔CPU一样,是一流的公民。一次编写并维护一次的深度学习库运行在专用GPU,集成GPU和x86 CPU上的警钟声可能足以吸引AI开发人员对Xe图形产生严重的兴趣,而在性能上进行竞争根本就无法。
结论
与往常一样,当供应商声称未发布的硬件时,保持一些健康的怀疑态度是个好主意。话虽如此,我们已经从英特尔看到了足够多的细节,可以让我们坐下来关注GPU方面,尤其是(从战略上讲?)泄漏的Xe LP基准测试可以支持到目前为止的论断。
我们认为,最需要注意的是英特尔的整体战略-英特尔高管已经告诉我们几年了,该公司不再是“ CPU公司”,它在软件方面的投资与硬件。在当今世界,购买更多的硬件要比雇用(和管理)更多的开发人员容易,这使我们感到震惊,因为它是一种精明的策略。
长期以来,高质量的驱动程序一直是Intel集成显卡的商标-尽管游戏可能不是UHD显卡上的一流产品,但用户体验一直是压倒性的,并且在所有平台上都具有“正常运行”的期望。如果英特尔通过OneAPI成功地将这种“行之有效”的期望扩展到深度学习开发,我们认为这是打破Nvidia当前在深度学习GPU市场上的锁定的真正手段。
同时,我们非常期待Xe LP图形在9月启动的真实世界中首次亮相。