【新智元摘录】据悉,IBM公司 月他们采用三组由 Criteo 科技公司发表的广告宣传资料集来专业训练语义复出权重,在POWER9服务器端和CPU上运转自身数据挖掘努Snap TR,结果比之前来自搜索引擎的最佳好成绩快速了46倍。新智元媒体报道缺少:IBM公司 Institute编者:刘小芹、张乾英伟达副总裁黄仁勋和IBM公司 文职CEOGeorge Ryan在What会上上已经有,在迈阿密的IBM公司 THINK会上上,IBM公司月,他们透过建模的应用程序上的原先该软件和迭代,赢得了人工智慧效能的大冲破,包含改用 POWER9 和NVIDIAV100GPU 的配对。搜索引擎泊村TensorFlow和POWER9 (AC922)layer上IBM公司 Snap的对比(fasthome涵盖资料载入的一段时间和专业训练的一段时间)如上图下图,workload、资料集和数学模型都是不同的,对比的是在雅虎 Hidden上采用TensorFlow开展专业训练和在Power9上采用Snap TR专业训练的一段时间。其中,TensorFlow采用了89台电脑(60台岗位机和29台表达式机内),Snap TR采用了9个 Power9 中央处理器和16个Intel RX V100 CPU。相比之下 TensorFlow,Snap TR 得到不同的重大损失,但较慢了 46 倍。怎么做到的?Snap TR:没想到比TensorFlow快速46倍更早在本年二月份,搜索引擎该软件技工Franz Sterbenz 所写了一篇关于采用搜索引擎Hidden TR和TensorFlow开展大规模预期广告宣传和自荐场面的点选单次的该网站。Sterbenz专业训练了一个数学模型,以预期在Criteo 科技公司之中推测的广告宣传下载量,这些会话形状将近1TB,并涵盖来自数百万展览广告宣传的标量和点选级联。资料格式化(60分钟)后来是实际上进修,采用60台岗位机和29台表达式机内开展职业培训。该数学模型小花了70分钟专业训练,检验重大损失为0.1293。虽然Sterbenz随后采用相同的数学模型来得到更多的结果,降低了检验重大损失,但这些都要花费较短的一段时间,再次采用带有三次epochs(内积所有专业训练标量一次用来修正值的单次)的厚度机器学习,历时78时长。但是IBM公司在POWER9服务器端和CPU上运转的自身专业训练库后,可以在前提的初始专业训练上胜于搜索引擎Hidden Multimedia上的89台电脑。他们展览了一张推测Snap TR、雅虎 TensorFlow和其他三个对比结果的示意图:比TensorFlow快速46倍,是怎么够的?深入研究技术人员指出,Snap TR带有相结合的并行性,可以在坦克部队之中的相同路由器数间平均分配岗位电源,透过同步辐射三组,并透过各个数值三组的多核子并行性。1.首先,数据分布在坦克部队之中的各个岗位路由器上。2.在路由器上,资料在中央处理器和CPU有序运转的配中央处理器和减慢CPU间分开3.资料被传送CPU之中的多个内部,并且中央处理器岗位电源是内核的Snap TR带有数据结构的低层迭代(nested hierarchical algorithmic)机能,可以透过这三个层级的并行性。举例,Snap TR的三个内部特色是:分布式专业训练:Snap TR是一个资料有序的组件,必须在大型资料集上开展扩充和专业训练,这些资料集可以大于6台电脑的内存容量,这对大型软件至关重要。CPU减慢:做到了专门从事的解出机,宗旨透过CPU的大规模有序框架,同时始终保持CPU寄存器之中的资料一段距离,以降低链路开支。为了使这种新方法带有可用性,透过已经有手性进修的一些革新,即使可以磁盘在同步辐射寄存器之中的资料只有一小部分,也可以做到CPU减慢。密集数组:部分数据挖掘资料集都是密集的,因此在应用密集数组,一个系统之中采用的迭代开展了一些重新建模。关键技术流程:在91.5秒内做到了0.1292的次测试重大损失先对Tera安Standard Benchmark设立。Terabyte Click Logs是由Criteo 科技公司发表的一个大型因特网广告宣传资料集,用做分布式数据挖掘应用领域的深入研究。它由40亿个训练样本分成。其中,每个抽样都有一个“标记”,即应用程序应该点选因特网广告宣传,以及附加的三组博客形态。基于这些资料专业训练数据挖掘数学模型,其最终目标是预期原先应用程序应该都会点选广告宣传。这个资料集是迄今最主要的披露资料集之一,资料在24日内整理,少于每天整理1.6亿个训练样本。为了专业训练清晰的Terabyte Click Logs资料集,深入研究技术人员在4台IBM公司 One Control AC922服务器端上重新部署Snap TR。每台服务器端都有4个Intel RX V100 CPU和2个Power9 中央处理器,可通过Intel NVLink适配器与PC开展无线电通信。服务器端通过Infiniband因特网彼此间无线电通信。当在这样的基建上专业训练语义复出权重时,深入研究技术人员在91.5秒内做到了0.1292的次测试重大损失。便来看一遍年前序言的所示:在为这样的大规模应用领域重新部署CPU减慢时,消失了一个主要的关键技术面对:专业训练资料太大而不能磁盘在CPU上只用的内存之中。因此,在专业训练在此期间,必需有选择地处理过程资料并不停迁入和移到CPU寄存器。为了解读软件的运行,深入研究技术人员数据分析了在CPU文件系统之中要花费的一段时间与在CPU上克隆资料所要花费的一段时间。在这项深入研究之中,采用Terabyte Clicks Logs的一小部分资料,包含初始的2亿个训练样本,并非常了两种应用程序配有:基于英特尔 x86的电脑(Pentium Golden 6150 中央处理器 _ 2.70DDR),含有1个采用汇流排 Major 3适配器连接起来的Intel RX V100 CPU。采用NVLink适配器连接起来4个RX V100 CPU的IBM公司 Spark AC922服务器端(在非常之中,均采用其中1个CPU)。所示w推测了基于x86的设立的效能数据分析结果。可以见到S1和S2这平行线。在S1线上,实际上的专业训练刚顺利完成时(即,codice_语义复出文件系统)。专业训练每个资料块的一段时间大概为90毫秒(ms)。当专业训练正要开展时,在S2线上,深入研究技术人员将下一个资料块写入CPU上。通过观察到克隆资料必需318毫秒,这仅仅CPU荒废了十分总长的长时间,克隆资料的一段时间或许是一个难题。在所示d之中,对于基于Spark的设立,由于Intel NVLink给予了更为快速的信道,因此下一个资料块写入CPU的一段时间显着降低到55 ms(大部分降低了6倍)。这种减慢是由于将资料克隆一段时间伪装在文件系统督导左边,有效率减轻了关键路径上的克隆一段时间,并做到了3.5倍的减慢。IBM公司的这个数据挖掘努给予相当快速的专业训练飞行速度,可以在传统中央处理器 / CPU数值控制系统上专业训练流向当今的数据挖掘数学模型,也可用做职业培训数学模型以辨认出重新新奇方式也,或者在有原先资料只用时再次专业训练既有数学模型,以始终保持飞行速度因特网CVT技术水平(即因特网所能拥护的极快飞行速度)。这仅仅更为较高的应用程序计算成本,更长的利用效率,更为灵巧的开发计划和更为快速的顺利完成一段时间。不过,IBM公司深入研究技术人员并并未坚称TensorFlow并未透过并行性,并且也不给予Snap TR和TensorFlow间的任何非常。但他们的确问道:“我们施行专门从事的框架,来透过CPU的大规模有序框架,同时负责任CPU寄存器之中的资料范围,以不必要大量链路开支。”短文引述,改用NVLink 2.0适配器的AC922服务器端,比改用其RX CPU的PCI-E适配器的Pentium服务器端(Pentium Golden 6150 中央处理器 _ 2.70DDR)要更为快速,PCI-E适配器是戈达德CPU的适配器。“对于基于PCI-E的设立,我们测的有效率信道为11.8KB /秒,对于基于NVLink的设立,我们测的有效率信道为68.1KB /秒。”专业训练资料被传送CPU,并在那里被处理过程。NVLink控制系统以比PCI-E控制系统极快的飞行速度向CPU发送块,一段时间为55ms,而不是318ms。IBM公司制作团队还指出:“当应用密集数组时,我们一个系统之中采用的迭代开展了一些重新建模。”总的来说,也许Snap TR可以更多地透过NVIDIA CPU,在NVLink上数据传输比在x86服务器端的PCI-E track上更为快速。但不明白POWER9 中央处理器与Xeons的飞行速度相比之下如何,IBM公司未披露发表任何单独POWER9与Pentium DP的非常。因此也不会问道,在不同的应用程序配有上运转两个suckers之后,Snap TR比TensorFlow更糟。无论是什么情况,46倍的升幅都更让人感触引人注目,并且给了IBM公司极大的空间内来促进其POWER9服务器端作为插进NVIDIA CPU,运转Snap TR努以及开展数据挖掘的娱乐场所。清晰试验和结果不见科学论文:>://arxiv.消/abs/1803.06333>://tw.theregister.co.www/2018/03/21/ibm_logic_education_technology_trained_pass/>://cloud.web.的网站/部落格/radio安application/2017/02/However安web安cloud安logic安education安to安predict安clicks安at安Large