2019-12-04 10:57

谷歌的目标是Nvidia与学习能力的云TPU

导读在Nvidia的新的以人工智能为重点的VoltaG PU架构宣布一周后,谷歌的目标是用其新的第二代TensorProcessingU(T PU)来窃取一些它所称的云T PU。虽然它的第一代芯片只适合于参考,因此对Nvidia在机器学习中的优势没有多大威胁,但新版本与人工智能系统的培训和运行同样在国内。 在180 teraflops,谷歌的云tpu比伏尔塔驱动的Tesla V 100(每秒万亿浮点操

在Nvidia的新的以人工智能为重点的VoltaG PU架构宣布一周后,谷歌的目标是用其新的第二代TensorProcessingU(T PU)来窃取一些它所称的云T PU。虽然它的第一代芯片只适合于参考,因此对Nvidia在机器学习中的优势没有多大威胁,但新版本与人工智能系统的培训和运行同样在国内。

在180 teraflops,谷歌的云tpu比伏尔塔驱动的Tesla V 100(每秒万亿浮点操作)更有威力,至少从这个角度来看是这样。然而,在这两种芯片都可用之前,就不可能有一种真实世界的比较感。就像Nvidia用多个V100构建服务器一样,Google还构建了TPU Pods,它将多个TPU结合起来,实现11.5千兆位数(11,500万亿位)的性能。

对谷歌来说,这种表现已经得到了回报。例如,一个谷歌模型需要一整天的时间来在一个由32个高端GPU(可能是PASCAL)组成的集群上进行培训,它可以在一个下午训练八分之一的TPU Pod(一个完整的吊舱是64个TPU,所以这意味着在8TPU上)。当然,标准GPU可以用于其他各种事情,而GoogleTPU仅限于使用Google工具编写的模型的培训和运行。

Google正在将其CloudTPU作为其GoogleCompute服务的一部分,并表示它们的定价将与GPU类似。这些信息还不足以说明他们将如何与租用NVIDIA V 100的时间相比较,但我认为这是非常有竞争力的。但是,一个缺点是,GoogleTPU目前只支持TensorFlow和Google的工具。尽管他们是强大的,许多开发人员不想被锁定在谷歌的机器学习框架--尽管谷歌已经使TensorFlow和其他一些人工智能工具开源。谷歌还让我们知道,如果修改其他框架以生成低级别的tensorFlow图形,它们也将能够在CloudTPU上运行。

虽然Google正在将其CloudTPU作为其GoogleCompute云的一部分,但它没有提到在Google自己的服务器场之外提供它的任何内容。因此,它不会与内置GPU竞争,也不会在微软(Microsoft)和亚马逊(Amazon)的具有竞争力的云上使用。事实上,这可能会加深他们与NVIDIA的伙伴关系。

另一家应该担心的公司是英特尔。它在GPU方面落后得可怜,这意味着它在快速增长的GPGPU(通用GPU计算)市场上并没有太大的影响,而机器学习是GPU的一个重要组成部分。这只是芯片美元可能流向英特尔的又一种方式,不会。

从总体上看,更多的机器学习应用程序将转移到云端。在某些情况下--如果你能忍受先发制人--在云中租用GPU集群已经比在本地为它们供电要便宜得多。随着Volta和新的GoogleTPU等芯片被添加到云服务器中,这个等式只会变得更加不平衡。谷歌知道,增加其市场份额的关键在于芯片上运行了更多领先的软件,因此谷歌正在向愿意分享工作成果的研究人员免费提供1000个CloudTPU。