今年8月,集成1.2万亿个晶体管的“史上最大芯片”The Cerebras Wafer Scale Engine(简称WSE)诞生,在11月19日召开的Supercomputing 2019大会上,该芯片制造公司Cerebras Systems推出了搭载该芯片的计算机系统——Cerebras CS-1,这也将是世界上最强大的AI计算系统。美国两家国家实验室是该公司的客户,其中阿贡国家实验室已成功部署并宣布,将用这套系统发现癌症疗法和理解黑洞碰撞。
图| Cerebras CS-1
通常,硅芯片是从8、10或12英寸等不同规格的晶圆上单独切下来的。而CS-1搭载的并不是一个芯片,而是一整个晶圆,它把晶圆切割成一个很大的长方形,每个芯片都相互连接,可以使每个晶体管都能像整体一样高速运转。一个典型处理器可能在一个芯片上有100亿个晶体管,而CS-1搭载的整个晶片上所有核的晶体管总数超过1.2万亿个。
在AI计算中,芯片尺寸至关重要,但是高级处理器必须要有专用的硬件和软件系统相配合才能实现理想的性能。CS-1系统设计和Cerebras软件平台相结合,可以充分用到从WSE上的40多万个计算内核和18 GB高性能片上存储器中提取的每一点的处理能力。
图| Cerebras晶片规模的引擎
而且,CS-1不需要大量修改现有模型,并且用户只需将基于标准的100Gb以太网链路插入交换机就可以启动培训模型。
CS-1有15个机架,大概是26英寸高(66.04厘米)。研究人员Andrew Feldman表示,CS-1是“最快的AI计算机”。CS-1计算机的机器学习能力相当于数百架基于GPU的计算机能力,这些计算会消耗数百千瓦。但CS-1仅消耗17千瓦,占标准机架能耗的三分之一。他把CS-1和谷歌的TPU计算集群相比,强调谷歌的TPU2机器学习集群需要10个机架和超过100千瓦的功耗,才能提供一个CS-1机箱三分之一的性能。
Feldman说:“我们是由40万个专用AI处理器组成的AI机器。”CS-1由40万核、1万亿晶体管大小的处理器芯片驱动,可将原本需要至少几周的大型神经网络训练任务缩短到几分钟甚至几秒钟。同时,它通过让潜在客户在Cerebras的机器上训练他们自己的神经网络模型吸引潜在客户。
另外,Cerebras还公布了一些系统软件的细节,该软件允许用户使用Pytorch和Tensorflow之类的ML标准框架编写他们的机器学习模型。强大的图形编译器可自动将这些模型转换为CS-1的优化可执行文件,而丰富的工具集可实现直观的模型调试和性能分析。
图| Cerebras软件系统允许用户使用Pytorch和Tensorflow之类的ML标准框架来编写他们的机器学习模型