以下文章来源于EETOP ,作者Nancy Zhou
近日,马斯克透露,他的人工智能初创公司xAI正计划建造一台超级计算机,并希望在 2025年秋季之前让拟议的超级计算机运行,为其下一版本的人工智能聊天机器人Grok提供算力。
其实,早在今年3月,xAI就发布了其最新版的Grok 1.5。不过,4月,马斯克宣布,由于没有足够多的先进芯片,故推迟了Grok 2模型的训练和发布。他表示,训练Grok2模型需要大约2万块英伟达H100,而Grok3模型及更高版本将需要10万块英伟达H100。完成后,其连接的芯片组将至少是当今最大GPU集群的4倍。
确实,生成式AI从云端走向终端,芯片已经成为推进大模型发展的关键。大模型企业也已经开始将目光聚焦到芯片公司,期待从底层展开合作,以解决算力成本在端侧的覆盖问题。基于算力需求,芯片厂商与大模型厂商走得更近了。
在泰克最新对清华大学教授高滨的采访中,他表示:“自2023年开始,大模型就非常火。国际上、以及几个大公司都在研究怎么去支持大模型。从新的器件到新的工艺,这几个公司的技术路线都不太一样。有的相对传统一些,有的尝试用新工艺新器件去做。在去年的IEDM大会中,还专门设置了一个探讨大模型的section。”
高滨老师特别强调说:“大模型不仅仅是算法和应用上,其实底层的算力支撑也是非常重要。”
大模型与存算一体技术
当前,各行各业都在数字化转型,数据处理和存储的需求与日俱增。传统的计算与存储的模式已经很难满足当下高性能、低能耗、强安全的需求。存算一体技术被认为是可以有效解决传统冯·诺依曼架构下的“存储墙”和“功耗墙”问题的有效途径。
存算一体的优势是打破存储墙,消除不必要的数据搬移延迟和功耗,并使用存储单元提升算力,成百上千倍的提高计算效率,降低成本。除了用于AI计算外,存算技术也可用于存算一体芯片和类脑芯片,代表了未来主流的大数据计算芯片架构。
高滨老师表示,大模型对功耗及成本的要求很高。如果忆阻器真的能应用到大模型里面的话,能效比预计将会有数量级的提升。现在大模型基本都是在云端,未来在端侧,功耗将会是一个非常大的挑战。忆阻器这种高能效的优势在端侧就会有很多的优势。
高滨老师分享了近两三年的研究重点,主要是希望把存算一体的技术往应用上去牵引,具体在开展的工作包括以下三大方面:
与企业合作。尝试在实际边缘智能的场景中做芯片设计,以及实际场景下的可靠性。高滨老师特别指出:“我们发现,在很多实际场景下,芯片电阻状态的保持其实是存在随机偏移的relaxation效应的,如何抑制随机偏移,以满足未来的应用需求,这是当前非常重要的课题。”
大模型的应用研究,主要是致力于提高密度。传统的小的卷积网络加速是不需要高密度的,但大模型需要。希望把密度尽可能的做高。以前做小的卷积网络的加速,其实不需要这么高的密度。但是大模型需要。这其实主要是工艺方面的研究。
类脑学习。这是更前沿更创新的领域,除了去年十月在Science上发表的新近研究成果之外,其实清华大学还在布局新型类脑计算,它更看重整体算法效果,而非器件个体,最后是落实到器件上去做优化,调节器件中的电子离子的输运。
后摩尔时代,从系统层面进行顶层规划,根据系统需求优化器件,并做好器件与系统的协同设计,这点这尤为重要。就此,高滨老师特别分享了后摩尔时代,系统和器件的全新范式的研究模式。
系统和器件的全新范式的研究模式
摩尔定律的黄金时代,主要是将晶体管、电阻、电容和电感等元器件集成在一起,并形成具有预期功能的电路。这个时期,不太需要在意系统和器件的协同,只要器件做的足够小,芯片的性能大体就能得到保证。
但是,后摩尔时代,应用场景的需求正向着高密度、小型化、强功能、低功耗、低成本、高可靠、易设计等方向发展,已经不仅仅是简单的电路设计,而是要做系统化的集成。很多时候,需要把系统和器件做一个协同的设计,根据系统的需求去优化器件,很典型的就是存算一体,最终目的是要做人工智能的加速。