低调的AI芯片企业SambaNova开始出圈

来源:内容由半导体行业观察(ID:icbank)编译自「hpcwire」,谢谢。

关注AI芯片领域的用户应该听说过SambaNova,这是一家低调的公司,他们几乎不做宣传,但却得到了一些支持。在获得了由Google Ventures,Intel Capital和Blackrock领导的三轮融资以及在美国能源部的Laurence Livermore和Los Alamos的部署之后,他们现在已经可以为一些客户提供新产品。SambaNova已经在赚钱,并开始谈论使用其新型Cardinal AI处理器构建的新型DataScale SN10-8R系统。

AI Silicon:回顾

大多数人工智能或机器学习工作负载分为两类:训练和推理。

第一个是训练,在该训练中,算法将获得数据或竞争模型参与其中,其目标是从数百万,数十亿或数万亿的参数中创建最佳算法。这是一个庞大的计算,需要强大的硬件(可扩展的硬件(Google的GPT3需要约1200万美元的云计算时间))。

第二个是推理,在该模型中,已经训练(称为预训练)的模型会显示新数据,并且必须做出相应的响应。相比之下,这是一种轻量级的工作负载,仅需要模型的数学功能,其中的基准测试包括延迟(响应时间),带宽(每秒推理),准确性(是否正确)和功率(每瓦推理)。如今,物联网和智能手机中都存在着着重于发展推理硬件。

这个想法是训练一个模型识别一只猫,通过给它展示一亿张猫、狗、熊猫和狐狸的图片来区分它们。推理是向训练过模型展示猫的新图片,并得到正确的结果。

训练和推理都可以在常规计算处理器,高性能图形硬件上执行,或者正如我们在本行业中看到的那样,可以针对一种或多种针对这两种方法使用专用的AI解决方案。该领域的公司倾向于专注于另一方——训练需要大型硅芯片,通常在数据中心中具有大量内存,而推理则可以采用小芯片或IoT模式的芯片来进行。

大多数训练硬件也具有推理能力,但是由于功能强大,它们往往可以在“云中批量推理”上工作,比如分析完整的人类文本或社交媒体上的照片目录,而不是直接在商店橱窗中进行面部识别,以实现销售目的。

SambaNova及其新型Cardinal AI芯片

大多数AI芯片公司都专注于推理,这样的公司大约有5亿(可能有点夸张,也可能没有)。开发用于训练的芯片则要复杂得多,因为它需要大芯片来完成繁重的任务,所以只有几家公司。在寻找合适的客户方面还有其他明显的困难——如果只有两家公司愿意购买你的产品,那么花数百万美元是没有意义的。因此,大多数人致力于AI训练芯片的企业要么很快就会消失,要么就会赚大钱。过去几年,多数大型人工智能训练公司都从投资者那里吸引了大量资金,而其它公司则被收购。SambaNova属于第一种类型,他们为其新的Cardinal AI芯片争取到了约4.5亿美元的风险投资。

Cardinal AI芯片很大,是单片的,建立在台积电的N7进程上。在708平方毫米的空间中,它测量了400亿个晶体管,几乎接近极限,就像许多其他高性能人工智能训练处理器一样。SambaNova的芯片是可重新配置的单位数据,存储,或切换,数据优化的阵列流动(他们称之为一个可重构数据流股,或RDU),以覆盖各种各样的带宽,存储和计算要求的是来自各种各样的训练工作的要求。目的是,如果工作负载需要更多的内存,则芯片可以像FPGA /结构化ASIC一样进行调整,但是在这种情况下,其性能和效率会更高。

训练工作负载的问题之一是内存带宽,以及能否从存储中获取训练数据到计算芯片中。这就是为什么许多AI训练硬件设计师往往都采用高带宽内存,创新的封装技术或芯片通信拓扑的原因。目前,SambaNova不会透露有关该芯片的太多细节,但确实在一些关键方面指出了它们提供的解决方案。其中最重要的是每个基数的存储容量以及相邻基数硅之间的互连带宽。

SambaNova不会单独出售一块芯片,但与其他初创企业一样,它会出售安装在数据中心的解决方案。SambaNova产品的基本单元将是称为DataScale SN10-8R的四分之一机架设计(9U?),其特征是AMD EPYC Rome x86主机与八个Cardinal芯片和12 TB的DDR4-3200内存配对(是的)。每个主要主机1.5 TB。SambaNova将根据客户所需的四分之一机架数量来扩展其产品,默认规格为1/4机架(8 RDU),1/2机架(16 RDU和1机架(32 RDU)。除此之外,还有定制型号。

每个Cardinal芯片都有六个用于存储的DDR4内存控制器,可实现153 GB / s的内存带宽。八个芯片以全部配置连接,并通过交换网络(如NVSwitch)启用。我们被告知,每个芯片都具有通往该网络的64个PCIe 4.0通道(通过四个x16根联合体启用),该通道在每个方向上为交换机提供128 GB / s的速度,但是PCIe上使用的协议是SambaNova定制的。

这些交换机还支持系统到系统的连接,SambaNova可以在其中实现横向扩展到多个四分之一机架部署。每个四分之一机架将具有一组默认的集成网络和管理功能,如果客户需要,则可以由SambaNova进行远程管理。当被问及这些系统可以扩展到什么级别时,SambaNova说有一个理论上的限制,但是试图量化这最终是不实际的–他们引用了两个完整的机架或八个SN10-8R系统(也可以是64个芯片)的价值。在较低功耗下,性能要比同等的NVIDIA DGX-A100部署高出40%。

在软件方面,SambaNova拥有自己的图形优化器和编译器,使当前使用PyTorch或TensorFlow的客户可以在不到一个小时的时间内为硬件重新编译其工作负载(引用了SambaNova的客户部署之一)。SambaNova产品负责人Marshall Choy在我们的简报中说,易用性是SambaNova DataScale产品系列的关键支柱之一。根据Marshall的说法,对于公司而言,重要的是客户希望访问硬件并在尽可能短的时间内使用,这就是产品所提供的。

Marshall为公司所经历的四个关键属性是(按顺序)性能,准确性,规模和易用性。在此新产品发布中,许多客户评价都强调了新硬件的这些属性,即使在COVID期间安装和100%远程管理也是如此。

尽管今天是产品发布会,并且公司已退出半隐身模式,但SambaNova已经开始销售系统以实现收入,并一直持续到2020年。该第一代产品还针对四个主要客户目标,这主要是由于这些都是SambaNova当前客户正在运行的培训工作量。这些产品领域是:Transformers(自然语言,视觉分析)、高分辨率计算机视觉(4K至50K图像)、推荐系统(在线零售,银行欺诈检测)、人工智能科学。

作为今天产品发布的一部分,SambaNova可以将自己与这些细分市场上一些最常见的硬件进行比较,主要是针对NVIDIA。SambaNova指出,与NVIDIA的产品相比,它们的性能更好,功耗更低。SambaNova还强调说,它的芯片是为执行循环训练而构建的,允许在有训练推断的工作负载期间动态进行模型重新分类和优化,而无需内存转储和内核切换,并且只需提供异构零拷贝式解决方案–相比之下,其他硬件必须重新配置自己才能执行其中一项。

对于可能在更广阔的市场中应用,我们询问了MLPerf。有人告诉我们,即使SambaNova是参与MLPerf项目的首批公司之一(特别是SN的创始人),但他们现在专注于为客户进行部署并满足他们的需求,而不是一般的行业比较指标。但这并不意味着它们不赞成MLPerf。

SambaFlow

SambaFlow是与SN10-8R一起使用的软件包。该工具链从TensorFlow,PyTorch或自定义图获取输入,并进行图分析以转换机器学习计算或其他自定义计算所需的内容。这包括切片分析,根据SambaNova的网站,可以自动进行切片。然后,将分析通过SambaNova的编译器进行优化,以优化数据流体系结构,并考虑物理数据位置,然后再作为运行时进行传递。

该公司认为,SambaNova方法的关键要素是要克服GPU在此类工作负载方面的局限性。这些要求包括对训练模型中1000亿个参数的支持,以及允许更大批处理大小,模型并行性和硬件利用率以及更高准确性的更大内存占用。

这也可以转化为更低的功耗和(更好的)总体拥有成本。

SambaNova是谁

该公司本身成立于2017年9月,其根源于前Sun Oracle架构师。这三位创始人都有创建芯片解决方案的背景:

该公司已通过三轮融资:

  • A轮,5600万美元,由Walden International和Google Ventures领投
  • B轮,1.5亿美元,由英特尔投资牵头
  • C轮,2.5亿美元,由贝莱德(BlackRock)领投

这使SambaNova的AI芯片融资额达到4.56亿美元,仅次于GraphCore(4.6亿美元)和Horizon Robotics(7亿美元),紧随其后的是Nuvia(2.93亿美元),Cambricon(2亿美元)和Cerebras(120美元)。

SambaNova在Palo Alto拥有约150名员工。该第一代芯片于2019年春季上市,第一批A0芯片样品在抵达后的一小时内上电。该公司在一个月内运行了客户模型。从那时起,SambaNova在此之前已经向特定客户销售了一年多-仅有的公众来自劳伦斯·利弗莫尔和洛斯阿拉莫斯的能源部。我们明确指出,其他客户不是投资者,而是知名企业,他们认为有必要在新事物方面处于领先地位。客户跨越多个细分市场,主要涉及上述四个细分市场。

随着时间的推移,SambaNova承诺会发布更多有关其产品组合的公告。该公告与NeurIPS(神经信息处理系统)会议相吻合,并且该公司在历史上也曾参加过HPC风格的活动。随着更多详细信息的发布,我们将了解到更多。

另外两个小公告

与新的SN10-8R产品一起,SambaNova将提供两种类似于云的服务选项:一种用于学术和研究,另一种用于客户。

第一个针对学术界的是SambaNova AI平台(SNAP),它是供研究机构使用的对硬件进行计算访问的免费使用的开发人员云。根据项目申请流程授予访问权限-确切细节待确认。

第二种是针对需要云灵活性而无需支付硬件费用的企业客户。DataFlow即服务(如果需要,可以使用DFaaS)将使客户能够“租用”一个系统,并将其放置在公司防火墙内,但具有类似云的访问权限。管理和更新将由SambaNova远程完成,就好像它是真正的云产品一样,但是具有内部硬件的安全性方面。这将是一项订阅产品,主要针对自然语言,推荐引擎和高分辨率计算机视觉客户。

点击文末【阅读原文】,可查看本文原链接。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2519内容,欢迎关注。

3D闪存,176层了!

联电逆袭成功

UWB发展进入新阶段

存储|晶圆|华为|FPGA|英特尔|高通|射频|封测

原文链接!

本文源自头条号:半导体行业观察

标签