不想依赖英伟达!微软发布两款自研ai芯片,可训练大模型-pg电子游戏官网官方网站
11月16日消息,美国时间周三,微软发布了首款自研人工智能(ai)芯片,可用于训练大语言模型,摆脱对英伟达昂贵芯片的依赖。微软还为云基础设施构建了基于arm架构的cpu。这两款自研芯片旨在为azure数据中心提供动力,并帮助该公司及其企业客户准备迎接ai时代的到来。
微软的azure maia ai芯片和arm架构azure cobalt cpu将于2024年上市。今年,英伟达的h100 gpu需求激增,这些处理器被广泛用于训练和运行生成图像工具和大语言模型。这些gpu的需求非常高,甚至在ebay上的售价超过了4万美元。
微软azure硬件系统和基础设施主管拉尼·博卡(rani borkar)在接受采访时解释说:“微软在芯片开发方面有着悠久的历史。”早在20多年前,微软就与人合作开发了xbox的芯片,甚至还合作设计了surface设备的芯片。博卡表示:“这些努力都是建立在这些经验基础之上的。2017年,我们开始构建云硬件堆栈,并开启了这段旅程,使我们走上了构建新自研芯片的轨道。”
新的azure maia ai芯片和azure cobalt cpu都是由微软内部构建的,并对其整个云服务器堆栈进行了深度检修,以优化性能、功耗和成本。博卡表示:“我们正在重新考虑人工智能时代的云基础设施,并真正优化该基础设施的每一层。”
azure cobalt cpu以元素“钴”(钴蓝是重要的蓝色颜料)命名,是一款128核芯片,基于arm的neoverse css设计,并为微软定制。它旨在为azure上的通用云服务提供支持。博卡解释称:“我们花了很多心思,不仅要让它具有高性能,还要注意到电源管理。为此我们做了许多有意识的设计选择,包括控制每个内核和每台虚拟机上性能和功耗的能力。”
微软目前正在测试cobalt cpu的工作负载,如teams和sql服务器,并计划明年为客户提供各种工作负载的虚拟机。虽然博卡没有直接将其与亚马逊在aws上提供的graviton 3服务器进行比较,但与微软目前用于azure的基于arm的服务器相比,应该会有一些明显的性能提升。博卡表示:“我们的初步测试表明,我们的性能比目前使用商用arm服务器的数据中心提高了40%。” 微软还没有分享完整的系统规格或基准。
微软的maia 100 ai加速器以“昴宿四”(一颗明亮的蓝色恒星,希腊神话中称为迈亚)命名,专为运行云端人工智能工作负载而设计,如大语言模型训练和推理。它将用于支持该公司在azure上某些最大的人工智能工作负载,包括与openai高达100多亿美元的合作。微软将为openai的所有工作负载提供支持。这家软件巨头一直在与openai在maia的设计和测试方面进行合作。
openai首席执行官萨姆·奥特曼(sam altman)说:“当微软第一次分享他们的maia芯片设计时,我们感到非常兴奋。我们一起努力,利用我们的模型来改进和测试它。azure的端到端人工智能架构现在通过maia进行了优化,为训练更有能力的模型铺平了道路,并使这些模型对我们的客户来说变得更便宜。”
maia采用台积电5纳米工艺制造,拥有1050亿个晶体管,比amd的mi300x ai gpu(1530亿个晶体管)少了30%左右。博卡说:“maia支持我们的第一个8位数据类型,即mx数据类型,以便协同设计硬件和软件,这有助于我们支持更快的模型训练和推理时间。”
微软与amd、arm、英特尔、meta、英伟达和高通等公司都加入了一个组织,该组织正在为人工智能模型的下一代数据格式制定标准。同时,微软正在以开放计算项目(ocp)的协作和开放工作为基础,以使整个系统适应人工智能的需求。
博卡透露:“maia是微软制造的第一个完整的液冷服务器处理器,我们的目标是以更高的效率实现更高的服务器密度。因为我们正在重新构想整个堆栈,我们特意考虑到了每一层,所以这些系统实际上也适合我们目前的数据中心。”
这对微软来说非常关键,因为它可以更快地启动这些人工智能服务器,而不必在世界各地的数据中心重新为它们腾出空间。微软建造了独特的机架用来放置maia服务器主板,并配有名为“助手”的液体冷却器。它的工作原理就像在汽车或高档游戏pc上搭载的散热器,可以冷却maia芯片的表面。
除了共享mx数据类型,微软还与pg电子游戏官网官方网站的合作伙伴共享其机架设计,以便他们可以在内部有其他芯片的系统上使用它们。但maia芯片的设计不会被更广泛地分享,微软将其保留在内部。
maia 100目前正在gpt 3.5 turbo上进行测试,该模型正在支持chatgpt、bing ai和github copilot等工具。微软正处于部署的早期阶段,就像cobalt一样,该公司还不愿意发布确切的maia规范或性能基准。
这使得我们很难准确解读maia将如何与英伟达广受欢迎的h100 gpu、最近发布的h200,甚至amd最新的mi300x进行比较。博卡也不想进行比较,而是重申,与英伟达和amd的合作对于azure人工智能云的未来仍然非常关键。博卡表示:“在云计算运营的规模下,优化和整合堆栈的每一层,以最大限度地提高性能,使供应链多样化,并为我们的客户提供基础设施选择,这真的非常重要。”
供应链的多样化对微软来说同样重要,尤其是考虑到英伟达目前是人工智能服务器芯片的主要供应商,而各家公司一直在竞相购买这些芯片。据估计,为了推进chatgpt的商业化,openai需要超过3万个英伟达的老款a100 gpu,而微软的自研芯片可以帮助其客户降低人工智能的成本。微软还为自己的azure云工作负载开发了这些芯片,而不打算将其出售给英伟达、amd、英特尔和高通等其他公司。
博卡解释称:“我认为这更像是一种互补,而不是与他们竞争。今天,我们在云计算领域同时使用英特尔和amd的芯片。同样,在人工智能领域,我们也可以同时使用amd和英伟达的芯片。这些pg电子游戏官网官方网站的合作伙伴对我们的基础设施非常重要,我们真的希望给我们的客户选择。”
maia 100和cobalt 100的命名表明微软已经在设计这些芯片的第二代版本。博卡说:“这是一个系列,不只是一代就结束了,但我们不会分享我们的路线图。”目前还不清楚微软多久会发布一次maia和cobalt的迭代,但考虑到人工智能的发展速度,如果maia 100的继任者以与英伟达h200相似的速度发布(大约20个月),无需为此感到惊讶。
现在的关键是,微软将以多快的速度让maia运行起来,加快推进其人工智能雄心,以及这些芯片将如何影响人工智能云服务的使用定价。微软还没有准备好谈论这款新服务器的定价,但我们已经看到该公司悄悄地推出了针对microsoft 365的copilot,每位用户每月收费30美元。
目前,microsoft 365版的copilot仅限于微软的大客户,企业用户必须承诺至少拥有300个用户,才能使用这款新的人工智能office助手。随着微软本周推出更多的copilot功能,并对bing chat进行了品牌重塑,maia可能很快就会帮助弥补对支持这些新体验的人工智能芯片的需求。
官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,techweb官方微博期待您的关注。

想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注techweb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注techweb。