新闻动态
热点资讯
- 🔥欧洲杯正规(买球)下单平台·中国官方全站2024年4月19日甘肃靖远县瓜果蔬菜批发商场价钱行情-🔥欧洲杯正规(买球)下
- 🔥欧洲杯正规(买球)下单平台·中国官方全站2024年5月11日长沙马王堆农家具股份有限公司价钱行情-🔥欧洲杯正规(买球)
- 🔥欧洲杯正规(买球)下单平台·中国官方全站 浦东文化艺术节创举于2011年-🔥欧洲杯正规(买球)下单平台·中国官方全
- 🔥欧洲杯正规(买球)下单平台·中国官方全站正股最新价为28.62元-🔥欧洲杯正规(买球)下单平台·中国官方全站
- 🔥欧洲杯正规(买球)下单平台·中国官方全站现货金略着落0.3%-🔥欧洲杯正规(买球)下单平台·中国官方全站
- 🔥欧洲杯正规(买球)下单平台·中国官方全站其中重庆西、泸州、宜宾东为既有车站-🔥欧洲杯正规(买球)下单平台·中国官方全站
- 🔥欧洲杯正规(买球)下单平台·中国官方全站轻佻部发言东说念主毛宁毛宁-🔥欧洲杯正规(买球)下单平台·中国官方全站
- 🔥欧洲杯正规(买球)下单平台·中国官方全站工场需要提供饱和的法律保险-🔥欧洲杯正规(买球)下单平台·中国官方全站
- 🔥欧洲杯正规(买球)下单平台·中国官方全站该公司斥资489.41万港元回购300万股-🔥欧洲杯正规(买球)下单平台·中国
- 🔥欧洲杯正规(买球)下单平台·中国官方全站 巴雷拉本赛季为国米出战48场比赛-🔥欧洲杯正规(买球)下单平台·中国官方全
- 发布日期:2024-11-16 05:50 点击次数:189
🔥欧洲杯正规(买球)下单平台·中国官方全站
图片系 AI 生成
自 OpenAI 发布 ChatGPT 两年来,大模子产业发展的脚步似乎慢了。然则大洋此岸,xAI、Meta、OpenAI 等宽阔科技巨头齐在积极布局 10 万卡乃至更大领域的智算集群,冲刺 AGI,国内相同循着相似的顺次。然则,受限于芯片供应等原因,国内构建 10 万卡集群面对着三浩劫题:跨地域部署、多芯混训以及集群通晓性,这些难题包括技艺和工程上的多重挑战。
十万卡,AGI 的门槛
7 月 22 日,马斯克秘书位于好意思国田纳西州孟菲斯市的孟菲斯超等集群开动干预查验。该集群配备了 10 万个英伟达 H100 GPU,被称为 "宇宙上最刚劲的 AI 查验集群"。两个月后,马斯克在 X 平台上秘书该集群名为 " Colossus(巨东谈主)",将在改日几个月内再增多 10 万颗 GPU,其中 5 万颗将是更为先进的英伟达 H200。 Grok 3 大模子正在超算中心中进行查验,查验预测在三到四个月内完成,计划是在本年 12 月发布 Grok 3。
另一家科技巨头 Meta 也不示弱。Meta 首席践诺官马克 · 扎克伯格在第三季度财报电话会议上涌现,Llama 4 模子正在一个由 10 万片 H100 GPU 构成的集群上进行查验,并预测在来岁头次推出。为了支撑大模子,Meta 预测本年度本钱开销将高达 400 亿好意思元,比旧年增多了逾越 42%。扎克伯格在财报电话会议中强调,来岁将进一步加大对 AI 基础方法的投资。
而大模子领头羊 OpenAI 与微软的"黄金搭档"却因为狡计集群的请托程度产生了不合。此前微软与 OpenAI 联接共建一个代号为 "星际之门" 的巨型数据中心神色。这个神色预测成本逾越 1150 亿好意思元,旨在容纳一台面向 AI 的配备数百万块 GPU 的超等狡计机。
据报谈,微软计划到来岁年底向 OpenAI 提供约 30 万个英伟达最新的 GB200 图形处理器。然则面对紧追不舍的敌手,阿尔特曼似乎对微软的速率不陶然。完成 66 亿好意思元融资后,OpenAI 开动寻求愈加孤独的数据中心和云业绩格式并与甲骨文达成了合同,将在德克萨斯州的一个新数据中心租用业绩器。该数据中心被誉为宇宙上最大的数据中心之一,改日可能容纳数十万个英伟达 AI 芯片。
百度超过系统架构师、百度智能云 AI 狡计部精良东谈主王雁鹏默示,从好意思国科技企业纵脱布局 10 万卡不错看出,Scaling Law 定律现在看仍然有用。公开数据自满,GPT-3 的查验数据集包含 3000 亿个 token,而 GPT-4 的查验数据集包含约 13 万亿个 token。模子的捏续升级,意味着数据量的指数级增长,而查验数据量的升级对狡计集群也刻毒了挑战,10 万卡的查验集群恰是为特出志模子参数增长所带来的高算力需求。
10 万卡集群难在哪?
10 万卡虽好,但部署如斯大领域的算力集群会面对很大挑战。王雁鹏先容,过程多年的技艺积聚和产业实践,百度的百舸 4.0 已大要竣事 10 万卡集群的高效不竭,并通过 HPN 高性能网罗、自动化混训切分计谋、自研汇集通讯库等一系列家具技艺立异,一定程度上处分了上述难题。
举例,好意思国老旧的电网就无法跟上大模子的方法。由于集群耗电量浩大,好意思国的众大齐据中心齐遇到了电网崩溃。一位微软工程师曾默示,为 GPT-6 搭建 10 万个 H100 查验集群时,统共这个词电网发生了崩溃。据估算,一个 10 万卡集群每天的耗电量达到 300 万度,相等于北京市东城区一天的住户用电量。此外,10 万卡集群需要粗略 10 万普通米,相等于 14 个圭臬足球场的面积,淌若思在单一建立中部署这样大的集群,将面对选址清贫和法例驱散等挑战。
出于上述原因,好意思国科技公司的超大集群大多采选跨地域部署。为了打破单一数据中心的领域驱散,谷歌和微软已入辖下手将大领域模子查验膨胀至多个数据中心园区。其中,谷歌的 Gemini 1 Ultra 模子已最初竣事大齐据中心查验。微软计划将其在凤凰城的 AI 查验基地膨胀至 10 座建立,自建 24 个数据中心,在多个超大领域园区互联,实施掩盖全好意思的大领域散播式查验。
王雁鹏先容,由于电网配电驱散、占地空间大等原因,十万卡集群需要跨楼、跨园区,致使跨城部署。而这种跨地域部署例必会增多网罗通讯的复杂性。跨地域通讯需要处分长距离通讯延伸、拥塞规章等技艺问题。
国内企业构建 10 万卡集群还面对着一个施行的清贫:芯片。国内企业面对算力供应不通晓的挑战,较难构建单一大领域查验集群。施行情况是,企业里面会出现合并厂商不同代际芯片,或者不同厂商芯片共存的情况。这些芯片如何进行混部查验,同期保证混部查验的效果亦然难题。
此外,跟着芯片集成度的连接提高,芯片的故障率也会相应高涨,英伟达 H 系列芯片的故障率比 A 系列高 3-4 倍。何况算力集群领域越大,其故障率就越高。按照 H 系列芯片的故障率水平,十万卡集群每 20 分钟就会出现故障。较高的故障率对通晓性查验保险刻毒了更高的条款。
王雁鹏先容,包括百度在内的国内厂商正在破解这些难题。在跨地域方面,针对由于传输距离变长所产生的高延伸,百舸 4.0 也曾构建了十万卡级别的超大领域 HPN 高性能网罗,通过提供更高效的拓扑结构、更优的多旅途负载平衡计谋及通讯计谋,大要竣事几十公里的跨地域通讯。同期,在通讯效果上,通过优化的拥塞规章算法、汇集通讯算法计谋,将带宽有用果普及至 95%,竣事了统统无阻挡。终末,通过 10ms 级别超高精度网罗监控,保险了网罗通晓性。
在多芯混训方面,百舸大要将不同方位、不同领域的异构算力进行和洽不竭,构建起多芯资源池。当业务提交职责负载时,可自动进行芯片选型,依据集群剩余的芯片资源,采选性价比最高的芯片来运行任务,从而最大化地愚弄集群的剩余资源。最终,可竣事高达 95% 的万卡多芯羼杂查验服从。
在集群通晓性方面,百舸提供全面的故障会诊妙技,不错快速自动侦测到导致查验任务特地的节点故障。同期,百度自研的 BCCL(百度汇集通讯库),大要快速定位故障同期提供自动化的容错智商,再行退换任务到健康节点,连接完成查验,现在也曾将故障规复时候从小时级缩短到分钟级。
王雁鹏默示,公有云是企业进行大模子查验的主流格式。在 10 万卡集群出现之前,为得志企业大模子的查验需求,云厂商常常接管业绩一个企业,搭建一个集群的格式。然则,这种格式存在澄莹间隙,即每个集群齐是为特定企业业绩,在企业的查验任务不处于岑岭期时,集群中的狡计资源可能会处于闲置情状,酿成资源的花费。而当 10 万卡集群出现后,云厂商就不错依靠这个大型集群为宽阔企业提供业绩,凭证不同企业的需求动态分拨狡计资源,这样不仅提高了资源愚弄率,也缩短了企业使用云业绩的成本,增强了云厂商在阛阓中的竞争上风。
(本文首发于钛媒体 APP,作家 | 张帅🔥欧洲杯正规(买球)下单平台·中国官方全站,剪辑 | 盖虹达)