西南空管局技保中心双流航管联合党支部召开线上支部大会暨党课学习
近两年,多个全球知名品牌,从原本的竞争对手,变成了SHEIN的深度合作伙伴。
李笛常说小冰不需要依靠他人的认同来存活。李笛的这一设计理念在 2013 年十分领先、创新,得到了一众微软高层如王永东、陆奇的欣赏与支持。
李笛专门建立了一个语料库,用来回答小冰的名字、家庭关系、父母姓名等等,十分巧妙。因此,周力深得李笛信任,一直被李笛委以重任。萨提亚看起来为人温和,但实际分享中却总向技术人员提出十分犀利的问题,如这项技术在未来会产生多大的商业价值、对微软参与全球竞争有什么帮助。后来李笛好不容易被王永东说服、肯加入微软,也只是以vendor(相当于兼职人员)的身份入职,没有打定主意给微软打工。在这条路径的指导下,小冰创造了一个个AI Being,如夏语冰、华智冰、崔筱盼等等,虚拟 AI 开始成为小冰的主要对外标签。
小冰的成功让他产生了留在微软的想法。多位与小冰合作紧密的技术骨干在加入小冰前,了解小冰的人员体系,去了小冰后无论如何也不肯向周力汇报,因为担心去到周力手下待不长。大模型服务成主流,MaaS 是趋势过去一年,围绕大模型技术重构上层产品与应用已成行业共识。
MaaS将彻底改变云服务的商业模式和市场格局,并为各行各业的AI原生应用带来爆发式增长的沃土。最直观的数据是,2023 年英伟达发布的 Q3 财报显示,英伟达期内营收达 181.2 亿美元,同比上涨 206%,市值超过 12000 亿美元,高出英特尔近 1 万亿美元,成为全球市值最高的芯片公司。百度曾公布一组数据,称百度文心一言自 8 月 31 日全面开放后,至今 4 个月里,百度千帆大模型平台上的大模型 API 日调用量增长了 10 倍,且调用行业不仅局限在互联网、教育与电商场景,还有营销、手机与汽车等大家所想不到的传统行业。两年前,这个数字还没有引起云计算领域的普遍认同,但也已经有一部分云厂商未雨绸缪。
计算范式的变革在过去大模型狂飙的一年中,人们最能直观感受到大模型对云计算产生影响的表现,大约是科技同行对 GPU 算力的哄抢。有行业人士甚至预测,国产 GPU 第一次大规模的格局重塑将在 2025 年之前完成。
百度解法:一个重构启示针对大模型训练难度大、算力要求高的问题,今年以来,国内外的云计算厂商也进行了各自的思考与举措。侯震宇提供的一组数据是:从3月份发布文心一言以来,推理成本已经降到了原来的1%。无论是发展大模型、还是发展云计算,百度的重构都将三者合为一谈、而不是拆开来单独讨论,这也使得百度的大模型布局力量均衡,整体能齐头并进。但除了芯片种类与数量的变化,雷峰网观察到,大模型对云计算厂商的影响实则体现在更深的维度。
第三,全面开放AI原生应用工作台在2023百度云智大会·智算大会上,百度集团副总裁侯震宇指出,AI原生时代的典型系统架构,至少包含模型、数据与应用三部分。雷峰网了解到,百度在云计算的重构上采取了降本增效、精准打击同时又面面俱到的策略。在MaaS(模型即服务)的趋势下,客户未来关心的重点将转向模型好不好,框架好不好等等,而不是仅仅看算力怎么样。快跑者能赢得百米冲刺,但马拉松需要耐心与韧力。
该平台支持将百度及第三方建设的智算中心、超算中心、边缘节点等智算节点进行全域接入,将分散和异构的算力资源打通连接起来,形成统一的算力网络资源池,再通过百度自主研发的算力调度算法,智能分析各类算力资源的状态、性能和利用率等指标,统一调度算力,实现智算资源的灵活、稳定、高效的利用。数据基础设施方面,百度沧海·存储升级发布了统一技术底座,可以支持更大规模,更高性能的计算场景。
仅仅依靠简单的算力堆叠,完全无法适用于大模型时代。在这种模式下,计算资源的利用率也会大幅提升。
尽管当前中国的大模型原生应用数量远远没有达到大众预期,与人们设想的移动互联网时代 app 层出不穷的愿景还有一定距离,但今年下半年以来,围绕大模型设想 AI 原住民时代的讨论越来越多。百度百舸·AI异构计算平台的研发最早可追溯 2009 年,这一年,百度开始用 GPU 做 AI 加速,百度开始用 GPU 做 AI 加速,不断扩大集群规模,为百舸平台最终面向市场推出奠定了基础。一些厂商正在研发围绕 GPU 提供的云计算服务,希望按照客户的实际使用量来收费。但随着越来越多泛化能力强的基座大模型的诞生,以及 MaaS 模式的成熟,大模型时代的 AI 模型不再需要从头训练,而是可以基于一个强大的通用大模型进行有监督微调而来。此外,由于大模型的参数规模与训练复杂度加大,显卡的故障率也随之提升。7 月 7 日文心大模型 3.5 发布,效果提升 50%、训练速度提升 2 倍、推理速度提升了 30 倍。
在上半年炼大模型最红火期、芯片出口管制发布之前,江湖一度传闻该巨头的 GPU 卡出货量是 4000 张起步,但仍有大批同行斥巨资还要碰一鼻子冷灰。在这种研发方式的改变下,企业的专注力集中在自家场景的数据上,加上通用大模型的泛化优势,行业用户研发大模型应用所需的算力规模与训练时间都会大幅缩短,由此带来更快的迭代速度。
与 1.0 和2.0 相比,升级后的 3.0 主要针对大模型的训练和推理场景研发,在高效、稳定以及易运维三方面进行升级,实现了万卡级别任务有效训练时长达到98%以上,带宽有效性可达 95%。千帆AppBuilder将基于大模型开发AI原生应用的常见模式、工具、流程,沉淀成一个工作台,帮助开发者聚焦在自身业务,而无需为开发过程牵扯多余精力。
目前千帆平台已经累计服务超过4万家企业用户,累计帮助企业用户精调近1万个大模型。推出自动化+人工的双重模型评估机制,大幅提升模型评估效率与质量。
这一判断符合当前大模型领域重复造轮子现象泛滥的应对方案。同时发布云原生数据库 GaiaDB 4.0、数据库智能驾驶舱、升级大数据管理平台 Serverless 能力等。在大模型的训练过程中,对计算资源的管理方式也比较粗放。多位技术人员告诉雷峰网,英伟达显卡训练大模型的一个常见故障是掉卡,即显卡在运行过程中突然失去连接或无法正常工作。
与千帆平台 2.0 相比,升级后的千帆平台将模型数量增加至 54 个,数量位居全国榜首,并针对性进行模型能力增强。而同样类比飞机模型的例子,个位数的 GPU 与上万张 GPU 卡的集群搭建也不是同一个工程量级。
一位云计算销售告诉雷峰网,今年上半年有一些运营商和小型智算中心轰抢完一批显卡后,却不知道怎么用起来。大模型诞生于大规模云计算集群,但随着行业需求的变化,云计算也要改变姿态,反主为客,跟上大模型的发展步伐。
大模型的训练周期较长,如果中途出现故障,原本已经进行了十几天的任务可能就要重新开始。而相比计算量的膨胀,云厂商服务模式的维度并没有受到太多的关注。
百度集团副总裁侯震宇认为,MaaS 的收入至少会分为两类:一类是面向模型的研发收入,即基于某个通用的基座大模型来做 SFT(监督微调),这部分会逐步取代裸用算力来进行模型训练的部分收益。毫无疑问,在大模型的影响下,云计算从互联网时代的 CPU 云为主向 AI 时代的 GPU 云为主转变已是行业共识、大势所趋。而在云计算的格局被彻底重构之前,大模型时代给算力提出的新挑战,也仍需理智思考、谨慎对待。具体来说,百度智能云的重构体现在三方面:首先,重构智算基础设施方面,百度智能云推出了百舸·AI异构计算平台3.0。
在时代巨轮飞转、从 CPU 过渡到 CPU+GPU+DPU 只有极短时间的前提下,提升显卡利用率一直是云厂商老大难的问题。结语大模型行业刚起步,事实上,无论是大模型独角兽,还是兼具云与模型的互联网大厂,都仍在不断探索,摸着石头过河中。
在这样的趋势背景下,过去的云服务模式也需要作出顺应时代的变化与调整。作为一家在人工智能领域深耕10余年的AI公司,Cloud for AI(云为 AI 而生)是百度的宿命,也是百度的优势。
换言之,计算集群的管理仍存在较大的降本增效空间。以算力中心空转现象为例。
评论列表