你的位置:开云(中国大陆)Kaiyun·官方网站 - 登录入口 > 新闻中心 > 开云体育(中国)官方网站对数据的安全存储和数据可捏续性打听提议了更高条款-开云(中国大陆)Kaiyun·官方网站 - 登录入口
开云体育(中国)官方网站对数据的安全存储和数据可捏续性打听提议了更高条款-开云(中国大陆)Kaiyun·官方网站 - 登录入口
发布日期:2025-04-24 10:11    点击次数:73

  图片系 AI 生成

现时,大模子最权臣的特征之一即是参数目呈指数级增长。确认 Scaling Law(模范定律)的划定,东谈主工智能神经汇注的参数目越多,模子越大,关于学问的总结归纳和推理泛化才气就越强。因而,从 ChatGPT 出现考证了"显现"才气,到如今的两年里,业内要紧和蔼的即是算力,若何打破硬件算力,如缘何尽可能少的 Token 数目考研好一个模子。但在这一权臣挑战除外,数据量猛增带来的数据存储,可能是仅次于算力的另一大手艺难点。

大模子"卷"向存储

年头,一位弥远和蔼 AI 大模子应用的 CTO 与钛媒体 APP 相易中示意:"企业使用外部数据考研大模子,长文本是关键想路之一。但问题是,长文本处理罕见消费内存和硬件,因为模子考研和推理的内存变大,模子成果才能更好。这也导致在其每次查询的资本高于 GPT-4,此后者基于微调。这不是 ToB 企业约略包袱得其起的。"

他对钛媒体 APP 讲明:微软提议了大模子的"不能能三角",如果但愿模子的微调才气很强,那么模子参数就不会很大,或者小样本的学习才气不会很强。长文本的逻辑是,让小样本学习的才气变强,同期根除微调,这么模子参数确定就会相应扩大。

彼时,赶巧国内长文本飞扬。除了最早的 Kimi,阿里巴巴、百度、360 等宽阔厂商接踵晓示进军长文本,从启程点的可处理 200 万字高下文,迅速蔓延至 1000 万字长文本才气。而在这股飞扬中,也不异留传了诸多待责罚的问题。

确认手艺博客 Medium 上一位 AI 工程师 Szymon Palucha 的纪录:

以阿里开源的 Qwen2-7B(7 亿参数)大模子为例。目下 GPU 显存大小基本在 80GB(以英伟达 A100 为例),那么如果拿不到更好的 A100 时,他确认公式:参数模子内存 =7B*32 位 =7B*32/8 字节 =28B 字节 =28GB,测算出运行该模子至少还需要 28GB 内存,这还不算推理经由中对存储产生的额外支拨。

为此,最浅近的办法是裁汰参数精度,因为目下多数大模子不错半精度使用,而不会权臣影响准确性。这意味着大模子在实质运行时,需要一定的内存或存储空间来存储和处理数据,大模子所需的内存量会确认高下文窗口的大小而变化。窗口越大,所占用的内存也就越多。

钛媒体戒备到,这亦然当下大模子应用厂商在破解算力问题除外,遭逢的另一大手艺发愤点,客岁还莫得太多东谈主和蔼——数据量猛增带来的数据存储、内存带宽、时延等一系列问题。况兼跟着需求的爆发,也曾带来一些手艺侧居品侧的演进。

支捏万卡算力和万亿参数 LLM,存储两谈槛

目下众人的科技巨头都在布局万卡算力集群和万亿参数鸿沟的大模子考研,关于这些集群而言,高性能的计较、存储和汇注不能偏废。从存储层面来看若何提供复旧?一是要至少达到 TB 级带宽、百万级 IOPS 的存储性能,异日可能会演变为数十 TB、上亿级 IOPS 的需求;二是要升迁数据跨域调养、数据安全、数据可捏续性打听等才气。

归来以前两年间大模子带来的存储挑战,不错从三个阶段总结:

2022 年头:大模子爆发初期,国内有跳跃 100 家的大模子公司运行迅速进行市集布局。在这个阶段,模子考研追求的即是"快",通过 IT 基础步调的决策优化,灵验地升迁 GPU 遵循,加快模子的考研并得回市集认同,即可霸占市集先机。

为此,模子考研的数据加载、模子考研经由中的断点续训要尽可能地裁汰对计较时辰的占用,在万卡算力集群万亿参数的大模子的快速考研时,小于 1 分钟断点续训,需要存储提供 TB 级的带宽,同期小模子的考研推理则对 IOPS 提议更高条款,存储系统需提供跳跃百万级的 IOPS。

2023 年底到 2024 年头:跟着模子在各行业落地的需求,在好多的行业场景里,行业数据枯竭蕴蓄,以前散播在各结尾、地域数据的夸公约、夸地域高遵循分享整合。这就条款存储具备数据跨域调养,通过异构纳管杀青全局定名空间料理,升迁数据汇集、分析的遵循。

2024 年下半年运行:模子的确切落地,对数据质料条款更高,语料公司需要将数据汇集并进行精加工。大模子的行业化落地经由中,为了升迁通用模子的专科化才气,考研出精度更高的模子,条款有更高质料的数据集。为得回高质料数据,原始数据要经过粗加工、精加工等多个功课形态。这个阶段,对数据的安全存储和数据可捏续性打听提议了更高条款。

波浪信息存储居品线副总司理刘希猛指出,模子参数目、考研数据量、GPU 算力、网卡性能、GPU 鸿沟近些年均在连忙增长,原有存储不及以卤莽 AI 的快速发展。岂论是海量考研数据加载、PB 级查抄点断点续训,如故高并发推理问答等,存储性能告成决定了扫数考研推理经由中的 GPU 愚弄率。罕见在万卡集群鸿沟下,较差的存储性能会严重增多 GPU 闲置时辰,导致模子落地发愤、业务资本剧增。因此,当代存储也曾由传统的数据载体和数据仓储,编削为 AI 发展的关键组件。存储系统正冉冉演进到提供更高的蒙胧量,更低的时延,更高效的数据料理。

AI 存储何时爆发?

既然针对 AI 场景的存储系统在前几年并莫得得回太多好奇,从需求侧,何时会迎来新的爆发点?"以前一年,存储的增量市集基本沿途来自于 AI 场景。"刘希猛对钛媒体 APP 讲明。

如果将异日的 AI 市集分为轻便两类:一类是 AI 产业化的市集,在 AI 产业化进程中,更多的和蔼点可能集合在了模子考研,紧随自后的是语料坐褥,然后是算法优化。那么,存储启程点就会在模子考研、语料坐褥鸿沟产生价值,罕见是语料,从本年运行就已有迹象,并在接下来两年里杀青快速增长。

在刘希猛看来,从目下来看,大模子考研中最紧缺的是数据,各行业在可能都会运行入辖下手采集各自鸿沟的数据,并进行相应的数据加工处理。算力方面,尽管有东谈主合计算力开导已接近泡沫阶段,以至有些使劲过猛。这一判断可能在一定程度上具有标的性的正确性。接下来,算力的发展可能会插足一个相对得当的阶段。

第二类是产业的 AI 化,即大模子着实落地到行业并产业实质价值,不错不雅察到一些鸿沟也曾先行一步。举例,金融鸿沟的量化来往、证券来往,在科研鸿沟,AI 也运行被用来援救科研责任。此外,制造业亦然 AI 应用的一个进击鸿沟。这两方面都会对 AI 存储市集带来比拟好的促进作用。

刘希猛还指出,现时 AI 存储靠近的挑战尚未都备责罚,若继续上前发展,其实如故要从性能、遵循以及可靠性三方面动手。一是高性能,以责罚搀杂 AI 负载对存储读写带宽、IOPS,以及低时延的条款;二是高遵循,通过存储支捏文献、对象、大数据等非结构化公约会通互通,全局定名空间等,减少多份数据叠加存储,以及数据夸公约、夸区域、夸系统调养检索的问题;三是高韧性,通过故障的快速收复、故障前的精确量度裁汰系统极端时的性能影响,以及劳动的联贯性,同期强化数据保护与安全珍视才气,保证数据的好意思满、一致、捏续可打听。

目下国表里在建千卡集群、万卡集群,且异日可能还会出现更大鸿沟的集群。想要达到同等算力,如若选用国产 GPU,可能需要不仅达到十万卡鸿沟,而是更为雄伟的集群。

跟着集群鸿沟的扩大,除了存储自己靠近的挑战外,还将带来存储举座决策的挑战。这波及从存储到前端汇注,再到算力节点的扫数链条。其中,汇注的选拔成为一个关键问题。国内之是以更多地使用 RoCE 汇注,是因为国内的集群鸿沟需求更大,而 IB 汇注在扩展鸿沟上有所遏抑。RoCE 汇注与存储及表层之间的协同性,尤其是超大鸿沟集群的协同性上,可能会成为新的和蔼点。

钛媒体戒备到,RDMA ( Remote Direct Memory Access ) 全称良友内存告成打听手艺,是一种数据传输手艺。目下算力集群对汇注的开导在 2022 年之前基本会选拔"二层臆造汇注",跟着 AI 应用的爆发,2023 年于今也曾在尝试智能无损汇注和以太网,况兼通常围绕性能、资本、生态系统和兼容性等方面进行权衡。RoCE 即是一项基于以太网的 RDMA 手艺。

甲骨文公司中国区手艺相干部高等总监嵇小峰与钛媒体 APP 相易中不异指出,大鸿沟集群除了 GPU 数目多除外,同期具备汇注低延时和高带宽的特色。从基础步调角度来看,大都 GPU 集合部署会带来供电和冷却方面的巨大挑战。同期,在考研经由中,对存储的需求不异至关进击。因为考研通常波及多如牛毛块 GPU 的协同功课,一朝有少数 GPU(如一块或两块)出现故障,扫数考研程度可能会因此延误。

举例,本年 9 月亮相的 Oracle Zettascale 算力集群,目下可提供 13 万多颗 GPU,罕见于可提供 2.4 ZFLOPS 的云表算力。为进一步增强汇注的低蔓延和高带宽,Oracle 选用支捏两种汇注公约:InfiniBand 和 RoCEv2,这是一种增强版的以太网。这两种手艺均具备一种中枢绕行机制,能让汇注流量脱色惯例旅途中必须穿越的某些组件,以杀青更迅速的传输至想法地。这么的野心促进了数据更快地抵达 GPU,进而升迁了处理遵循。

跟着 AI 存储需求的不休显现,包括 GPU、模子架构、存储责罚决策及汇注手艺的各大厂商,正纷纷加快布局开云体育(中国)官方网站,悉力在构建超大鸿沟集群的波浪中霸占先机。(本文首发于钛媒体 APP,作家 | 杨丽,剪辑 | 盖虹达)