当前位置: 首页> 投研观点> 新型人工智能存储研究报告(2025年)

新型人工智能存储研究报告(2025年)

2025-04-28 14:41 中国信通院 查看PDF原文

(以下内容从中国信通院《新型人工智能存储研究报告(2025年)》研报附件原文摘录)  一、新型人工智能存储概况

  (一)新型人工智能存储基本概念

  人工智能(Artificial Intelligence)起源于20世纪五六十年代,历经符号主义、连接主义和行为主义三次浪潮的相互交织发展,如今作为一项新兴的通用技术,正推动着社会生活与各行各业的巨变。随着大模型的爆发式增长和持续迭代,模型参数量从几万跃升至数千亿甚至更大,模型层数从开始的个位数逐步发展到成百上千,原始数据集也达到PB级,对以数据存储为代表的多领域产生了根本性的影响。

  2024年2月16日,OpenAI再度引领风潮,发布了首款文生视频大模型Sora,大模型由单模态的NLP领域向文生视频等多模态方向迅速演进,标志着AI技术正迈向一个全新的高峰。相较于传统的NLP语言大模型,视频大模型所需的训练数据量极为庞大,原始数据体量相较于NLP能达到几百甚至上千PB级以上,2025年2月,Grok3发布,其多模态能力获得全球瞩目,Grok3所用数据量比Grok2增加了3倍,通过增加数据量而不是模型参数的方式实现了大模型能力的倍增。这些都对人工智能基础设施的数据存储和处理能力提出了极高的挑战。

  新型AI存储是指专为人工智能应用和服务设计的数据存储系统,具备超高性能、超大容量、极致安全、数据编织等特征,可以有效支撑海量数据的分析和学习,是AI基础架构不可或缺的组成部分,如图1。作为大模型的数据载体,新型AI存储与大模型数据归集、预处理、训练、推理等全生命周期流程紧密相关,且逐步成为AI数据全生命周期服务与管理平台的重要组成部分。当今在不同行业和组织内部具备形成多元化数据集的条件下,新型AI存储正在成为数据资源的统一管理平台,并以此为基础构成跨域跨部门的AI数据湖,为数据赋能提供关键的技术支撑。

  (二)全球人工智能存储战略分析

  国外较早布局人工智能战略,AI存储逐步成为战略关键技术竞争力的重要体现。欧盟委员会在2020年2月发布《人工智能白皮书》,确保对计算和数据基础设施的访问安全,同时提出改善数据访问和管理是根本。英国政府在2021年9月发布《国家人工智能战略》,AI系统中的数据基础和使用将提高专业人工智能、软件和数据技术的能力,并支持关键的新型数据基础设施的发展。美国国防部在2023年11月的《数据、分析和人工智能采用战略》中,提出推进数据、分析和人工智能生态系统,同时改善基础数据管理,为美国人工智能发展和相关国家安全战略制定提供依据,如表1。

  国内目前对数据存储的产业布局主要在于通用存储。2023年11月,《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》中提出加强人工智能场景创新要素供给。推动场景算力设施开放,集聚人工智能场景数据资源。2021年12月,中央网信办在《“十四五”国家信息化规划》中提出加强数据收集、汇聚、存储、流通、应用等全生命周期的安全管理,建立健全相关技术保障措施。2020年7月,国家标准化管理委员会等五部门在《国家新一代人工智能标准体系建设指南》中提出规范人工智能研发及应用等过程涉及到的数据存储、处理、分析等大数据相关支撑技术要素,包括大数据系统产品、数据共享开放、数据管理机制、数据治理等标准,如表2。

  二、人工智能存储重要性

  (一)人工智能存储是发力大模型的基础

  大模型正在从基础大模型向行业大模型演进。大模型的应用场景日渐丰富,正在加速向各个行业渗透。大模型很大程度上打破了AI场景化和行业化的瓶颈,为上层应用提供更多通用性的基础能力,同时企业不再需要按场景从零开始开发和训练独立的基础模型,仅需在较成熟的基础大模型上融入企业生产业务沉淀而来的私域数据,即可进一步实现大模型的专业训练,满足特定领域对准确度和安全性等方面的诉求。根据IDC的分析及预测,未来95%的大中型企业将基于专属数据自建行业大模型,例如银行的风控数据、车企自动驾驶数据、医疗PACS数据等。

  数据决定人工智能高度。大模型三要素是数据、算力和算法。随着AI技术快速成熟,各企业所使用的算力已逐渐趋同;各企业采用的算法也同样逐渐收敛,大多依托Transformer模型基础架构和以Pytorch、TensorFlow等为代表的开发框架;因此真正体现大模型差异性的要素是数据。根据公开数据显示,Meta开发的LLaMA3拥有700亿参数和15TB训练数据,而OpenAI的GPT-3.5拥有1750亿参数和570GB训练数据,尽管LLaMA3在参数规模上还不到GPT-3.5的一半,但其表现能力在大部分基准上均超过后者。不难看出,除了模型参数规模以外,训练数据的体量对提升大模型的效果具有显著作用。此外数据的质量同样重要,大模型需要规范性、完整性、时效性的高质量数据支撑。对于基础大模型,其数据质量主要基于厂商从公开渠道所获取数据的整体质量。而对于行业大模型的训练及细分场景推理应用,模型效果取决于行业专属的私域数据的质量,其中包含了企业原有数据和行业知识库等,如图2。

  AI存储逐步成为大模型的关键基础设施。AI存储是大模型数据收集、预处理、训练、推理的关键一环,决定了能保存利用的数据容量、训练及推理的数据存取效率、基础设施可用度以及数据安全。一是AI存储与大模型数据处理效率紧密相关,AI存储直接影响数据访问速度,从而影响大模型训练和推理速度。二是AI存储是模型规模和数据量激增时平衡成本的重要因素。模型参数增大会伴随训练数据集规模的指数级增长,从而大幅增加数据储存成本。三是大模型行业落地需要依托AI存储来加速数据在各环节的自动流转,保护数据安全,并形成统一的数据管理。面对大模型带来的大量数据处理和工程化工作,也需要结合AI存储中的相关技术一并解决。

  (二)人工智能存储面临的挑战

  海量原始数据的归集对AI存储效率提出较高要求。人工智能数据在存储过程中往往需要通过不同地域、线上线下等方式对数据进行归集汇总。据统计,PB级数据的归集通常花费3~5周,耗时占据整个大模型全流程时长的30%。为了加速数据归集、减少后续分析的等待时间,需要AI存储具备高效汇聚、协议互通、海量按需扩容的能力。在AI存储领域,通过简单收集、爬取的原始数据是无法直接用于模型训练的,需要对数据进行解析、清洗、去重等工作,其中包含至少3次全量数据读取与搬迁,将消耗30%以上的CPU、GPU、网络、内存等资源。

  数据访问效率将成为制约模型训练速度的重要因素。在模型训练启动阶段,GPU服务器会随机读取数万个小文件,读取完毕后才能启动训练。为了避免GPU等待训练数据的加载时间过长,需要AI存储提供千万级IOPS能力。此外,在模型训练的过程中,GPU服务器硬件的故障率较高,在训练过程中一般会设定数十次、甚至上百次的周期性检查点(checkpoint)操作,保存中间过程数据,让发生故障后可以断点续训。因此为了减少GPU的空置时长,需要存储提供数百GB/s级的读写带宽。

  AI存储能够提供应用推理阶段的实时性和精准性。当大模型用于推理时,为避免大模型出现答非所问、内容杜撰等问题,需要将企业不断产生的私有数据联接到大模型。如果将这些全新的数据再次进行训练或微调,会耗费很长时间,且付出高昂的成本。通过在大模型上外挂一个可容纳增量数据、并且实时动态更新的行业知识库,可以为大模型提供额外的信息输入,提高其回答的准确性,这就需要一个能够快速检索关键信息的AI存储。

  在AI存储全生命周期中需要考虑攻击带来的不良影响。通常攻击的手段归结为两类,一类是传统的数据窃取,以获取勒索赎金,企业不仅面临赎金损失,还会面临商誉、商业机会、法律诉讼、人力和时间成本等损失。而另一类是新型的数据攻击,主要是通过加入噪音数据,如在训练数据中加入暴力、意识形态歪曲的内容,导致模型质量下降、推理精确度失准、出现模型幻觉,最终干扰企业决策。因此在AI存储过程中需要对数据安全进行充分的考量。

  AI存储是提升AI集群可用度的关键。AI集群可用度是指大模型基础设施集群在一定时间内提供正常服务的时间占总时间的比例,通常用百分比表示。数据显示,当前集群可用度普遍低于50%。Meta50000+卡训练任务和OpenAI GPT-4 25000卡训练任务集群算力可用度在30%~40%之间,英伟达Megatron-LM和微软MT-NLG 10000+卡训练任务的集群算力可用度在40%~50%之间。AI集群可用度提升困难导致可利用算力难以随着集群部署规模线性增长,造成了算力资源的巨大浪费。其中,算力等待时间是导致AI集群可用度降低的主要原因,例如,PB级训练数据集的加载时间通常在小时级,断点或故障恢复所需的时间也会显著影响可用度。高性能的AI存储可减少算力等待时间,有效提升AI集群可用度。

提示:本文属于研究报告栏目,仅为机构或分析人士对市场的个人观点和看法,并非正式的新闻报道,本网不保证其真实性和客观性,一切有关该股的有效信息,以沪深交易所的公告为准,敬请投资者注意风险。

网友评论

×

  • 1.若本人/本机构拟认购/申购私募类资管产品、信托计划,则本人/本机构承诺符合以下条件之一:
  • (1)具有2年以上投资经历,且满足金融净资产不低于300万元,或家庭金融资产不低于500万元:或近3年本人年均收入不低于40万元;
  • (2)最近1年末净资产不低于1000万元的法人单位;
  • (3)金融管理部门视为合格投资者的其他情形。
  • 2.若本人/本机构拟认购/申购私募基金,则本人/本机构承诺符合以下条件之一:
  • (1)金融资产不低于300万元或者最近三年个人年均收入不低于50万元的个人;
  • (2)净资产不低于1000万元的单位。
  • 本人/本机构确认是为自己购买私募产品,不会以非法拆分转让为目的购买私募产品,且资金来源合法合规,不会使用贷款、发行债券等筹集的非自有资金进行投资。
特定对象认证

确 认

×

风险测评
温馨提示:本问卷旨在协助您选择符合您风险识别和承受能力的产品或服务,问卷结果并不能取代您的投资判断,也不会降低产品或服务的固有风险。
    下一题