实现AIGC更好的数据存力,这家科技巨头为我们指明了方向

2023-09-21 16:56:00

存力即数据存储能力

蕴藏着巨大的发展机会

【全球存储观察 | 热点关注】

2023年,全球被ChatGPT的热潮席卷,拥抱AIGC的创新赛道成为众多企业的新选择。

全球存储观察分析指出,影响AIGC发展的三大因素也日益凸显,即算力、存力与运力,算力即计算能力;存力即数据存储能力;运力即网络运载能力。而其中令业界越来越重视的存力,蕴藏着巨大的发展机会。

事实上,随着AI行业应用落地不断加速,也加快了新数据的暴涨。来自全球专业分析机构IDC统计分析指出,到2027年,全球数据圈将达到291ZB。更大规模的数据存储潜力值得挖掘,这也预示着在数字经济的下一步发展中,重视数据存力的行业企业才更有可能在新赛道中胜出。

拥抱AIGC,实现更好的数据存力,作为全球领先的数据存储解决方案提供商,希捷科技为我们指明了未来发展的方向。

对于这样一家专业而发展历史悠久的存储厂商,带给业界的观察与建议,还是十分值得关注的。毕竟在数据存储行业中,希捷科技有着40多年的发展历史,全球存储交付量超4ZB,数据早已成其为发展的DNA。

大容量与高性能,

对AIGC存力重要性不分伯仲

2023年9月13日,在2023开放数据中心(ODCC)大会间隙,希捷科技中国区产品线管理总监刘嘉接受媒体采访时强调指出,大容量与高性能已经逐渐成为AIGC存力需求的两大发展趋势。

  • 希捷科技中国区产品线管理总监 刘嘉

那么,希捷科技到底如何看待AIGC下的数据存储的大容量与高性能发展趋势呢?

一方面,大容量存储需求将会迅速增长。大容量存储源自数据海量产生,在AI场景下产生的数据相比以前正在发生很大的改变。回顾一下AI发展历程,我们不难发现,无论是机器学习,还是深度学习,或者是强化学习,以及当前火热的AIGC(生成式AI),驱动这些AI技术出现前所未有发展的原动力离不开数据。为此,在AI技术实现突破之时,往往离不开数据采集、数据存储、数据分析等一系列的数据驱动,这也是AI的发展基础。

在ChatGPT被业界热议之时,大家的目光聚焦在了数万颗GPU芯片上,固然ChatGPT能成为当今火遍全球的顶流大模型,自然少不了其背后的超强AI算力,然而,在大规模数据进行训练的过程中,更少不了与之匹配的分布式超强存储。业界盛传,ChatGPT算法模型包括了1750亿参数,其预训练的数据量达45TB,未来模型参数和数据量也将随着ChatGPT迭代不断倍增。模型训练质量越高,对数据集要求越大,需要的文件数量就越大,满足亿级文件数量的存储需求是常态。

当前AI产生的数据更多集中在文本、语音、图像等方面,随着大模型的技术升级,未来在视频方面也会产生大量的AI数据。随着数据训练的强化与推进,以及大模型走向行业普及化,大模型用户的数据和语言数据积累的规模也将越来越大,这对存储容量需求也将越来越大。为此,AI的技术创新,必然会持续推动大规模硬盘需求的增长。可以预见,未来AIGC存力的需求不亚于当前对于GPU的AI算力需求。

另一方面,高性能存储也是刚需。当业界都聚焦在AIGC发展之路上,自然对于大模型训练效果也有着更快更好的要求,高性能存储可以支持高性能计算平台的训练负载,作为数据存储基石,硬盘部件也同样需要实现更高性能。这是关系AIGC应用的一整个数据链条的高效整合。

在实际AIGC应用中,往往对存储性能要求更高。比如自动地生成图片、视频,修改图片、视频,其过程需要高性能存储来支持,实现用户更高效的AIGC应用体验。只要是尝试过ChatGPT、GPT4的业界朋友,都知道它能顺畅秒级完成文本问答,对其处理数据的速度还是满意的,其背后自然也需要大容量的存储来支撑其数亿参数和中间结果。

很显然,存力业已成为了AIGC发展的基石。通过大规模数据进行训练就必须有大容量存储来支撑,而要获得更高效的训练结果和更佳的应用体验,就必须要有高性能存储来实现。大容量与高性能,对AIGC存力的重要性不分伯仲。

方向找对了,

更需突破性存储技术去实现

实现AIGC更好的数据存力,找对了方向确实非常重要,更重要的是需要突破性存储技术去应对挑战,才能实现更好的数据存储理想,实现我们需要的数据价值。

不过,影响硬盘容量的两个关键变量在于:要不选择增加更多的碟片,或者选择提高磁记录的密度。只是采取在增加更多的碟片的技术道路上寻求发展,同时会增加原材料、零部件、工具和人工等BOM标准成本,碟片更多也会顺带增加功耗。

对于热辅助磁记录( HAMR )技术并不陌生的业内人士或许都清楚,提升磁密度对于存储硬盘容量升级意义重大。为此,希捷科技一直以来寻求在HAMR技术上实现不断的突破。这不仅对于提升容量更加有效,而且使得硬盘设计更好优化。

HAMR就是在磁盘上采用一种新型的介质磁技术,在保持磁稳定和热稳定情况下,让数据位变得比过去更小且密度更高。为了写入新数据,连接到每个记录磁头的小型激光二极管会瞬间加热磁盘上的一个小点,从而使记录磁头每次翻转单个位的磁极性,进而达到写入数据的目的。据希捷科技的官方资料显示,每个位会在一纳秒内完成加热并冷却,因此HAMR激光器对硬盘温度或整个介质的温度、稳定性或可靠性完全没有影响。

目前, 30+TB容量的HAMR硬盘在2023年已经开始出货,并且正在计划2026年实现50TB的HAMR硬盘亮相。

从希捷科技大容量硬盘的路线图可以不难看出,HAMR技术带来发展后劲还是很足,提升磁密度对于推动硬盘产品的发展和增长,其意义十分重大。对于用户来说,磁记录密度的提升对于存储TCO和可持续性的影响也必然深远,其中的技术关键在于增加硬盘容量的同时,而碟片数不需要增加。

在这之前,全球存储观察阿明也曾撰文分析指出,从2001年开始,希捷就开始了在HAMR技术上的研究。最终发现:HAMR技术可以让存储密度提升到5Tbit/in²甚至更高的水平,HDD硬盘容量会有5到10倍的增长空间,未来制造出100TB硬盘成为可能。

先进存储技术联盟 (ASTC) 分析指出,以增加磁密度的HAMR技术,将成为下一个重要的存储技术创新。其言外之意,下一个十年HDD大容量硬盘的市场增长或许得靠它了。

在大容量存储技术突破上有HAMR技术作为后盾,在存储高性能方面,希捷科技也有着MACH.2的优异表现。全球存储观察分析认为,为AIGC数据密集型应用提供两倍硬盘性能,这一点就值得关注。可以在不牺牲容量的情况下维持服务水平,也难怪MACH.2一经推出就走红业界了。

希捷科技在MACH.2技术上带来的突破性创新,属于全球首款多传动器硬盘技术,打破了业界硬盘吞吐记录。MACH.2通过实现数据流并行进出单个硬盘,解决了性能提升需求。通过使数据中心主机能够同时并行请求和接收来自硬盘两个区域的数据,MACH.2 将每个独立硬盘的IOPS性能提高了一倍,抵消了通常会因为容量提高而引起的数据可用性下降的问题。

全球存储观察分析认为,长期以来,希捷科技一直是引领全球硬盘技术未来的领导者之一,在应对AIGC全新存力的挑战下,不仅专注于磁密度技术创新,以支持不断增长的大容量数据存储需求。而且在存储性能创新的突破性先进技术方面,通过MACH.2多磁臂技术不断改善IOPS性能表现,降低延迟,并通过氦气和其他更多技术创新举措来满足AIGC应用的TCO要求。

谈到这里,或许有朋友会说,HDD大容量硬盘的性能再好,怎么可以和SSD的IOPS性能比拟呢,AIGC应用落地选择SSD不是更好么?单分析IOPS性能,HDD大容量硬盘确实没法和SSD比,但是在考虑价格与数据留存时间的综合因素时,情况就不一样了。

据刘嘉介绍,磁介质与闪存就两种介质每TB的价格对比来看,依然还在1:6到1:10的区间波动,即使SSD容量也在增加,但HDD突破性技术不断将硬盘成本往下拉。如果用户要考虑成本的问题,那么选择HDD大容量硬盘必然会不断增加。

对于AIGC应用过程中的数据留存时间,应该是众多走上该赛道上的企业必须要重视的事情。在考虑数据存储可靠性的同时,选择数据留存时间更长的HDD大容量硬盘也是常理了。况且在数据备份与恢复方面,基于HDD大容量硬盘的存储系统更为成熟。

当然,对于大模型训练的实时热数据采用SSD来存储,可以获得更高IOPS性能和低时延支持,但要考虑到数据留存时间与安全性,对于大量的近实时和归档的温冷数据采用HDD大容量硬盘来存储,可以获得更好数据留存时间与安全性,以及TCO表现。

可见,HDD与SSD对于AIGC发展也是相辅相成的,在企业级SSD方面,希捷科技也拥有业界强大的企业级产品阵营希捷雷霆(Nytro)系列,适合SDS、高性能计算、高密度数据中心,以及当前AIGC应用场景。

除此之外,应对当今的存储挑战,希捷科技之前还推出了Exos CORVAULT智能存储系统。被业界誉为裸容量超过2PB的智能“超级硬盘”,以更低的成本,存储更多的数据。在Exos CORVAULT系统中还采用了希捷科技创新的ADAPT纠删码和自我修复ADR存储技术,不仅提高了数据中心系统的耐用性,也对其可持续性带来了极大的帮助。

面对AIGC应用带来海量数据存储挑战,既需要大容量与高性能的磁盘,也需要与这些磁盘协同设计的智能存储系统。为此,从芯片到硬盘部件到存储系统,希捷科技通过软件与硬件的持续创新技术,为满足用户的数据存储需求不断推陈出新。

踏上AIGC未来之路,

还需持续践行绿色存储理念

随着踏上AIGC未来之路的企业越来越多,持续践行绿色存储的理念需要倍加重视。

随着数据圈的扩大,数据量的爆发式增长,大家对于硬盘等存储介质的生产和消耗十分惊人。

为此,希捷科技早已宣布了自身的“碳中和”计划:到2030年,在全球范围内使用100%可再生能源,2040年实现碳中和。一方面,在工厂生产、技术研发领域,希捷科技以100%使用可再生能源作为战略目标。

另一方面,在突破性技术创新领域,希捷科技凭借双磁臂技术、HAMR技术、氦气硬盘等,赋能数据中心的绿色、可持续发展。同时,也为业界带来了自动修复、硬盘重生与硬盘回收的绿色技术。ADR(自动容量重生)技术可以主动发现硬盘磁头故障并进行自动化修复,减少电子垃圾。希捷已经携手国内外众多生态伙伴,通过对产品整体以及相关部件的回收和循环利用,创建可持续发展的存储产业。2022财年希捷科技通过翻新计划延长了一百多万块机械硬盘和固态硬盘的使用寿命。将这些硬盘通过翻新和重新部署实现回收,避免了540多公吨的电子垃圾进入填埋场。

由此可见,在AIGC的创新赛道上,数据存力不仅要强大,具备更优的TCO表现,而且还需要持续践行绿色存储理念。在希捷科技等科技巨头的带动下,我们有理由相信,一个面向AIGC全新的绿色存储生态圈正在形成,并进一步得以完善中。在存力永续发展的基础上,让AI为百行百业创造出更多的价值。(by Aming)

- END-

欢迎文末评论补充!

【全球存储观察 |全球云观察 |阿明观察 |科技明说】专注科技公司分析,用数据说话,带你看懂科技。本文和作者回复仅代表个人观点,不构成任何投资建议。

更多推荐

vscode软件安装包下载安装教程

目录一、软件简介二、软件下载三、安装步骤一、软件简介VSCode(全称:VisualStudioCode)是一款由微软开发且跨平台的免费源代码编辑器。该软件支持语法高亮、代码自动补全(又称IntelliSense)、代码重构、查看定义功能,并且内置了命令行工具和Git版本控制系统。用户可以更改主题和键盘快捷方式实现个性

Linux线程同步(条件变量)

文章目录前言一、条件变量概念二、条件变量相关的函数三、条件变量模拟生产者消费者模型四、使用条件变量的好处总结前言本篇文章来讲解一下条件变量的使用。一、条件变量概念条件变量(ConditionVariable)是并发编程中一种线程同步机制,用于实现线程之间的等待和通知机制。它是一种与特定条件相关的线程同步原语。条件变量用

深入探索JavaScript中的5种经典算法

在本文中,您将了解到:冒泡排序、快速排序等常见排序算法原理及其在JavaScript中的实现;经典算法示例1.冒泡排序算法冒泡排序算法:冒泡排序是一种简单但效率较低的排序算法。它通过多次遍历数组,比较相邻元素并交换位置来实现排序。原理图示js实现functionbubbleSort(arr){constlen=arr.

给docker容器中的mysql做定时数据备份

给docker容器中的mysql做定时数据备份1、写脚本#!/bin/bash#MySQL数据库配置DB_HOST="127.0.0.1"DB_PORT="3306"DB_USER="root"DB_PASSWORD="123456"DB_NAME_AUTHORITY="stu_authority"DB_NAME_WE

企业架构LNMP学习笔记58

开始学习Tomcat:学习目标和内容:1)能够描述Tomcat的使用场景;2)能够简单描述Tomcat的工作原理;3)能够实现部署安装Tomcat;4)能够实现和配置Tomcat的Server服务和自启动;5)能够实现Tomcat的Host的配置;6)能够实现Nginx的反向代理Tomcat;7)能够实现Nginx负载

从原理到代码实践 | pytorch损失函数

文章目录1.损失函数原理1.1ClassificationError(分类错误率)1.2.均方差损失1.3交叉熵损失函数1.3.1数学原理1.3.2代码实现对于图像分类任务,模型最终是通过softmax操作输出一个概率分布向量的(各个类别和为1)假设我们有三类别[小车,小牛,小火箭],假设有两张图片,分别有两个模型来对

java反序列化---URLDNS链

目录一、前言二、原理分析三、代码实现一、前言URLDNS链相较于其他java反序列化链是比较简单的,只需要几步调用就能触发所以学习java反序列化,最好从URLDNS链出发,初步了解如何跟进,以及反射获取类、方法等使用这条链可以传入一个URL,然后触发的结果就是进行一次DNS请求为了方便通信,通常需要把数据序列化,通信

代理IP和Socks5代理:跨界电商与全球爬虫的关键技术

跨界电商在全球化市场中崭露头角,而代理IP和Socks5代理则成为实现全球市场洞察和数据采集的不可或缺的工具。本文将深入探讨这两种代理技术在跨界电商、爬虫技术和出海战略中的关键作用。引言:介绍跨界电商的崛起和全球市场的机遇与挑战。引出代理IP和Socks5代理作为技术解决方案的重要性。代理IP的应用:多地区数据采集:介

如何评估测试用例的优先级?

评估测试用例的优先级,有助于我们及早发现和解决可能对系统稳定性和功能完整性产生重大影响的问题,助于提高测试质量,提高用户满意度。如果没有做好测试用例的优先级评估,往往容易造成对系统关键功能和高风险场景测试的忽略,增加了项目风险,浪费了资源,甚至可能导致系统出现重大问题。因此做好测试用例的优先级评估非常重要,一般主要从以

Socket编程基础(1)

目录预备知识socket通信的本质认识TCP协议和UDP协议网络字节序socket编程流程socket编程时常见的函数服务端绑定整数IP和字符串IP客户端套接字的创建和绑定预备知识理解源IP和目的IP源IP指的是发送数据包的主机的IP地址,目的IP指的是接收数据包的主机的IP地址。在网络通信中,当一台主机需要向另一台主

基于springboot地方废物回收机构管理系统springboot11

大家好✌!我是CZ淡陌。一名专注以理论为基础实战为主的技术博主,将再这里为大家分享优质的实战项目,本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目,希望你能有所收获,少走一些弯路,向着优秀程序员前行!🍅更多优质项目👇🏻👇🏻可点击下方获取🍅文章底部或评论区获取🍅Java项目精品实

热文推荐