腾讯云AI超级底座新升级:训练效率提升幅度达到3倍

2023-09-13 14:45:55

大模型推动AI进入新纪元,对计算、存储、网络、数据检索及调度容错等方面提出了更高要求。在9月7日举行的2023腾讯全球数字生态大会“AI超级底座专场”上,腾讯云介绍异构计算全新产品矩阵“AI超级底座”及其新能力。

腾讯云副总裁王亚晨在开场致辞中表示,AI大模型就像是一场F1比赛,腾讯云专门设计了星脉高性能算力网络“赛道”,并自研了TiTa和TCCL网络协议作为“车载导航和道路控制系统”,共同让“HCC GPU服务器”这台马力强大的F1赛车发挥最大的算力性能,助力客户在AI大模型的竞争中遥遥领先。

图片

腾讯云全新异构计算产品矩阵“AI超级底座”亮相

随着AI应用走向全领域,模型参数发展到千亿、万亿级规模,对云计算的基础设施提出了全新的挑战。腾讯云异构计算产品总监宋丹丹表示,AI 超级底座可以从底层算力基础设施到上层应用对接提供整套完整服务,方便模型生产厂商和AI开发者快速开发、验证。

腾讯云AI超级底座具有海量算力、极致性能、灵活取用等优势,结合了腾讯云的海量多元算力、高性能网络和存储集群,并以云原生产品作为入口供开发者灵活调用。在软硬结合层,腾讯云还可以通过GPU虚拟化、容器等,以及高性能应用服务HAI给开发者提供简易的开发体验,并让底层的高性能算力无损直达开发者,真正实现“高性能易上手”。

图片

基础设施再进化,取之AI,赋能于AI

作为AIGC时代的重要核心,大模型需要庞大的算力来支撑。腾讯云高性能计算集群产品 HCC采用腾讯云星星海自研服务器,提供高性能、高带宽和低延迟的集群算力。目前,HCC已全面升级至2.0,性能、效率和稳定性实现全面提升,相比上代训练效率提升幅度达到3倍,将几十天的训练周期缩短至一周内。

此外,腾讯云还推出了性价比更高的冷存储产品、COS加速器,以及数据湖多级加速体系,可面向AIGC等多种业务场景提供多级缓存加速方案,进一步提升训练效率并降低资源成本。腾讯云存储产品总监崔剑指出,腾讯云通过提供近存储侧的一站式数据处理智能平台,为以AIGC为代表的业务提供内容处理、内容审核等服务,帮助用户挖掘数据价值,从而实现了“取之AI,助力AI”。

图片

腾讯云公网产品负责人俞圆圆指出,对于参数达到千亿、万亿级别的 AI 大模型来说,大带宽、低延时、广覆盖、少抖动的网络是实现高效训练的关键因素之一。腾讯云星脉高性能计算网络具备业界最高的3.2T 通信带宽,可为AI大模型的训练提供高速公路级别的网络通道。

图片

软硬件结合,提升极致性能

底层基础设施以外, AI大模型的落地也需要上层软件的支持。腾讯云异构计算AI研发专家工程师叶帆表示,随着集群规模的增加,无论训练还是推理对硬件性能的利用均呈现指数难度上升,需要精细的软硬件协同来提升性能。腾讯云的Taco-LLM开箱即用性能方案基于Continuous Batching、预测解码、模型量化等技术,提高吞吐的同时,也降低了客户端延迟,并全面兼容hugging face主流大语言模型,可保障复杂多变的公有云应用场景。

图片

针对GPU算力资源浪费的问题,腾讯云TencentOS高级产品架构师杜震表示,qGPU容器产品可以支持多个容器共享 GPU 卡,具备了各容器间算力、显存的精细隔离和灵活配置,将GPU的利用率提升至极致,最终帮助客户大幅节约GPU资源成本。同时,腾讯云还基于 RUE 内核全场景混部,统一调度分配 CPU、IO、网络、内存等资源,提升资源利用率,进一步降低运营成本。

图片

向量数据库加速企业AI化进程

在大模型时代,通过向量数据库将数据高效接入AI大模型,并深度挖掘数据价值,成为最重要的事。

腾讯云数据库产品副总经理罗云指出,腾讯云向量数据库同时具备的性能和规模优势,支持高达10亿级的向量检索规模,延迟则控制在毫秒级,比传统单机插件式数据库检索规模提升了10倍。同时,腾讯云向量数据库还具备百万级每秒查询(QPS)的峰值能力,经腾讯内部海量场景实践,数据接入 AI 的效率比传统方案提升10倍,运行稳定性高达99.99%。

图片

从底层到上层,腾讯云AI超级底座通过大模型高性能计算集群、计算网络以及向量数据库等大模型生态工具,助力AI大模型应用落地。

更多推荐

Go expvar包

介绍与使用expvar是exposedvariable的简写expvar包[1]是Golang官方为暴露Go应用内部指标数据所提供的标准对外接口,可以辅助获取和调试全局变量。其通过init函数将内置的expvarHandler(一个标准httpHandlerFunc)注册到http包ListenAndServe创建的默

学Python的漫画漫步进阶 -- 第十五步.访问数据库

学Python的漫画漫步进阶--第十五步.访问数据库十五、访问数据库15.1SQLite数据库15.1.1SQLite数据类型15.1.2Python数据类型与SQLite数据类型的映射15.1.3使用GUI管理工具管理SQLite数据库15.2数据库编程的基本操作过程15.3sqlite3模块API15.3.1数据库

MyBatis获取参数值的两种方式#{}和${} 以及 获取参数值的各种情况

一、参数值的两种方式#{}和${}在MyBatis中,可以使用两种方式来获取参数值:#{}和${}。1.#{}:这是MyBatis推荐使用的方式。在SQL语句中使用#{},MyBatis会自动将参数值进行预编译处理,防止SQL注入攻击,并且可以处理各种类型的参数(如字符串、数字、日期等)。例如:<selectid="g

【音视频原理】音视频 “ 采样 - 编码 - 封装 过程 “ 和 “ 解封装 - 解码 - 播放 过程 “ 分析 ( 视频采集处理流程 | 音频采集处理流程 | 音视频文件解封装播放流程 )

文章目录一、视频采集处理流程二、音频采集处理流程三、音视频文件解封装播放流程本篇文件主要分析音视频文件是怎么产生的,以及音视频文件是如何播放的;一、视频采集处理流程视频文件从录像到生成文件的全过程:采集图像帧:摄像头硬件负责采集画面,采集的初始画面称为"图像帧",一秒钟采集的图像帧数量称为"帧率",如:60帧就是一秒钟

网络安全(黑客)自学

目录:一、什么是网络安全二、怎样规划网络安全三、网络安全的知识多而杂,怎么科学合理安排?1、基础阶段2、渗透阶段3、安全管理(提升)这一阶段主要针对已经从事网络安全相关工作需要提升进阶成管理层的岗位。如果你只学习参加工程师方面的岗位,这一阶段可学可不学。4、提升阶段(提升)1、Web安全相关概念(2周)2、熟悉渗透相关

Web Components详解-Shadow DOM基础

目录引言概念基本用法attachShadow函数mode(模式)delegatesFocus(委托聚焦)CustomElements+ShadowDOM基本用法样式及属性隔离写在最后相关代码参考文章引言上篇文章的自定义标签中,我们使用customElements对象对原生标签进行拓展,达到组件的拓展性与复用性的效果,那

Spring Boot集成EasyExcel实现数据导出

在本文中,我们将探讨如何使用SpringBoot集成EasyExcel库来实现数据导出功能。我们将学习如何通过EasyExcel库生成Excel文件,并实现一些高级功能,如支持列下拉和自定义单元格样式,自适应列宽、行高,动态表头,以及如何同时导出多个sheet页的数据。引入依赖首先,我们需要在pom.xml文件中添加E

【前端系列】前端如何使用websocket发送消息

序言今天来学习一下前端如何使用websocket发送消息1基础介绍1.1什么是WebSocketWebSocket是一种在单个TCP连接上进行全双工通信的协议,它可以让客户端和服务器之间进行实时的双向通信。与传统的HTTP请求不同,WebSocket使用了一个长连接,在客户端和服务器之间保持持久的连接,从而可以实时地发

TCP 和 UDP 的 Socket 调用

在网络层,Socket函数需要指定到底是IPv4还是IPv6,分别对应设置为AF_INET和AF_INET6。另外,还要指定到底是TCP还是UDP。TCP协议是基于数据流的,所以设置为SOCK_STREAM,而UDP是基于数据报的,因而设置为SOCK_DGRAM。TCP的服务端要先监听一个端口,一般是先调用bind函数

若依框架集成WebSocket带用户信息认证

一、WebSocket基础知识我们平时前后台请求用的最多的就是HTTP/1.1协议,它有一个缺陷,通信只能由客户端发起,如果想要不断获取服务器信息就要不断轮询发出请求,那么如果我们需要服务器状态变化的时候能够主动通知客户端就需要用到WebSocket了,WebSocket是一种网络传输协议,同样也位于OSI模型的应用层

c++学习之十四

1)利用std::function实现回调函数,实现生产者及消费者模型//254、回调函数的实现//在消息队列和网络库的框架中,当接收到消息(报文)时,回调用户自定义的函数对象,把消息(报文)参数传给它,由它决定如何处理。//示例://254、回调函数的实现//在消息队列和网络库的框架中,当接收到消息(报文)时,回调用

热文推荐