对话火山引擎罗浩:大算力基础设施竞争火热 核心策略之一是软硬一体坚持自研

搜搜小姐姐 搜搜小姐姐
来源:互联网

6月16-17日,由51CTO主办的WOT全球科技创新大会在京召开。来自AI、云计算、大数据、架构等领域的50余位讲师和专家参会,围绕“云时代基础设施”、“金融科技创新”等话题进行深度演讲和高端对话和“人工智能算法与实践”,共同探索新技术如何帮助企业实现数字化能力的跨越和提升。

火山引擎云基础设施产品负责人罗浩受邀参加首日活动,并就“大算力基础设施技术探索与实践”发表了独到的见解。据罗浩介绍,火山引擎自研DPU网络性能达到5000万pps转发能力,延迟低至20us。基于自研DPU的各种计算实例的性能也得到了显着提升。罗浩在接受新浪财经采访时指出,“发布后,出现了大量大规模模型训练的算力需求,对GPU算力提出了更高的要求。”

在他看来,面向未来的控制和超前创新是帮助客户的重要手段,也是差异化能力建设的思路之一。

大模型赛道的火爆算力成了“香饽饽”

随着它的诞生,国内外掀起了一股大尺寸机型的热潮。在接连不断的比拼中,算力成为“兵家必争之地”。据罗浩介绍,火山引擎整体的大算力,无论是通用算力还是弱算力,在技术架构上都有比较快的迭代速度,有长期的积累。“过去几年,我们基本上做了至少三代的架构演进,从存储到通用CPU算力,包括现在的大算力系统都有很大的进步。”罗昊说道。

在介绍火山引擎基础设施的演进过程时,罗浩详细阐述了火山引擎是如何找到适合自身发展的路径。他表示,火山引擎作为云计算的后来者,在专注存量市场的同时,也在不断提升基础能力,包括IaaS、PaaS、PaaS+。“我认为瞄准成长型市场可能更重要。在成长型市场中,我们可以看到一些新的机会所在。”罗昊说道。

大机型火爆的背后,基于算力和基础设施的新需求也在蓬勃发展,尤其是对存储和网络的高要求成为大机型的痛点。“在这样的趋势下,我们会更加务实地解决技术架构演进和算力具体使用上的一些突出问题。”罗浩举例说,在网络方面,如何支持类似4000卡、8000卡甚至万卡规模的集群,在达到规模时,可以达到网络延迟优化的效果,避免一些网络拥塞问题。“在解决了这些问题和挑战之后,我们的能力已经沉淀在产品上,形成闭环,这样可以更好地服务内外部客户,提高我们产品的竞争力。”罗浩补充道。

多模态万亿参数改变隐私安全满足高要求

发布后,对大量大规模模型训练算力的需求持续增长,同时对网络、存储性能和规模提出了更高的要求。在训练任务中,存储和读取、读取训练数据、模型文件等场景需要计算、网络和存储之间进行大量的交互。在扩大GPU集群规模的同时,分布式训练任务也要求集群内的高速网络能够横向扩展并保证性能。

“自火山引擎对外发布以来,软硬件一体化一直是我们的核心战略之一。”据罗浩介绍,火山引擎通过自研的DPU2.0提供更高的带宽能力和转发能力,从而提高计算和存储之间的传输效率,助力大型模型训练任务更高效地执行。针对大规模模型训练场景,具备高算力、网络性能优化、存储读写性能优化等优势。在算力方面,火山引擎推出了搭载自研DPU、A100/A800、大规模RDMA网络的新一代弹性裸机机型。通过采用DPU,进一步释放单机GPU算力。

对于未来的技术前景,罗浩表示,大模型仍在快速蓬勃发展,多模态、万亿参数在不同行业落地生根,对模型训练和部署提出了更大的挑战。他指出,“在新一代AIInfra架构中,我们判断大模型行业将对算力规模、集群内网络带宽、通信方式、模型训练并行方式、存储性能、模型推理部署等提出更高的要求。、隐私安全等方面的要求。”

“未来,火山引擎还将提供安全可靠的大型模型服务平台(MaaS),构建更完善的大型模型行业生态。我们将始终站在行业用户的角度,提供整体解决方案,更适合客户场景。”罗昊说道。

海量资讯,精准解读,尽在新浪财经APP

相邻资料

阅读 下载数 0
栏目专题
user-avatar
HTML5前端(CSS,JS,UI)
前端设计一般可以理解为网站的视觉设计.
user-avatar
名著精读
名著是指广泛认识以及流传的文字作品。
user-avatar
两性健康
两性是人类自身和繁衍的需要。
user-avatar
针灸
针灸由针和灸构成,是东方医学的重要组成部分之一。
user-avatar
英语学习
英语是按照分布面积而言最流行的语言。
名人专题
user-avatar
曾仕强
国学大师,全球华人中国式管理第一人。
user-avatar
刘强东
京东集团董事局主席兼首席执行官。
user-avatar
柳传志
中国联想控股、联想集团创始人。
user-avatar
马云
中国阿里巴巴集团主要创始人。
user-avatar
李彦宏
百度创始人、董事长兼首席执行官。