• 业务咨询、市场合作:61619362
  • 公司邮箱:support@datatom.com
联系我们  | English

德拓信息云计算+数据智能为AI双引擎发力

作者:admin     来源:未知     2023/06/13 11:10:36    
 

2023年,以ChatGPT为标志人工智能再一次火速出圈,AIGC(AI-Generated Content)不断刷爆网络。作为AIGC代表性技术产品之一的GPT系列,展现了从ChatGPT(GPT-3.5)文本语言处理的单一模态,到能处理图像和文本的GPT-4多模态大模型,标志着AI技术和生态形成了新的格局。

Image

随着AI大模型的飞速发展,面对海量多模态数据的收集与治理、标注与标准化、数据增强与增强学习、模态融合与交互以及训练与优化,需要关注数据多模态特性、标注和注释质量,同时借助底层强大的计算能力,以确保多模态大模型的搭建和应用达到最佳效果。

 

如何把握此轮技术更新,跟上AI发展态势,本文将拆解构建AI多模态大模型的搭建基础要点及德拓身处其中能提供的技术支持与能力。

 

AIGC

拥抱大模型,构建AI基础设施

 什么是AI多模态大模型?

AI多模态大模型是指在模型的学习和训练中使用多种类型的数据,比如图像、文本、音频等不同模态数据,结合不同模态之间的交互关系和数据关联性,从中获取更多的信息,从而提高该复杂深度学习模型的性能和准确性。

 

这种模型通常由多个模块组成,每个模块都需要大量的计算资源和数据支持。例如,动态人脸识别系统是一个典型的视觉类多模态大模型,它需要处理多种数据类型(包括图像、视频等),同时需要使用多种算法模型(如人脸检测、人脸特征提取和人脸比对等)。在这个系统中,不同的模块使用不同的计算资源和存储资源,并进行复杂的数据交互和协同处理。

 

从ChatGPT到GPT-4可以看到,在文本语言理解的大语言模型(LLM)基础上,如果叠加视频、音频等更多模态,实现更大范围、更多行业数据的学习,并不断地迭代演进推理和应用,意味着大模型的认知能力得到了更智能的进化升级。

 

「人工智能+大数据+云计算」

全方位系统能力竞争

在OpenAI凭借ChatGPT逆袭的故事里,算力成为了一个易被忽视的关键。微软前期投入OpenAI的数十亿美元里,大部分以算力的形式提供。为了应对高密度的计算需求,微软为OpenAI的GPT3训练提供了一个具备一万块GPU的分布式集群,同时这些昂贵的计算资源和计算能力也针对OpenAI做了特殊优化。

 

因此,随着当下多模态大模型的快速迭代,各行业的未来与竞争将同时是“人工智能+大数据+云计算”全方位系统能力的竞争

 

大模型的训练能够很好地部署实施并产生应用场景价值,其中首要依托的是能提供大规模智算能力的AI基础设施平台。

 

这个基础平台需要对芯片、系统、网络、存储及数据进行全盘系统优化,需拥有GPU/FPGA/TPU/NPU等芯片和云计算资源来提供强大的算力,还需拥有能高速存取、标注处理、治理管理多模态海量数据的算料服务能力。在此基础之上,才能更好地支撑深度学习、强化学习、大模型、多模态学习等快速提升的AI算法能力。

 

云计算和大数据新技术发展到极高复杂度的今天,传统的IaaS、PaaS、DaaS不断强化技术能力和服务,助力AI创新企业专注在大模型产品技术研究和模型训练上,进而推动构建MaaS(Model-as-a-Service)服务能力,支持千行百业的企业级客户及个人工作者,在相关AI应用场景展开探索和创新。

Image

 

在一般认知中,大模型的进入门槛高、投入资金大,需要使用公有云资源搭建超大规模算力平台。但实践中,无论是针对特定应用场景需求进行训练的“小模型”,还是AIGC通用基础大模型,或者是面向行业场景应用方向的专属大模型,在早期的模型预研和前期的训练场景阶段,算力和数据相对较少,可以搭建小规模私有化部署或混合云模式的AI基础设施平台。当然,重要的是它必须是一个高度集成、高性能、可扩展的计算、存储和数据平台。

 

德拓「云服务+数据智能」组合拳

赋能大模型构建

德拓超高性能云存储和云计算领先技术、全面深入的大数据智能技术,助力构建AIGC多模态大模型的训练平台和推理应用平台。

 

 

Image

 

德拓云存储平台INFINITY支撑海量多模态数据的统一集群空间,特别是在对象存储和数据湖技术,图像、视频、音频、文档等多模态数据的高吞吐处理技术,数据分层存储和自动数据分级流动技术等方面,有着独具优势的能力和丰富的经验案例。

 

针对不同行业数据特点的大模型数据存储需求,提供针对性的优化技术和解决方案。同时,INFINITY云存储能够满足海量数据存储的高性价比要求和国产化信创、存储安全的要求。

 

 

 

Image

 

德拓云计算平台HyHive能够提供可弹性扩展和伸缩的计算和存储资源GPU加速技术优化的计算环境、资源隔离的高性能虚拟机、超低延时的集群网络通讯,以及智能化自动化的管理工具

 

同时,可针对不同行业领域应用算法特点的性能调优,为各行业多模态大模型的训练、推理和应用提供全面支持。通过HyHive云计算技术的弹性、高性能、可靠性和灵活的管理能力,让大模型的开发和部署变得更加便捷,加速大模型在各个领域的广泛应用和推广。

 

 

海量数据的智能化治理和管理技术也是德拓一直以来深耕“数据智能”的重中之重。德拓DANA和DATRIX平台以结构化数据和非结构化数据双中台DaaS服务能力架构,供给跨异构、覆全域、高质量的多模态数据集,覆盖文本、库表、图像、音频、视频等训练材料,为大模型提供工程化的大数据工具链

 

 

Image

 

DANA结构化数据中台贯穿数据的全生命周期,着眼于数据开发、管理及运营能力,覆盖《数据中台能力成熟度模型》六大能力域,具备低代码化、多项目管理、数据安全体系、国产化改造认证、信创生态适配等特性,为大模型训练提供海量、全域、高质量、动态的知识信息类数据资源。

 

 

 

Image

 

DATRIX非结构化数据中台提供非结构化数据全生存周期管理能力,打通包括数据整合能力、数据处理能力、数据服务能力和资源管理能力,为大模型提供具有领域、场景、业务特色的高质量数据“燃料池”。

 

 

德拓数据治理和数据管理技术能够以模型仓库、内容标识、迭代学习等手段,丰富数据样本的特征信息,增强数据集的多样性和代表性;以内容识别审核、访问权限安全等手段增强提供数据合规性和平台安全性。

 

AIGC和深度学习中广泛运用的自然语言处理大模型、计算机视觉大模型,在与客户应用场景结合时,利用德拓的大数据工具链,可帮助多模态大模型提高自身的表达能力、泛化能力和预测能力,从而在各种任务和领域中取得更好的成效。

Image

以新一代大模型和多模态为特点的AIGC带来了内容生成的一场革命,可以看到,多模态大模型正在加速深入产业,持续推动各种多模态场景下的应用创新不断涌现。这必将激发众多行业的颠覆式创新,并可能带来众多行业的又一轮新定义。

 

新型AI基础设施建设升级也正如火如荼,连同AI大模型一起将成为产业数智化转型的核心要素。

 

2023将会是互联网科技公司的转折之年,AI大模型是一个巨大的变数,也是一个赋予新生的机遇。

 

在这场时代的浪潮中,以“让数据更具价值”为使命的德拓,通过云基础架构、大数据服务、AI技术的整合支撑,无疑能够帮助各行业用户打好变革的坚实基础。

 

一个逻辑始终未变:谁离数据最近,谁就掌握未来。

 

 

 

-END-