链载Ai

标题: 大模型时代,Data AI 新趋势洞察 [打印本页]

作者: 链载Ai    时间: 昨天 11:52
标题: 大模型时代,Data AI 新趋势洞察
一、大模型深入行业落地带来的新的 Data+AI 的诉求
⼤模型的智能化能⼒带来整个⾏业变⾰,⼤模型落地过程中碰到很多机会,也遇到很多数据的挑战。⼤模型本身是基于公开数据以及部分购买的⾼质量数据训练的,以互联⽹公开数据(⽹⻚,论⽂,代码)为主即将耗尽,如何持续提升模型效果,需要有新的数据供给。⼀般来说有以下思路:
⽅向⼀:减少对新数据依赖
⽅向⼆:发挥企业⾃有数据价值
尤其是落地企业业务的时候,需要有⾏业知识和企业的数据才能更精准和更智能的解决企业业务,Data+AI 结合显得尤为迫切。为了解决数据和⼤模型结合问题,实践过程中,遇到很多挑战,主要体现在以下⼏个⽅⾯:
挑战⼀:⾼质量数据缺乏
原始⽂件类型多、数量多、源头多,数据冗余、查找困难
这个就需要有数据处理能⼒,帮助⽤户解决⾼质量数据缺乏的问题。
挑战⼆:Data+ AI 联动⽋缺
因此客户迫切需要打通数据处理、⼤模型到应⽤之间数据流动和应⽤的壁垒,实现 Data+AI联动。客户需要有⼀个完善的workflow 串接整体流程,实现⾃动化,降低⼯程成本。
挑战三:资源类型更复杂,弹性要求更⾼
数据处理需要资源和能⼒,相⽐传统⼤数据资源
挑战四:传统⼤数据缺乏多模态数据处理能⼒,多模态数据处理更复杂
结构化和多模态数据处理存在差别,多模态更复杂:
1、结构化有更成熟的处理步骤
2、计算存储区别
3、数据治理区别:多模态数据数据可以参考结构化数据,细节存在不同
4、数据应⽤⽅法不⼀样
受限于⽆成熟可⽤产品+数据安全考虑,部分⼯程能⼒强的公司专⻔组建数据⼯程团队,但是⼤多数公司和团队,是⽐较难有技术实⼒去构建这种数据⼯程团队。
因此怎么提供⼀个成熟的产品和解决⽅案,帮助⽤户快速构建⾼质量数据以及实现 Data+AI 联动,降低企业为构建⼤模型相关业务难度,对客户来说有⾮常⼤的价值,但同时也是⼀个有⼀定挑战的⼯作。
二、业界的进展
一起看下业界领先的 databricks,azure,阿里云三个厂商的进展。
1、Databricks
databricks 属于业界⽐较早提出了要从 通⽤智能 ⾛向 数据智能 的理念。并且认为统⼀格式,统⼀元数据,开放的引擎数据湖范式是最有前途的标准架构。

提供数据到AI 全链条能⼒

数据平台作⽤不⽌治理能⼒,还提供结构化、⾮结构化数据联合召回


2、Azure核心理念:all your data in one place

Microsoft Fabric 是一个端到端的分析和数据平台,专为需要统一解决方案的企业设计。它的理念包括以下几个核心点:
Microsoft Fabric 旨在提供一个全面的、集成的、易于使用的平台,以简化企业的数据分析和处理需求,同时提高数据的可访问性和安全性。

Fabric 2023 年 11 月底GA,将数据工程、数据湖、数据仓库、机器学习和人工智能整合到一个平台中。

3、阿里云 Openlake 解决方案

从时间节点来看,阿里的 Openlake 解决方案借鉴了 Azure 的思路,但是做得更大一些。整体理念:从结构化走向多模态数据统一管理和治理。

Openlake 是阿里云AI 基础技术栈核心位置

通过 Openlake 解决方案,打通计算引擎,数据湖等,实现 Data+AI 统一治理







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5