链载Ai

标题: AI投资风向:企业高价值数据源于结构化和非结构化数据融合分析 [打印本页]

作者: 链载Ai    时间: 5 小时前
标题: AI投资风向:企业高价值数据源于结构化和非结构化数据融合分析

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: normal;text-align: start;white-space: normal;caret-color: rgb(0, 0, 0);color: rgb(0, 0, 0);">公开资料显示,Hebbia创立于2020年8月,总部位于美国洛杉矶,同年10月获得110万美元种子轮融资;2022年7月17日获得3000万美元A轮融资。B轮融资后,该公司估值约为7亿美元,其产品和服务主要被应用在金融服务、法律领域,客户包括美国空军、资产管理公司和法律服务公司。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: normal;text-align: start;white-space: normal;caret-color: rgb(0, 0, 0);color: rgb(0, 0, 0);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: normal;text-align: start;white-space: normal;caret-color: rgb(0, 0, 0);color: rgb(0, 0, 0);">根据Hebbia创始人Sivulka介绍,目前该公司的年度经常性收入(ARR)为1300万美元,该收入在过去18个月中增长了15倍,还为OpenAI贡献了2%的收入。‍‍

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: normal;text-align: start;white-space: normal;caret-color: rgb(0, 0, 0);color: rgb(0, 0, 0);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: normal;text-align: start;white-space: normal;caret-color: rgb(0, 0, 0);color: rgb(0, 0, 0);">Hebbia的B轮融资使其成为2024年上半年全球AI初创公司中募集到巨额资金的公司之一 ,那么到底是什么让Hebbia在成长早期就成功斩获市场青睐呢?

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: normal;text-align: start;white-space: normal;caret-color: rgb(0, 0, 0);color: rgb(0, 0, 0);">

Hebbia的启示:非结构化数据是“金矿”,也是蓝海

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;visibility: visible;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(0, 0, 0);letter-spacing: normal;text-align: center;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(0, 0, 0);letter-spacing: normal;margin-bottom: 0px;caret-color: rgb(0, 0, 0);text-align: start;white-space: normal;outline: 0px;visibility: visible;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(0, 0, 0);letter-spacing: normal;margin-bottom: 0px;caret-color: rgb(0, 0, 0);text-align: start;white-space: normal;outline: 0px;visibility: visible;">

Hebbia曾因公开挑衅Google而声名鹊起——按其说法,全球最大的搜索引擎Google只索引了全球4%数据,而还有96%的非结构化私密数据没被索引和查询。非结构化数据是一个尚未被完全开发的“金矿”。而Hebbia想做的,就是挖掘这座金矿。


Hebbia借助OpenAI等公司的大模型开发了AIAgent(智能体)产品Matrix,能够从多种来源索引、阅读和理解非结构化私有数据,包括监管文件、PDF、音频和视频剪辑等。该产品吸引了众多重量级客户,顶级资产管理公司、律师事务所、银行,就连美国空军都在使用Matrix来处理他们的复杂数据。在硅谷银行危机期间,资产管理者使用Matrix快速绘制了数百万份文件中区域银行的风险暴露图,从而有效应对危机。


非结构化数据结构化已是大势所趋‍‍‍‍‍‍‍


非结构化数据占据了企业存储系统的大量空间,它们对于训练和微调人工智能模型至关重要。然而,有效利用这些数据却因可扩展性、数据复杂性和集成困难等问题而变得复杂。


现有工具是为结构化数据设计的,如电子表格和数据库。事实证明,非结构化数据,如图像、视频和PDF,更难大规模访问、评估和改进。算法工程师通常依靠构建自定义代码来管理非结构化数据。然而,这种方法的劳动密集型性质,加上可扩展性的潜在问题,使得管理非结构化数据成为挑战。‍


2024年初,麦肯锡发布的关于人工智能状态的全球调查显示,只有15%的公司意识到GenAI对其业务成果的有意义影响。造成这一结果的原因很大程度上归结于许多组织的数据效率低下。根据Iterative的说法,无法处理非结构化数据是人工智能成功的主要障碍,突显了结构化数据技术与基于Python的较新的人工智能工作流程之间的巨大差距。


在AI投资领域,将非结构化数据结构化就成为一个重要趋势,它不仅得益于技术进步,也符合市场需求和行业发展的方向,具有显著的经济潜力和战略价值。



非结构化数据如何让AI更智能?‍


为了从生成式AI中获得准确的结果,企业需要的不仅仅是电子表格和其他结构化数据。大量的非结构化数据如文档、图像、音频和视频记录以及社交媒体提要可能非常有价值,能够为企业提供更准确、更全面的人工智能见解,因为它们基于客户信息。但是,许多组织缺乏技术手段,无法以任何可信的方式查看、访问、集成和使用其非结构化数据。

ZByte(质变科技)是市场上新兴的AI-Native数据云公司。专注于严肃和高准确性AI和数据分析场景,ZByte推出其数据云产品Relyt,能够充分利用非结构化与结构化数据进行融合查询与分析。

那么,什么是非结构化与结构化数据融合查询和分析呢?能帮助解决哪些场景问题?我们通过典型的电商搜索和个性化推荐场景举例说明:‍‍

某电商平台希望提升其搜索功能和个性化推荐系统的准确性和用户满意度。他们需要整合用户的直播、视频、图片等访问行为、搜索等数据(非结构化数据)以及用户个人信息和购买历史(结构化数据)来提供定制化的购物体验。

AI查询管道的构建:

结构化与非结构化数据融合分析:

结果生成:

AI数据云使客户能够根据意义或意图在营销或服务工作流程中执行语义搜索和检索信息。客户还可以将关键字和向量搜索结合起来,以实现混合搜索体验,从而为他们提供更相关的内容。这对企业来说是向前迈出的一大步。我们为客户提供的不仅仅是信息——而是提供相关背景来解锁另一层知识。

使这些模型更准确的有效方法是使用RAG。RAG通常让企业能够使用其结构化和非结构化的专有数据,使生成性人工智能更具情境性、及时性、可信性和相关性。它允许接受公共领域数据培训的大模型与公司的私有企业知识一起增强,确保更高的准确性、一致性和相关性。


企业高价值数据源于结构化和非结构化数据融合分析‍


真正“稀缺”的数据到底是什么?a16z联合创始人Ben Horowitz讲述了一个场景:对于保险公司来说,你能获取一般数据库中人们的寿命信息,但不知道他们的具体健康状况和生活习惯。此时,真正有价值的数据是,具有特定档案和实验室结果的人群,他们的预期寿命是多久。


当前,企业数据成本连年攀升,其原因很大程度上归于企业不知道哪些数据对他们来说是高质量、高价值的dataset for custom LLM(业务模型),所以无差别存储;对于非结构化数据结构化,结构化数据和非结构化数据融合处理和分析,就是获取更高质量、高价值数据的过程,将构建效果更加强大的custom LLM。


AI数据云提供了强大的个性化数据解决方案,通过非结构化和结构化数据融合分析提取价值信息并做出决策,帮助企业更好地理解和利用其数据资源,从而在多个业务场景中获得竞争优势:


欺诈检测:在欺诈检测领域,AI数据云可以通过分析大量的交易数据来识别异常模式和可疑行为。例如,使用机器学习算法对客户信息和交易细节进行特征工程,然后将这些特征向量化并存储在向量数据库中。通过这种方式,可以快速检索与已知欺诈案例相似的交易,从而实现实时欺诈检测。这种技术的应用有助于金融机构提高其检测系统的准确性和效率。


推荐系统:在推荐系统中,AI数据云通过处理和分析用户行为数据和产品信息,帮助发现用户偏好和产品之间的相似性。通过将用户的历史行为和产品特征转化为向量,可以有效地执行基于内容的推荐或协同过滤推荐。这种方法可以显著提高推荐的准确性和个性化程度。


实时广告出价:在实时广告出价(Real-TimeBidding,RTB)场景中,AI数据云可以快速匹配广告和目标受众。通过分析用户的行为和偏好,能够将用户特征向量化,并与广告特征向量进行匹配,从而实现精准投放。这种方法可以提高广告的相关性和转化率,同时降低无效广告展示的成本。


个性化营销: 企业可使用客户数据库中的结构化数据,如联系方式、人口统计数据和购买历史记录,对客户进行细分,并以相关优惠和消息推送给他们。还可以使用来自社交媒体帖子、网页和评论的非结构化数据,以了解客户的偏好、情绪和反馈,并相应地定制企业的营销策略。

产品开发:企业可使用来自销售数据、库存数据和网络分析的结构化数据来衡量其产品的性能、受欢迎程度和盈利能力。使用来自电子邮件、调查和用户生成内容的非结构化数据来收集客户反馈、建议和投诉,并提高其产品质量和功能。

竞争情报:企业可使用财务记录、市场报告和行业基准的结构化数据来分析自己的优势、劣势、机会和威胁。他们还可以使用新闻文章、博客和播客中的非结构化数据来监控竞争对手的活动、战略和声誉,并获得竞争优势。

业务关键决策:企业可使用来自财务记录、运营和业务流程的结构化数据以及来自内部治理流程、决策记录、对话以及公司规则和政策的非结构化数据来自动响应,并在关键关键业务问题和决策发生之前提供答案。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5