链载Ai

标题: 数据科学中的 AI 应用：优化数据处理，提高工作效率与应对未来 [打印本页]

作者: 链载Ai 时间: 2 小时前
标题: 数据科学中的 AI 应用：优化数据处理，提高工作效率与应对未来

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读随着人工智能技术的迅猛发展，特别是大语言模型的爆发式增长，AI 已经开始深入影响数据科学工作的各个方面。本文将由 Snap 公司 Core Data Science 组数据科学家徐萌老师，从数据科学家的日常工作出发，探讨如何利用 AI 技术优化数据处理流程、提供工作效率，并思考 AI 时代的职业发展路径。

主要内容包括：

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">1.背景介绍

2.AI 在数据收集和清理中的应用

3.AI 在建模中的应用

4.AI 提高数据科学工作效率的其他应用

5.AI 的局限、人机协作及职业发展思考

6.Q&A

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">分享嘉宾｜徐萌 Snap Inc. Tech lead of core data science

背景介绍

1.数据科学家的核心工作模块

数据科学家的核心工作模块包括以下内容：

当拿到一个商业问题时，首先需要考虑的是如何将其转化为描述性问题、预测性问题或因果推论问题。确定问题类型后，还需选择具体的方法，例如对于因果推论问题，需要思考是通过实验回答，还是依赖观测性数据。最后选择对应方法。这一步在数据科学工作中至关重要。

接下来，数据科学家需要收集和清理数据，然后用统计和机器学习方法进行建模。

分析完成后，通常需要借助可视化方法和沟通技巧，将结论与决策层进行有效沟通。因为决策层可能缺乏专业的数据科学背景。代码实现贯穿所有步骤。

2.人工智能的基本概念

在讨论AI应用之前，有必要明确几个核心概念：

深度学习：是机器学习的一个子集，使用神经网络方法分析数据并进行预测。与传统机器学习不同，深度学习不仅能处理结构化数据，还能从非结构化信息（如文本、图片、视频、音频）中提取数字化表示。它是AI算法的基础。
生成式人工智能：指根据自然语言提示自动生成文本、图像、音频、代码等内容的 AI。
大语言模型：是通过深度学习训练出的大规模文本生成模型，能够理解和生成自然语言。

这三者代表了人工智能的不同层面：深度学习是模型基础，生成式AI是深度学习的一种应用，大语言模型则是生成式AI在文本领域的代表。

AI在数据收集和清理中的应用

1.文本向量表示

文本向量表示（Text Embedding）是将文字转化为向量，即把文字数字化，使计算机能处理自然语言中的语义信息。

文本向量化发展经历了从稀疏向量到稠密向量的演变：

稀疏向量表示：前AI时代的常见做法，直接将词汇转换为数字，不考虑词汇含义或上下文，通常生成包含大量零的长向量。
稠密向量表示：在深度学习和AI时代，使用几百维的稠密连续数字向量来表示文本含义，而非仅仅表示单个词汇。

Google BQML中的Text Embedding功能简单易用，只需一行代码就能将文本转换为768维向量。例如，将"我爱猫"转换为向量，如果改为英文"I love cat"，结果会非常相似，表明这种转换基于文本含义而非文本本身。

2.利用向量距离量化文本相似度

将文本转换为向量后，可以通过计算向量距离来量化文本相似度。最简单的方法是点乘法，通过计算两个向量的点积来衡量相似度。

例如，在品牌相似度计算中，我们可以使用Google Text Embedding模型结合点乘法来计算品牌之间的距离：

丰田(Toyota)和本田(Honda)都是传统日本车品牌，相似度为0.59
丰田与特斯拉(Tesla)的相似度为0.56，略低于与本田的相似度
丰田与运动品牌Lululemon的相似度仅为0.4
丰田与饮料品牌可口可乐的相似度仅为0.42
耐克与Lululemon同为运动品牌，相似度为0.554

3.预训练模型与微调模型

使用大语言模型时，我们通常会用到两种类型的模型：

预训练模型：在大规模数据集上提前训练的模型，分为预训练语言理解模型（将语言转换为向量，如Bert）和预训练语言生成模型（如GPT系列，这类模型优势在于即取即用，基于海量人类语言训练，通用性强）。
微调模型：在预训练模型基础上，使用特定任务数据继续训练的模型。它在特定需求上更准确，适合用户情感分析、企业私有知识问答、多语言适配等场景。

预训练模型可比作不偏科的高中学霸，全面发展且有潜质；微调模型则让这位全能高中毕业生进一步学习特定专业知识。

微调的必要性体现在向量表示对场景和语境的依赖上。例如，"一种新的苹果产品"在科技新闻推荐系统中指的是苹果公司产品（iPhone、MacBook等），而在水果电商客服对话中指的是水果。预训练模型只能学到平均意义，无法准确判断特定语境，需要微调来适应。

微调模型的基本步骤包括：

收集训练内容，按情景需求标注正负样本
使用不同预训练模型进行预测，理解各模型准确度
选择适当的损失函数(loss function)
运行微调过程，使用验证集提高准确度
使用评估数据集评估模型准确度

Python库sentence-transformers提供了常见预训练模型和选择损失函数的指南，值得推荐。

4.语义搜索

语义搜索使用AI或自然语言处理来理解搜索查询背后的含义，从内容含义上进行匹配。相比传统关键词搜索，语义搜索更加智能，不仅匹配关键词，还匹配内容含义。

例如，搜索"如何让广告更有效"时，传统关键词搜索会查找包含"广告"、"有效"等词的内容，可能包含许多不相关信息。而语义搜索则理解用户想了解提高广告效率的方法，会搜索相关内容，即使这些内容中没有这些关键词。

语义搜索实现步骤：

将待搜索内容转换为向量表示
将搜索查询转换为向量表示
计算搜索查询向量与每条内容向量的距离（可使用点乘法）
按距离从小到大排序内容，最接近的内容最符合搜索需求

语义搜索常用于搜索引擎、问答机器人等场景。在数据科学中，可用于推荐系统，根据用户喜好搜索意思相近的内容。

在实际应用中，亚马逊已从关键词搜索升级到语义搜索：以前搜索“quality”会显示所有包含该词的评论并加粗该词；现在则显示所有讨论产品质量的评论，即使评论中没有“quality”关键词，AI也会从相关评论中提炼产品质量总结。

关键词搜索并非毫无价值，它简单高效，适合大数据量快速检索。而语义搜索虽然更准确，但计算成本高，对每条内容逐一进行向量转换在商业实践中会很昂贵。实践中可先用关键词搜索缩小范围，再用语义搜索排除不相关内容。

5.利用生成式AI进行文本分类

除了传统机器学习分类和基于语义搜索的分类外，还可以利用生成式AI进行文本分类：

传统机器学习模型：输入离散结果和数字化预测特征，调整模型参数提高表现
语义搜索分类：利用相似度设置阈值进行分类
生成式AI分类：输入文字、图像、视频、音频等非数字化资料，用自然语言作为提示词要求AI帮助分类，通过调整提示词而非参数来提高模型表现

以从标签中找出指代具体品牌的标签为例，语义搜索分类步骤为：

将所有标签用大语言模型转换为向量表示
将“品牌”一词转换为向量表示
计算“品牌”与每个标签的距离
设置阈值进行分类

生成式AI分类表现更佳，但需要尝试不同提示词(prompt)。以下是几种提示词的效果对比：

初始提示词：“Is the following tag a brand name? The tag is X.”（AI不直接回答问题，而是解释一番）
改进提示词：“Is the following tag a brand name? The tag is X. Only answer yes or no.”（结果仍不满意，AI会将类似“yogurt”这种指代具体事物但非特定品牌的标签归类为品牌）
最佳提示词：加入具体例子，如“Yogurt is not a brand, but Nike is a brand.”（在测试数据上表现极佳，准确识别所有品牌）

Google BQML提供了简单的代码实现方式，只需编写SQL调用标签、给出提示词，并调用Google内建生成式AI模型，即可完成文本分类。

文本分类的一些经验总结：

提示词不要过于复杂，复杂任务应分步给出提示词
问答式提示词比完形填空式提示词表现更好

GPT-4o和GPT-4比GPT-4 Turbo表现稍微好一些。GPT-4o mini表现更差。Claude比GPT表现差
只有解码器的语言理解模型（如BERT）比包含解码器和编码器的语言生成模型计算更便宜高效
应使用评估样本来评估不同模型和提示词的表现，降低过度拟合可能性

AI在建模中的应用

将向量表示转为模型特征：

1.机器学习模型

将文本、图像、视频直接转化为向量表示，作为新特征加入机器学习模型
使用生成式AI的文本分类结果作为预测性更强的特征

2.因果推论模型

利用向量表示计算的内容相似度作为特征（如计算广告与内容相似度，研究相似度如何影响广告表现）

3.推荐系统模型

将用户评价和物品描述转化为向量表示，分别作为用户特征和物品特征；

将向量表示作为新特征有两个主要优势：一是将内容深层含义数字化，便于模型处理；二是生成稠密向量，维度较低，便于后续模型处理。

让AI建议基于现有特征生成新特征
利用 AI 从日期判断节假日
让 AI 帮助计算特征间的比值（特别适用于需要提高线性模型解释性的场景）

使用AI清洗离散变量，修正空格、乱码、打字错误等问题
利用自然语言让AI判断缺失值、多重共线性、数据重复等问题

AI提高数据科学工作效率的其他应用

1.代码编写与处理

AI在代码方面的应用表现视任务复杂度而定：

对于简单直接的任务，AI表现相当出色
对于步骤多、复杂的任务，AI容易出错，需要不断调整提示词；需要专业知识帮助AI调试，确保代码逻辑正确
有时AI会固执地输出错误代码，此时应放弃使用AI

AI在代码方面的其他有用应用：

帮助理解他人代码，辅助学习
在不同编程语言间转换代码（如R转Python）
将本地代码转换为云端处理代码（如转为SQL代码）
优化代码计算效率

2.数据可视化

AI在数据可视化方面表现出色，可以根据自然语言描述生成R或Python的绘图代码。对AI而言，绘图是相对简单直接的任务，能创建美观、符合要求的图表。

3.写作与沟通

比如今天的分享内容，向AI输入演讲主题概要，AI协助构建了框架结构，随后再进行内容填充。

AI在英语写作方面展现出卓越能力。对于非英语母语的国外工作者而言，英语写作在AI出现前一直是明显短板：撰写博士论文时，之前会专门聘请编辑协助修改，而现在这类任务可以交由AI完成。AI能使文章达到信、达、雅的标准。

此外，AI可以指导我们如何更有效地与上下级沟通、开展团队协作。在数据科学领域，有许多优秀数据科学家都属于内向型人格(INTJ)。这类人群的技术能力(technical skills)通常优于人际交往能力(people skills)，不擅长与他人沟通。AI发展的这几年中，利用AI指导人际沟通有助于提升职场软技能。例如，需要向上级反映问题时，可以向AI学习表达得更有理有据，甚至会预测上级可能的回应并帮助准备应对策略。

数据科学家需要持续跟进最新研究成果，保持终身学习，AI在这方面也提供了帮助。AI能够概括文献主要内容，使用时先了解AI的总结，再深入阅读感兴趣的部分。

然而，若让AI进行文献综述，效果仅能达到及格水平。虽然AI能涵盖一些重要文献，但对领域熟悉的人会发现其总结并不全面。

AI还可以将文献中的新方法转化为代码。常见情况是，统计学新方法的作者仅在论文中提供算法描述而无具体代码，此时可请AI协助编写代码。值得注意的是，AI处理多步骤的复杂任务时容易出错，因此不能完全依赖AI。必须真正理解方法背后的逻辑，协助AI调试。

在知识问答方面，AI对成熟概念的总结相当出色，但对前沿概念的解释可能存在不准确之处。

AI的局限、人机协作及职业发展思考

1. AI的局限性

通过对多种AI应用的探讨，可以看出AI仍存在诸多局限：

AI常表现出“懂王”倾向，提供看似合理但实际可能有误的答案，需要专业人士进行判断。若使用者对相关领域毫无了解，盲目采纳AI建议而不理解其原理，容易被误导。

AI难以处理复杂的多步骤问题，往往顾此失彼。每个步骤都需要具备专业技能的人员仔细评估。实践中应避免将复杂内容直接交给AI处理，而应将问题分解为小步骤。与AI协作类似于指导实习生，需要提供清晰简单的指令。

AI倾向于总结现有思路，缺乏创新能力，大致相当于大学生水平，而非博士层次。人类专家更善于综合各种方法提出复合性创新解决方案。例如，本次峰会上的诸多演讲都基于专家创新，这不是AI能简单完成的。

此外还存在隐私问题，企业应限制员工使用公开AI平台，设置公司专用AI系统，禁止上传数据至大语言模型后台，以确保商业资料安全。

AI对前沿知识的了解也较为有限，对数据科学家而言，最关键的环节是将商业问题转化为数据科学问题。这方面AI可以提供头脑风暴辅助，但无法全面思考或提供创新思路。

2.人机协作与职业发展

关于AI时代的职业思考，AI与数据科学家仍是互补关系：

确实有一些低端数据分析工作正在被AI取代，例如ChatGPT的Advanced Data Analysis工具已能胜任简单的数据分析工作。但如前所述，AI有诸多局限，目前难以取代真正的专业技术人员。专家可利用AI提高工作效率，形成"强者通吃"格局——数据科学家若具备创新能力，且可以熟练使用AI，其职场价值将更高。

最近一项有趣的中国经济学家研究发现，与AI互补的岗位变得更加内卷，工作效率提高但工作时间增加，员工满意度降低。积极方面是这些岗位的收入相对于非AI互补岗位有所增加。这反映了AI使专业技术人员更全能，形成赢家通吃的局面。

AI时代企业招聘需与时俱进，在评估人才能力时，应从考察编码能力转向评估代码逻辑理解、AI协作、识别AI错误及调试的能力。同时，从考察浅层知识转向评估深层理解，考察候选人是否关注前沿方法，是否具备将商业问题转换为数据科学问题的能力，以及结合不同方法进行创新的能力。

对于数据科学家，终身学习至关重要。我们需要追求前沿知识，善用AI成为全栈发展的数据科学家。在利用AI提高数据科学素养的同时，也可向AI学习，提升职场软技能，同时提高自身的数据科学专业能力和沟通交流能力。

Q&A

Q1：在结构化数据的小样本建模中，将结构化数据XML或JSON化后送入大语言模型(LM)，通过提示词优化或参数高效微调(PEFT)进行分类建模，与传统机器学习(ML)建模的差距有多大？有相关的论文研究吗？

A1：我没有细读相关的研究文献，但可能存在一些相关研究。对于结构化数据，我确实没有实践经验。不过对于非结构化数据，人工智能模型能够达到较高的准确度。不一定需要将其输入大语言模型(LLM)进行处理，您可以尝试一些深度学习方法，但实际应用需视具体情况而定。根据我的经验，如果数据结构非常规范清晰，在许多情况下，基于树的模型(tree-based models)可能比深度学习模型表现更优，并且计算成本更低。

Q2：小样本数据可以考虑谷歌开源的预训练模型，据说效果不错，您尝试过吗？

A2：是的，我使用的正是谷歌的开源模型，效果确实很好。但如我之前所提到的例子，当数据量非常大时，处理速度会显著降低。对于几万条数据，可能30分钟内能完成处理，但若尝试用谷歌开源模型处理几千万条数据，则效率极低。因此我建议结合关键词搜索和语义搜索的方法，先通过关键词筛选缩小样本规模，然后再交由谷歌模型处理。

Q3：对于数据质量有什么好的评估方式？设计数据一直是痛点。

A3：这个问题与AI关联度不高。数据质量评估方法取决于具体数据类型，不同类型的数据有不同的质量衡量标准。不过，确实可以利用AI提高部分数据质量，例如我之前提到的分类编码(category code)中存在的乱码、空格或拼写错误(typo)等问题，可以让AI协助改进这些部分。

Q4：有什么垂直领域(垂类)大模型的评估体系？特定行业的模型，例如医学、金融等领域的专业模型。

A4：这实际上是我之前提到的从预训练通用模型到专业模型的转化。专业模型需要特定领域知识进行训练，以提高其在该领域的表现。

以上就是本次分享的内容，谢谢大家。

欢迎光临链载Ai (https://www.lianzai.com/)