链载Ai

标题: 数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: 数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读随着人工智能技术的迅猛发展,特别是大语言模型的爆发式增长,AI 已经开始深入影响数据科学工作的各个方面。本文将由 Snap 公司 Core Data Science 组数据科学家徐萌老师,从数据科学家的日常工作出发,探讨如何利用 AI 技术优化数据处理流程、提供工作效率,并思考 AI 时代的职业发展路径。

主要内容包括:


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">1.背景介绍

2.AI 在数据收集和清理中的应用

3.AI 在建模中的应用

4.AI 提高数据科学工作效率的其他应用

5.AI 的局限、人机协作及职业发展思考

6.Q&A

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">分享嘉宾|徐萌 Snap Inc. Tech lead of core data science

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">编辑整理|旭锋

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">内容校对|李瑶

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">出品社区|DataFun


01


背景介绍


1.数据科学家的核心工作模块


数据科学家的核心工作模块包括以下内容:


当拿到一个商业问题时,首先需要考虑的是如何将其转化为描述性问题、预测性问题或因果推论问题。确定问题类型后,还需选择具体的方法,例如对于因果推论问题,需要思考是通过实验回答,还是依赖观测性数据。最后选择对应方法。这一步在数据科学工作中至关重要。


接下来,数据科学家需要收集和清理数据,然后用统计和机器学习方法进行建模。


分析完成后,通常需要借助可视化方法和沟通技巧,将结论与决策层进行有效沟通。因为决策层可能缺乏专业的数据科学背景。代码实现贯穿所有步骤。


2.人工智能的基本概念


在讨论AI应用之前,有必要明确几个核心概念:


这三者代表了人工智能的不同层面:深度学习是模型基础,生成式AI是深度学习的一种应用,大语言模型则是生成式AI在文本领域的代表。


02


AI在数据收集和清理中的应用


1.文本向量表示


文本向量表示(Text Embedding)是将文字转化为向量,即把文字数字化,使计算机能处理自然语言中的语义信息。


文本向量化发展经历了从稀疏向量到稠密向量的演变:


Google BQML中的Text Embedding功能简单易用,只需一行代码就能将文本转换为768维向量。例如,将"我爱猫"转换为向量,如果改为英文"I love cat",结果会非常相似,表明这种转换基于文本含义而非文本本身。


2.利用向量距离量化文本相似度


将文本转换为向量后,可以通过计算向量距离来量化文本相似度。最简单的方法是点乘法,通过计算两个向量的点积来衡量相似度。


例如,在品牌相似度计算中,我们可以使用Google Text Embedding模型结合点乘法来计算品牌之间的距离:


3.预训练模型与微调模型


使用大语言模型时,我们通常会用到两种类型的模型:


预训练模型可比作不偏科的高中学霸,全面发展且有潜质;微调模型则让这位全能高中毕业生进一步学习特定专业知识。


微调的必要性体现在向量表示对场景和语境的依赖上。例如,"一种新的苹果产品"在科技新闻推荐系统中指的是苹果公司产品(iPhone、MacBook等),而在水果电商客服对话中指的是水果。预训练模型只能学到平均意义,无法准确判断特定语境,需要微调来适应。


微调模型的基本步骤包括:


Python库sentence-transformers提供了常见预训练模型和选择损失函数的指南,值得推荐。


4.语义搜索


语义搜索使用AI或自然语言处理来理解搜索查询背后的含义,从内容含义上进行匹配。相比传统关键词搜索,语义搜索更加智能,不仅匹配关键词,还匹配内容含义。


例如,搜索"如何让广告更有效"时,传统关键词搜索会查找包含"广告"、"有效"等词的内容,可能包含许多不相关信息。而语义搜索则理解用户想了解提高广告效率的方法,会搜索相关内容,即使这些内容中没有这些关键词。


语义搜索实现步骤:


语义搜索常用于搜索引擎、问答机器人等场景。在数据科学中,可用于推荐系统,根据用户喜好搜索意思相近的内容。


在实际应用中,亚马逊已从关键词搜索升级到语义搜索:以前搜索“quality”会显示所有包含该词的评论并加粗该词;现在则显示所有讨论产品质量的评论,即使评论中没有“quality”关键词,AI也会从相关评论中提炼产品质量总结。


关键词搜索并非毫无价值,它简单高效,适合大数据量快速检索。而语义搜索虽然更准确,但计算成本高,对每条内容逐一进行向量转换在商业实践中会很昂贵。实践中可先用关键词搜索缩小范围,再用语义搜索排除不相关内容。


5.利用生成式AI进行文本分类


除了传统机器学习分类和基于语义搜索的分类外,还可以利用生成式AI进行文本分类:


以从标签中找出指代具体品牌的标签为例,语义搜索分类步骤为:


生成式AI分类表现更佳,但需要尝试不同提示词(prompt)。以下是几种提示词的效果对比:


Google BQML提供了简单的代码实现方式,只需编写SQL调用标签、给出提示词,并调用Google内建生成式AI模型,即可完成文本分类。


文本分类的一些经验总结:


03


AI在建模中的应用


将向量表示转为模型特征:


1.机器学习模型


2.因果推论模型


3.推荐系统模型


将向量表示作为新特征有两个主要优势:一是将内容深层含义数字化,便于模型处理;二是生成稠密向量,维度较低,便于后续模型处理。


04


AI提高数据科学工作效率的其他应用


1.代码编写与处理


AI在代码方面的应用表现视任务复杂度而定:


AI在代码方面的其他有用应用:


2.数据可视化


AI在数据可视化方面表现出色,可以根据自然语言描述生成R或Python的绘图代码。对AI而言,绘图是相对简单直接的任务,能创建美观、符合要求的图表。


3.写作与沟通


比如今天的分享内容,向AI输入演讲主题概要,AI协助构建了框架结构,随后再进行内容填充。


AI在英语写作方面展现出卓越能力。对于非英语母语的国外工作者而言,英语写作在AI出现前一直是明显短板:撰写博士论文时,之前会专门聘请编辑协助修改,而现在这类任务可以交由AI完成。AI能使文章达到信、达、雅的标准。


此外,AI可以指导我们如何更有效地与上下级沟通、开展团队协作。在数据科学领域,有许多优秀数据科学家都属于内向型人格(INTJ)。这类人群的技术能力(technical skills)通常优于人际交往能力(people skills),不擅长与他人沟通。AI发展的这几年中,利用AI指导人际沟通有助于提升职场软技能。例如,需要向上级反映问题时,可以向AI学习表达得更有理有据,甚至会预测上级可能的回应并帮助准备应对策略。


数据科学家需要持续跟进最新研究成果,保持终身学习,AI在这方面也提供了帮助。AI能够概括文献主要内容,使用时先了解AI的总结,再深入阅读感兴趣的部分。


然而,若让AI进行文献综述,效果仅能达到及格水平。虽然AI能涵盖一些重要文献,但对领域熟悉的人会发现其总结并不全面。


AI还可以将文献中的新方法转化为代码。常见情况是,统计学新方法的作者仅在论文中提供算法描述而无具体代码,此时可请AI协助编写代码。值得注意的是,AI处理多步骤的复杂任务时容易出错,因此不能完全依赖AI。必须真正理解方法背后的逻辑,协助AI调试。


在知识问答方面,AI对成熟概念的总结相当出色,但对前沿概念的解释可能存在不准确之处。


05


AI的局限、人机协作及职业发展思考

1. AI的局限性


通过对多种AI应用的探讨,可以看出AI仍存在诸多局限:


AI常表现出“懂王”倾向,提供看似合理但实际可能有误的答案,需要专业人士进行判断。若使用者对相关领域毫无了解,盲目采纳AI建议而不理解其原理,容易被误导。


AI难以处理复杂的多步骤问题,往往顾此失彼。每个步骤都需要具备专业技能的人员仔细评估。实践中应避免将复杂内容直接交给AI处理,而应将问题分解为小步骤。与AI协作类似于指导实习生,需要提供清晰简单的指令。


AI倾向于总结现有思路,缺乏创新能力,大致相当于大学生水平,而非博士层次。人类专家更善于综合各种方法提出复合性创新解决方案。例如,本次峰会上的诸多演讲都基于专家创新,这不是AI能简单完成的。


此外还存在隐私问题,企业应限制员工使用公开AI平台,设置公司专用AI系统,禁止上传数据至大语言模型后台,以确保商业资料安全。


AI对前沿知识的了解也较为有限,对数据科学家而言,最关键的环节是将商业问题转化为数据科学问题。这方面AI可以提供头脑风暴辅助,但无法全面思考或提供创新思路。

2.人机协作与职业发展


关于AI时代的职业思考,AI与数据科学家仍是互补关系:


确实有一些低端数据分析工作正在被AI取代,例如ChatGPT的Advanced Data Analysis工具已能胜任简单的数据分析工作。但如前所述,AI有诸多局限,目前难以取代真正的专业技术人员。专家可利用AI提高工作效率,形成"强者通吃"格局——数据科学家若具备创新能力,且可以熟练使用AI,其职场价值将更高。


最近一项有趣的中国经济学家研究发现,与AI互补的岗位变得更加内卷,工作效率提高但工作时间增加,员工满意度降低。积极方面是这些岗位的收入相对于非AI互补岗位有所增加。这反映了AI使专业技术人员更全能,形成赢家通吃的局面。


AI时代企业招聘需与时俱进,在评估人才能力时,应从考察编码能力转向评估代码逻辑理解、AI协作、识别AI错误及调试的能力。同时,从考察浅层知识转向评估深层理解,考察候选人是否关注前沿方法,是否具备将商业问题转换为数据科学问题的能力,以及结合不同方法进行创新的能力。


对于数据科学家,终身学习至关重要。我们需要追求前沿知识,善用AI成为全栈发展的数据科学家。在利用AI提高数据科学素养的同时,也可向AI学习,提升职场软技能,同时提高自身的数据科学专业能力和沟通交流能力。


06


Q&A


Q1:在结构化数据的小样本建模中,将结构化数据XML或JSON化后送入大语言模型(LM),通过提示词优化或参数高效微调(PEFT)进行分类建模,与传统机器学习(ML)建模的差距有多大?有相关的论文研究吗?


A1:我没有细读相关的研究文献,但可能存在一些相关研究。对于结构化数据,我确实没有实践经验。不过对于非结构化数据,人工智能模型能够达到较高的准确度。不一定需要将其输入大语言模型(LLM)进行处理,您可以尝试一些深度学习方法,但实际应用需视具体情况而定。根据我的经验,如果数据结构非常规范清晰,在许多情况下,基于树的模型(tree-based models)可能比深度学习模型表现更优,并且计算成本更低。


Q2:小样本数据可以考虑谷歌开源的预训练模型,据说效果不错,您尝试过吗?


A2:是的,我使用的正是谷歌的开源模型,效果确实很好。但如我之前所提到的例子,当数据量非常大时,处理速度会显著降低。对于几万条数据,可能30分钟内能完成处理,但若尝试用谷歌开源模型处理几千万条数据,则效率极低。因此我建议结合关键词搜索和语义搜索的方法,先通过关键词筛选缩小样本规模,然后再交由谷歌模型处理。


Q3:对于数据质量有什么好的评估方式?设计数据一直是痛点。


A3:这个问题与AI关联度不高。数据质量评估方法取决于具体数据类型,不同类型的数据有不同的质量衡量标准。不过,确实可以利用AI提高部分数据质量,例如我之前提到的分类编码(category code)中存在的乱码、空格或拼写错误(typo)等问题,可以让AI协助改进这些部分。


Q4:有什么垂直领域(垂类)大模型的评估体系?特定行业的模型,例如医学、金融等领域的专业模型。


A4:这实际上是我之前提到的从预训练通用模型到专业模型的转化。专业模型需要特定领域知识进行训练,以提高其在该领域的表现。

以上就是本次分享的内容,谢谢大家。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5