2.AI 在数据收集和清理中的应用
3.AI 在建模中的应用
4.AI 提高数据科学工作效率的其他应用
5.AI 的局限、人机协作及职业发展思考
6.Q&A
01
背景介绍
1.数据科学家的核心工作模块
数据科学家的核心工作模块包括以下内容:
当拿到一个商业问题时,首先需要考虑的是如何将其转化为描述性问题、预测性问题或因果推论问题。确定问题类型后,还需选择具体的方法,例如对于因果推论问题,需要思考是通过实验回答,还是依赖观测性数据。最后选择对应方法。这一步在数据科学工作中至关重要。
接下来,数据科学家需要收集和清理数据,然后用统计和机器学习方法进行建模。
分析完成后,通常需要借助可视化方法和沟通技巧,将结论与决策层进行有效沟通。因为决策层可能缺乏专业的数据科学背景。代码实现贯穿所有步骤。
2.人工智能的基本概念
在讨论AI应用之前,有必要明确几个核心概念:
这三者代表了人工智能的不同层面:深度学习是模型基础,生成式AI是深度学习的一种应用,大语言模型则是生成式AI在文本领域的代表。
02
AI在数据收集和清理中的应用
1.文本向量表示
文本向量表示(Text Embedding)是将文字转化为向量,即把文字数字化,使计算机能处理自然语言中的语义信息。
文本向量化发展经历了从稀疏向量到稠密向量的演变:
稀疏向量表示:前AI时代的常见做法,直接将词汇转换为数字,不考虑词汇含义或上下文,通常生成包含大量零的长向量。
稠密向量表示:在深度学习和AI时代,使用几百维的稠密连续数字向量来表示文本含义,而非仅仅表示单个词汇。
Google BQML中的Text Embedding功能简单易用,只需一行代码就能将文本转换为768维向量。例如,将"我爱猫"转换为向量,如果改为英文"I love cat",结果会非常相似,表明这种转换基于文本含义而非文本本身。
2.利用向量距离量化文本相似度
将文本转换为向量后,可以通过计算向量距离来量化文本相似度。最简单的方法是点乘法,通过计算两个向量的点积来衡量相似度。
例如,在品牌相似度计算中,我们可以使用Google Text Embedding模型结合点乘法来计算品牌之间的距离:
丰田(Toyota)和本田(Honda)都是传统日本车品牌,相似度为0.59
丰田与特斯拉(Tesla)的相似度为0.56,略低于与本田的相似度
丰田与运动品牌Lululemon的相似度仅为0.4
丰田与饮料品牌可口可乐的相似度仅为0.42
耐克与Lululemon同为运动品牌,相似度为0.554
3.预训练模型与微调模型
使用大语言模型时,我们通常会用到两种类型的模型:
预训练模型:在大规模数据集上提前训练的模型,分为预训练语言理解模型(将语言转换为向量,如Bert)和预训练语言生成模型(如GPT系列,这类模型优势在于即取即用,基于海量人类语言训练,通用性强)。
微调模型:在预训练模型基础上,使用特定任务数据继续训练的模型。它在特定需求上更准确,适合用户情感分析、企业私有知识问答、多语言适配等场景。
预训练模型可比作不偏科的高中学霸,全面发展且有潜质;微调模型则让这位全能高中毕业生进一步学习特定专业知识。
微调的必要性体现在向量表示对场景和语境的依赖上。例如,"一种新的苹果产品"在科技新闻推荐系统中指的是苹果公司产品(iPhone、MacBook等),而在水果电商客服对话中指的是水果。预训练模型只能学到平均意义,无法准确判断特定语境,需要微调来适应。
微调模型的基本步骤包括:
Python库sentence-transformers提供了常见预训练模型和选择损失函数的指南,值得推荐。
4.语义搜索
语义搜索使用AI或自然语言处理来理解搜索查询背后的含义,从内容含义上进行匹配。相比传统关键词搜索,语义搜索更加智能,不仅匹配关键词,还匹配内容含义。
例如,搜索"如何让广告更有效"时,传统关键词搜索会查找包含"广告"、"有效"等词的内容,可能包含许多不相关信息。而语义搜索则理解用户想了解提高广告效率的方法,会搜索相关内容,即使这些内容中没有这些关键词。
语义搜索实现步骤:
语义搜索常用于搜索引擎、问答机器人等场景。在数据科学中,可用于推荐系统,根据用户喜好搜索意思相近的内容。
在实际应用中,亚马逊已从关键词搜索升级到语义搜索:以前搜索“quality”会显示所有包含该词的评论并加粗该词;现在则显示所有讨论产品质量的评论,即使评论中没有“quality”关键词,AI也会从相关评论中提炼产品质量总结。
关键词搜索并非毫无价值,它简单高效,适合大数据量快速检索。而语义搜索虽然更准确,但计算成本高,对每条内容逐一进行向量转换在商业实践中会很昂贵。实践中可先用关键词搜索缩小范围,再用语义搜索排除不相关内容。
5.利用生成式AI进行文本分类
除了传统机器学习分类和基于语义搜索的分类外,还可以利用生成式AI进行文本分类:
生成式AI分类表现更佳,但需要尝试不同提示词(prompt)。以下是几种提示词的效果对比:
初始提示词:“Is the following tag a brand name? The tag is X.”(AI不直接回答问题,而是解释一番)
改进提示词:“Is the following tag a brand name? The tag is X. Only answer yes or no.”(结果仍不满意,AI会将类似“yogurt”这种指代具体事物但非特定品牌的标签归类为品牌)
最佳提示词:加入具体例子,如“Yogurt is not a brand, but Nike is a brand.”(在测试数据上表现极佳,准确识别所有品牌)
Google BQML提供了简单的代码实现方式,只需编写SQL调用标签、给出提示词,并调用Google内建生成式AI模型,即可完成文本分类。
文本分类的一些经验总结:
GPT-4o和GPT-4比GPT-4 Turbo表现稍微好一些。GPT-4o mini表现更差。Claude比GPT表现差
只有解码器的语言理解模型(如BERT)比包含解码器和编码器的语言生成模型计算更便宜高效
03
AI在建模中的应用
将向量表示转为模型特征:
1.机器学习模型
将文本、图像、视频直接转化为向量表示,作为新特征加入机器学习模型
使用生成式AI的文本分类结果作为预测性更强的特征
2.因果推论模型
利用向量表示计算的内容相似度作为特征(如计算广告与内容相似度,研究相似度如何影响广告表现)
3.推荐系统模型
将用户评价和物品描述转化为向量表示,分别作为用户特征和物品特征;
将向量表示作为新特征有两个主要优势:一是将内容深层含义数字化,便于模型处理;二是生成稠密向量,维度较低,便于后续模型处理。
让AI建议基于现有特征生成新特征
利用 AI 从日期判断节假日
让 AI 帮助计算特征间的比值(特别适用于需要提高线性模型解释性的场景)
使用AI清洗离散变量,修正空格、乱码、打字错误等问题
利用自然语言让AI判断缺失值、多重共线性、数据重复等问题
04
AI提高数据科学工作效率的其他应用
1.代码编写与处理
AI在代码方面的应用表现视任务复杂度而定:
对于简单直接的任务,AI表现相当出色
对于步骤多、复杂的任务,AI容易出错,需要不断调整提示词;需要专业知识帮助AI调试,确保代码逻辑正确
有时AI会固执地输出错误代码,此时应放弃使用AI
AI在代码方面的其他有用应用:
2.数据可视化
AI在数据可视化方面表现出色,可以根据自然语言描述生成R或Python的绘图代码。对AI而言,绘图是相对简单直接的任务,能创建美观、符合要求的图表。
3.写作与沟通
比如今天的分享内容,向AI输入演讲主题概要,AI协助构建了框架结构,随后再进行内容填充。
AI在英语写作方面展现出卓越能力。对于非英语母语的国外工作者而言,英语写作在AI出现前一直是明显短板:撰写博士论文时,之前会专门聘请编辑协助修改,而现在这类任务可以交由AI完成。AI能使文章达到信、达、雅的标准。
此外,AI可以指导我们如何更有效地与上下级沟通、开展团队协作。在数据科学领域,有许多优秀数据科学家都属于内向型人格(INTJ)。这类人群的技术能力(technical skills)通常优于人际交往能力(people skills),不擅长与他人沟通。AI发展的这几年中,利用AI指导人际沟通有助于提升职场软技能。例如,需要向上级反映问题时,可以向AI学习表达得更有理有据,甚至会预测上级可能的回应并帮助准备应对策略。
数据科学家需要持续跟进最新研究成果,保持终身学习,AI在这方面也提供了帮助。AI能够概括文献主要内容,使用时先了解AI的总结,再深入阅读感兴趣的部分。
然而,若让AI进行文献综述,效果仅能达到及格水平。虽然AI能涵盖一些重要文献,但对领域熟悉的人会发现其总结并不全面。
AI还可以将文献中的新方法转化为代码。常见情况是,统计学新方法的作者仅在论文中提供算法描述而无具体代码,此时可请AI协助编写代码。值得注意的是,AI处理多步骤的复杂任务时容易出错,因此不能完全依赖AI。必须真正理解方法背后的逻辑,协助AI调试。
在知识问答方面,AI对成熟概念的总结相当出色,但对前沿概念的解释可能存在不准确之处。
05
AI的局限、人机协作及职业发展思考
1. AI的局限性
通过对多种AI应用的探讨,可以看出AI仍存在诸多局限:
AI常表现出“懂王”倾向,提供看似合理但实际可能有误的答案,需要专业人士进行判断。若使用者对相关领域毫无了解,盲目采纳AI建议而不理解其原理,容易被误导。
AI难以处理复杂的多步骤问题,往往顾此失彼。每个步骤都需要具备专业技能的人员仔细评估。实践中应避免将复杂内容直接交给AI处理,而应将问题分解为小步骤。与AI协作类似于指导实习生,需要提供清晰简单的指令。
AI倾向于总结现有思路,缺乏创新能力,大致相当于大学生水平,而非博士层次。人类专家更善于综合各种方法提出复合性创新解决方案。例如,本次峰会上的诸多演讲都基于专家创新,这不是AI能简单完成的。
此外还存在隐私问题,企业应限制员工使用公开AI平台,设置公司专用AI系统,禁止上传数据至大语言模型后台,以确保商业资料安全。
AI对前沿知识的了解也较为有限,对数据科学家而言,最关键的环节是将商业问题转化为数据科学问题。这方面AI可以提供头脑风暴辅助,但无法全面思考或提供创新思路。
2.人机协作与职业发展
关于AI时代的职业思考,AI与数据科学家仍是互补关系:
确实有一些低端数据分析工作正在被AI取代,例如ChatGPT的Advanced Data Analysis工具已能胜任简单的数据分析工作。但如前所述,AI有诸多局限,目前难以取代真正的专业技术人员。专家可利用AI提高工作效率,形成"强者通吃"格局——数据科学家若具备创新能力,且可以熟练使用AI,其职场价值将更高。
最近一项有趣的中国经济学家研究发现,与AI互补的岗位变得更加内卷,工作效率提高但工作时间增加,员工满意度降低。积极方面是这些岗位的收入相对于非AI互补岗位有所增加。这反映了AI使专业技术人员更全能,形成赢家通吃的局面。
AI时代企业招聘需与时俱进,在评估人才能力时,应从考察编码能力转向评估代码逻辑理解、AI协作、识别AI错误及调试的能力。同时,从考察浅层知识转向评估深层理解,考察候选人是否关注前沿方法,是否具备将商业问题转换为数据科学问题的能力,以及结合不同方法进行创新的能力。
对于数据科学家,终身学习至关重要。我们需要追求前沿知识,善用AI成为全栈发展的数据科学家。在利用AI提高数据科学素养的同时,也可向AI学习,提升职场软技能,同时提高自身的数据科学专业能力和沟通交流能力。
06
Q&A
Q1:在结构化数据的小样本建模中,将结构化数据XML或JSON化后送入大语言模型(LM),通过提示词优化或参数高效微调(PEFT)进行分类建模,与传统机器学习(ML)建模的差距有多大?有相关的论文研究吗?
A1:我没有细读相关的研究文献,但可能存在一些相关研究。对于结构化数据,我确实没有实践经验。不过对于非结构化数据,人工智能模型能够达到较高的准确度。不一定需要将其输入大语言模型(LLM)进行处理,您可以尝试一些深度学习方法,但实际应用需视具体情况而定。根据我的经验,如果数据结构非常规范清晰,在许多情况下,基于树的模型(tree-based models)可能比深度学习模型表现更优,并且计算成本更低。
Q2:小样本数据可以考虑谷歌开源的预训练模型,据说效果不错,您尝试过吗?
A2:是的,我使用的正是谷歌的开源模型,效果确实很好。但如我之前所提到的例子,当数据量非常大时,处理速度会显著降低。对于几万条数据,可能30分钟内能完成处理,但若尝试用谷歌开源模型处理几千万条数据,则效率极低。因此我建议结合关键词搜索和语义搜索的方法,先通过关键词筛选缩小样本规模,然后再交由谷歌模型处理。
Q3:对于数据质量有什么好的评估方式?设计数据一直是痛点。
A3:这个问题与AI关联度不高。数据质量评估方法取决于具体数据类型,不同类型的数据有不同的质量衡量标准。不过,确实可以利用AI提高部分数据质量,例如我之前提到的分类编码(category code)中存在的乱码、空格或拼写错误(typo)等问题,可以让AI协助改进这些部分。
Q4:有什么垂直领域(垂类)大模型的评估体系?特定行业的模型,例如医学、金融等领域的专业模型。
A4:这实际上是我之前提到的从预训练通用模型到专业模型的转化。专业模型需要特定领域知识进行训练,以提高其在该领域的表现。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |