2.人工智能的发展
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">3.大数据的应用ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">4.生成式 AI 的突破ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">5. 大模型的优缺点ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">6. 大模型在产业中的应用ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">7. 大模型的未来和市场潜力出品社区|DataFun
01
窦德景教授作为复旦大学计算机学院特聘教授、北电数智首席科学家及清华大学电子工程系兼职教授,凭借在人工智能领域的深厚研究与丰富实践经验,创立复旦大学数据智能实验室,致力于推动大数据与人工智能的前沿研究与应用落地。
发展历程:从2010年大数据热潮,数据量从2009年0.8泽字节到2020年35泽字节,增长44倍,呈指数级增长,且数据种类多样,包括关系型、文本、半结构化等数据,生成与处理速度快;到2022年大模型兴起,生成式AI如ChatGPT快速发展,5天获100万用户,不到两个月达1亿用户。
两者关系:大数据是人工智能发展的基础,为AI模型提供海量训练数据;人工智能则通过算法和模型挖掘大数据价值,推动大数据深度应用,两者相互促进,共同发展。
窦教授曾经作为一年级博士生参加了耶鲁大学2000年的Robocup团队,负责主机和机器人之间的无线通讯,由此深入接触人工智能在机器人领域的应用,开启了在人工智能领域的探索之旅。
2016年AlphaGo击败围棋世界冠军李世石,因围棋游戏树复杂度高,传统暴力搜索困难,AlphaGo的成功标志着人工智能在复杂策略游戏领域的重大突破;2017年AlphaGo Zero从零开始训练,进一步展现了AI的自主学习能力。
图灵1950年提出图灵测试,“机器能智能地行为吗”,智能行为运行测试为模拟游戏,预计到2000年机器有30%机会和人聊天5分钟不被发现,GPT4.5在2025年通过,人工智能的目标是实现像人一样的智能行为,包括知识、推理、语言理解和学习等AI主要组成部分。
Volume(体积):数据量从2009年0.8泽字节到2020年增至35泽字节,增长44倍,呈指数级增长,如Twitter每日推文量等。
Variety(种类):包括关系型数据、文本数据、半结构化数据、图形数据、流动数据等,需链接整合以提取知识。
Velocity(速度):数据生成和处理速度快,如电子促销、健康监测、信用卡欺诈监测、引力波监测等场景需快速反应。
百度利用动态时空大数据和互联网大数据,感知城市变化规律,基于海量用户网络行为数据和人工智能技术,动态精确细粒度刻画区域人口分布、结构和属性分布,为城市服务和政务决策提供参考。
幸福城市评比:构建城市幸福感指数框架,包含居民收入、生活品质、文体休闲水平等多维度,量化分析城市居民幸福感。
高风险小区预测:结合多模态学习和迁移学习技术,实现对城市新冠肺炎感染高风险小区的识别,定位成因并采取优化措施。
风功率预测:百度研究院和龙源合作,主办KDD Cup 2022 “空间动态风功率预测挑战”,解决风电不确定性和波动性问题。
2022年底以ChatGPT为代表的生成式AI受到极大关注,其搜索趋势在四个月飙升五倍,核心是2017年出现的Transformer技术及基于此的大规模预训练技术,引入强化学习算法,如RLHF,让模型从人类反馈中学习,提升对话质量。
早期对话机器人基于数据库或知识库查询,后发展为通过机器学习生成答复,如2014年Seq2Seq模型,而生成式AI能理解上下文,拟人化思考和回答问题,实现多轮对话,如ChatGPT可生成多达4096个token,约3072个单词。
预训练模型如GPT-3利用上万亿语料完成预训练,参数量达1750亿,再针对对话任务用小规模标注数据微调,形成可部署应用的模型,如GPT-3.5针对对话场景微调,参数达2000亿,强化学习算法RLHF通过人类反馈筛选对话结果训练奖励模型,提升模型性能。
参数数量:参数达千亿/万亿量级,如GPT-3有1750亿参数,GPT-4有1万亿参数,大规模参数带来“涌现”特征,具备更强的处理复杂问题能力。
处理复杂问题:能处理自然对话生成、文本生成(摘要、扩写等)、全知识领域应用、代码项目自动生成测试、一定推理能力及生成创意内容等复杂任务。
无需标注数据:采用无监督学习,训练数据规模可达万亿条,减少数据标注成本。
算力成本:训练需超强算力支持,如英伟达A100 GPU显卡,支持几千块最强GPU同时运行训练,成本高昂。
时间成本:训练过程复杂,耗时较长,如传统方法训练AI模型可能需要数年,而生成式AI在生物制药领域21天内识别候选药物,相比传统方法大幅缩短时间,但大模型自身训练仍需较长时间。
DeepSeek等优化模型出现,如DeepSeek-R1采用纯强化学习训练,无需监督微调,节省30%计算资源,DeepSeekMoE混合专家模型降低计算成本,提升模型效率,这些模型在提高生产效率方面潜力巨大,如软件开发者称生成式AI编程助手提高工作效率约88%。
社保机器人:采用开源模型精调,基于企业1680条社保/公积金政策数据精调清华ChatGLM-6B模型,显著提升社保政策智能问答准确性,内容与企业人工标注几乎一致,输出格式统一,逻辑严密。
业务话术稽核:调用商用大模型和优化提示工程,在700 +话术数据集上,大模型在违规、骚扰和告警话术识别准确率大幅提升,如违规判断真实标签数70,原有方法命中3个,大模型命中61个。
保险销售智能助手:基于开源模型实现在线销售智能助手原型,可从客户聊天记录提取信息、推荐保险类型、查询条款并对比,如为55岁年收入100万的公司创始人马龙推荐家族财富传承保险、子女教育保险等。
生成式AI在各行业应用提升效率、降低成本,如金融领域欺诈检测准确率达98%,消费领域零售商客户转化率提高1.5倍,保险领域客服成本降幅达30%。
采用大模型实现虚拟医生原型,模拟各种人设医生,与医药代表一对一对话完成培训并自动评估效果,如模拟医生与医药代表关于诺和泰和度易达降糖效果的对话,提升培训效率和质量。
更多应用场景:将覆盖政务、先进制造、交通、医疗、传媒、教育等更多领域,如北京某委办局政策大模型、某国家级医院医疗大模型等。
更优化的模型:如DeepSeek通过优化算法架构,提升算力利用效率,降低训练与推理成本,未来模型将更高效、更精准。
生成式AI:企业纷纷投入开发解决方案,如金山办公、阿里云等,商业应用创新大幅提升生产效率,市场规模快速增长。
Agent:AI Agent是10倍于SaaS的超级市场,未来将在各行业发挥重要作用。
Physical AI:具身智能机器人、自动驾驶汽车等对实时推理有极高要求,带动算力需求指数级增长,如2020年到2030年全球算力规模将增加4000倍。
DeepSeek等优化模型通过技术创新,如R1-Zero纯强化学习训练、MLA多头隐式注意力机制、PTX算子优化等,将大模型单位算力成本降低90%以上,提高推理效率,减少算力需求,推动AI技术降本,驱动算力与芯片需求激增,使垂类模型井喷发展,城市级AI底座需求井喷,产业应用迎来重大战略机遇。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |