返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

大数据和大模型时代的人工智能研究和应用

[复制链接]
链载Ai 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读窦德景教授在数据智能大会上分享了其加入复旦大学数据智能实验室的背景,探讨了大数据与人工智能的发展历程及两者关系,回顾人工智能历史及发展高潮,介绍大数据应用、生成式 AI 突破、大模型优缺点与产业应用,展望大模型未来与市场潜力,强调可信数据重要性,展现 AI 在各行业广泛应用及市场规模指数增长趋势。

主要内容包括以下几个部分:


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">1.个人背景与大数据人工智能见解

2.人工智能的发展

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">3.大数据的应用

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">4.生成式 AI 的突破

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">5. 大模型的优缺点

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">6. 大模型在产业中的应用

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">7. 大模型的未来和市场潜力

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">分享嘉宾|窦德景 复旦大学 特聘教授、北电数智首席科学家

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">编辑整理|吴

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">内容校对|李瑶

出品社区|DataFun


01



个人背景与大数据人工智能见解


1.加入复旦大学数据智能实验室背景


窦德景教授作为复旦大学计算机学院特聘教授、北电数智首席科学家及清华大学电子工程系兼职教授,凭借在人工智能领域的深厚研究与丰富实践经验,创立复旦大学数据智能实验室,致力于推动大数据与人工智能的前沿研究与应用落地。



2.大数据与人工智能发展历程及关系


发展历程:从2010年大数据热潮,数据量从2009年0.8泽字节到2020年35泽字节,增长44倍,呈指数级增长,且数据种类多样,包括关系型、文本、半结构化等数据,生成与处理速度快;到2022年大模型兴起,生成式AI如ChatGPT快速发展,5天获100万用户,不到两个月达1亿用户。



两者关系:大数据是人工智能发展的基础,为AI模型提供海量训练数据;人工智能则通过算法和模型挖掘大数据价值,推动大数据深度应用,两者相互促进,共同发展。



02


人工智能的发展


1.个人加入人工智能领域经历与耶鲁大学工作


窦教授曾经作为一年级博士生参加了耶鲁大学2000年的Robocup团队,负责主机和机器人之间的无线通讯,由此深入接触人工智能在机器人领域的应用,开启了在人工智能领域的探索之旅。



2.人工智能在围棋等复杂游戏中的突破


2016年AlphaGo击败围棋世界冠军李世石,因围棋游戏树复杂度高,传统暴力搜索困难,AlphaGo的成功标志着人工智能在复杂策略游戏领域的重大突破;2017年AlphaGo Zero从零开始训练,进一步展现了AI的自主学习能力。



3.图灵测试与人工智能目标


图灵1950年提出图灵测试,“机器能智能地行为吗”,智能行为运行测试为模拟游戏,预计到2000年机器有30%机会和人聊天5分钟不被发现,GPT4.5在2025年通过,人工智能的目标是实现像人一样的智能行为,包括知识、推理、语言理解和学习等AI主要组成部分。



03


大数据的应用


1.大数据的三个主要方面


Volume(体积):数据量从2009年0.8泽字节到2020年增至35泽字节,增长44倍,呈指数级增长,如Twitter每日推文量等。



Variety(种类):包括关系型数据、文本数据、半结构化数据、图形数据、流动数据等,需链接整合以提取知识。



Velocity(速度):数据生成和处理速度快,如电子促销、健康监测、信用卡欺诈监测、引力波监测等场景需快速反应。



2.百度在大数据领域的工作


百度利用动态时空大数据和互联网大数据,感知城市变化规律,基于海量用户网络行为数据和人工智能技术,动态精确细粒度刻画区域人口分布、结构和属性分布,为城市服务和政务决策提供参考。



3.具体案例


幸福城市评比:构建城市幸福感指数框架,包含居民收入、生活品质、文体休闲水平等多维度,量化分析城市居民幸福感。



高风险小区预测:结合多模态学习和迁移学习技术,实现对城市新冠肺炎感染高风险小区的识别,定位成因并采取优化措施。



风功率预测:百度研究院和龙源合作,主办KDD Cup 2022 “空间动态风功率预测挑战”,解决风电不确定性和波动性问题。



04


生成式AI的突破


1.生成式AI的最新突破


2022年底以ChatGPT为代表的生成式AI受到极大关注,其搜索趋势在四个月飙升五倍,核心是2017年出现的Transformer技术及基于此的大规模预训练技术,引入强化学习算法,如RLHF,让模型从人类反馈中学习,提升对话质量。



2.生成式AI通过上下文理解提高对话质量


早期对话机器人基于数据库或知识库查询,后发展为通过机器学习生成答复,如2014年Seq2Seq模型,而生成式AI能理解上下文,拟人化思考和回答问题,实现多轮对话,如ChatGPT可生成多达4096个token,约3072个单词。



3.预训练模型与微调和强化学习的重要性


预训练模型如GPT-3利用上万亿语料完成预训练,参数量达1750亿,再针对对话任务用小规模标注数据微调,形成可部署应用的模型,如GPT-3.5针对对话场景微调,参数达2000亿,强化学习算法RLHF通过人类反馈筛选对话结果训练奖励模型,提升模型性能。



05


大模型的优缺点


1.大模型的优势


参数数量:参数达千亿/万亿量级,如GPT-3有1750亿参数,GPT-4有1万亿参数,大规模参数带来“涌现”特征,具备更强的处理复杂问题能力。



处理复杂问题:能处理自然对话生成、文本生成(摘要、扩写等)、全知识领域应用、代码项目自动生成测试、一定推理能力及生成创意内容等复杂任务。



无需标注数据:采用无监督学习,训练数据规模可达万亿条,减少数据标注成本。



2.大模型的缺点


算力成本:训练需超强算力支持,如英伟达A100 GPU显卡,支持几千块最强GPU同时运行训练,成本高昂。



时间成本:训练过程复杂,耗时较长,如传统方法训练AI模型可能需要数年,而生成式AI在生物制药领域21天内识别候选药物,相比传统方法大幅缩短时间,但大模型自身训练仍需较长时间。



3.优化模型的出现及潜力


DeepSeek等优化模型出现,如DeepSeek-R1采用纯强化学习训练,无需监督微调,节省30%计算资源,DeepSeekMoE混合专家模型降低计算成本,提升模型效率,这些模型在提高生产效率方面潜力巨大,如软件开发者称生成式AI编程助手提高工作效率约88%。



06


大模型在产业中的应用


1.应用案例


社保机器人:采用开源模型精调,基于企业1680条社保/公积金政策数据精调清华ChatGLM-6B模型,显著提升社保政策智能问答准确性,内容与企业人工标注几乎一致,输出格式统一,逻辑严密。



业务话术稽核:调用商用大模型和优化提示工程,在700 +话术数据集上,大模型在违规、骚扰和告警话术识别准确率大幅提升,如违规判断真实标签数70,原有方法命中3个,大模型命中61个。



保险销售智能助手:基于开源模型实现在线销售智能助手原型,可从客户聊天记录提取信息、推荐保险类型、查询条款并对比,如为55岁年收入100万的公司创始人马龙推荐家族财富传承保险、子女教育保险等。



2.提高生产效率和降低成本潜力


生成式AI在各行业应用提升效率、降低成本,如金融领域欺诈检测准确率达98%,消费领域零售商客户转化率提高1.5倍,保险领域客服成本降幅达30%。



3.在医药代表培训中的应用


采用大模型实现虚拟医生原型,模拟各种人设医生,与医药代表一对一对话完成培训并自动评估效果,如模拟医生与医药代表关于诺和泰和度易达降糖效果的对话,提升培训效率和质量。



07


大模型的未来和市场潜力


1.未来发展趋势


更多应用场景:将覆盖政务、先进制造、交通、医疗、传媒、教育等更多领域,如北京某委办局政策大模型、某国家级医院医疗大模型等。



更优化的模型:如DeepSeek通过优化算法架构,提升算力利用效率,降低训练与推理成本,未来模型将更高效、更精准。



2.市场的指数增长潜力


生成式AI:企业纷纷投入开发解决方案,如金山办公、阿里云等,商业应用创新大幅提升生产效率,市场规模快速增长。



Agent:AI Agent是10倍于SaaS的超级市场,未来将在各行业发挥重要作用。



Physical AI:具身智能机器人、自动驾驶汽车等对实时推理有极高要求,带动算力需求指数级增长,如2020年到2030年全球算力规模将增加4000倍。



3.优化模型在提高推理效率和减少算力需求方面的优势


DeepSeek等优化模型通过技术创新,如R1-Zero纯强化学习训练、MLA多头隐式注意力机制、PTX算子优化等,将大模型单位算力成本降低90%以上,提高推理效率,减少算力需求,推动AI技术降本,驱动算力与芯片需求激增,使垂类模型井喷发展,城市级AI底座需求井喷,产业应用迎来重大战略机遇。

以上就是本次分享的内容,谢谢大家。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ