链载Ai

标题: 能思考、有记性、不插话,终于可以和AI好好聊天了!书生·浦语灵笔2.5-OL多模态实时交互大模型全面开源 [打印本页]

作者: 链载Ai    时间: 1 小时前
标题: 能思考、有记性、不插话,终于可以和AI好好聊天了!书生·浦语灵笔2.5-OL多模态实时交互大模型全面开源

2024年12月12日,上海AI实验室推出多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive),该模型可以通过视觉和听觉实时观察和理解外部世界,自动形成对观察到内容的长期记忆,并可通过语音与人类用户进行对话交谈,提供更自然的大模型交互体验。

书生·浦语灵笔首发于2023年10月,经过历次迭代,已具备图文理解、图文混合创作、超高分辨率图像分析、超长多模态上下文等多项能力,获得了开源社区的广泛关注和好评,全系列模型累计下载量超过200万次。

书生·浦语灵笔2.5-OL基于书生·浦语2.5大语言模型(InternLM 2.5)研发,采用了多模块通专融合的架构方案,通过多模态实时感知及记忆编码的快系统和多模态复杂推理大模型的慢系统协同,实现多模态实时交互功能。


书生·浦语灵笔2.5-OL的效果实测,展现了高质量的实时视频语音交互能力,不仅支持高精度的实时视觉感知和语音对话,还创新提出了多模态长期记忆的功能,可以准确回忆看过的内容。例如在演示视频中帮助用户找到遗忘在桌子上的矿泉水,并且回忆起桌子上还有盆栽。


技术报告地址:

https://arxiv.org/pdf/2412.09596

开源模型地址:

https://huggingface.co/internlm/internlm-xcomposer2d5-ol-7b

代码仓库地址:(文末点击阅读可直达,欢迎star)

https://github.com/InternLM/InternLM-XComposer/tree/main/InternLM-XComposer-2.5-OmniLive

在科幻电影畅想的未来世界中,AI助手发挥着辅助人类的重要作用,例如:《流浪地球》中的MOSS、《钢铁侠》中的J.A.R.V.I.S.等。这些AI助手不仅具有强大的知识和思考能力,还可以实时感知外部环境变化,记住观察到的事物细节,与人类自然对话交流,并适时地为人类提供实际帮助。
在现实应用中,具有实时视频语音交互功能的多模态大模型,可以让具身机器人、可穿戴智能硬件、移动设备更好地感知世界进而服务人类,具有广阔的应用前景。


书生·浦语灵笔2.5-OL支持实时视觉感知和语音对话,还创新地提出了多模态长期记忆的功能。通过分别设计多模态实时交互大模型中的感知、记忆和思考功能模块,可实现并发的世界感知、长短期记忆、多模态思考三项核心功能,并提供了完整的系统协同和集成方案。
目前,ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 1px;">书生·浦语灵笔2.5-OL已完全开源了模型参数、系统集成推理和前后端应用部署的全套方案,支持免费商用申请。
书生·浦语灵笔2.5-OL的整体架构和三个核心模块的具体设计如下:
  1. 感知模块:

    实时感知音频、视频输入,对音频信号进行语音识别和音频分类,对视觉信号抽取视觉特征:






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5