返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

SpeechLLM: 分析音频演讲者情感的大模型

[复制链接]
链载Ai 显示全部楼层 发表于 2 小时前 |阅读模式 打印 上一主题 下一主题

SpeechLLM 是一种多模态语言模型 (LLM),专门用于分析和预测对话中说话者的元数据。这种先进的模型集成了语音编码器,可将语音信号转换为有意义的语音表示。这些嵌入与文本指令相结合,然后由 LLM 处理以生成预测。

该模型输入16 KHz的语音音频文件,并预测以下内容:

  1. SpeechActivity:音频信号是否包含语音(True/False)

  2. 文字记录:音频的 ASR 文字记录

  3. 发言者的性别(女/男)

  4. 演讲者的年龄(青年/中年/老年)

  5. 说话者的口音(非洲/美洲/凯尔特/欧洲/大洋洲/南亚/东南亚)

  6. 说话者的情绪(快乐/悲伤/愤怒/无所谓/沮丧)

Github:https://github.com/skit-ai/SpeechLLMingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;"/>

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ