SpeechLLM: 分析音频演讲者情感的大模型

显示全部楼层

SpeechLLM 是一种多模态语言模型 (LLM)，专门用于分析和预测对话中说话者的元数据。这种先进的模型集成了语音编码器，可将语音信号转换为有意义的语音表示。这些嵌入与文本指令相结合，然后由 LLM 处理以生成预测。

该模型输入16 KHz的语音音频文件，并预测以下内容：

SpeechActivity：音频信号是否包含语音（True/False）
文字记录：音频的 ASR 文字记录
发言者的性别（女/男）
演讲者的年龄（青年/中年/老年）
说话者的口音（非洲/美洲/凯尔特/欧洲/大洋洲/南亚/东南亚）
说话者的情绪（快乐/悲伤/愤怒/无所谓/沮丧）

Github:https://github.com/skit-ai/SpeechLLMingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;"/>