返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

钉钉A1,摸到了语音AI 的“命门”:一个开放平台正在形成

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 17:13 |阅读模式 打印 上一主题 下一主题


人类进化这么几十万,会写字、看字的时间也不过数千年,语音、视觉依旧是我们最高频的沟通方式。

所以,光靠文字的AI产品是远远不够的,各个公司对于AI在语音侧“接口”的争夺也从未停止:

  1. 单位时间信息密度,人们说话速度远超打字,语音能大幅提升信息输入输出效率。
  2. 数据价值,沟通中蕴含大量有价值的信息。过去这些口头交流往往不会沉淀为数据资产,而语音AI可以将“声音”数字化,转写成文本甚至结构化的知识;
  3. 市场价值,2025年全球语音识别市场规模可达约267.9亿美元,广泛应用于汽车、医疗、消费电子等行业;
  4. ...

于是,前两个月钉钉在十周年发布会上推出了首款AI语音产品,钉钉 A1,只不过当时我并没拿到实体硬件,估摸着当时还是一批原型机,然后这次发布会就成功拿到手上了!

我们先看看官方对其的定义:会议助手、销售助手、客服助手...

unsetunsetA1能做什么unsetunset

A1的技术实现是比较简单的:借助钉钉最新发布的DingTalk_AI(原来貌似叫AI听记),将录下的语音实时转写成文字,并通过大模型进行总结提炼:

大家可以理解为硬件是一个文字输入设备,DingTalk_AI是一个功能展示模块,现阶段不论是会议、面试、销售拜访,设备都能自动整理重点,生成纪要和分析报告。

例如,HR借助A1记录面试后,可在钉钉查看自动提炼的候选人履历、情绪状态、沟通能力分析等,辅助快速筛选人才...

针对客户交流,A1能提取客户信息、分类和满意度指标,帮助客服人员了解服务质量...

为什么可以搞这些“需求百变”、“杂乱无章”的需求,因为A1内置了30多种场景化AI纪要模板,覆盖学习笔记、日常记录、会议纪要、面试记录等多种场景,用户只需选择相应模板即可生成结构清晰的总结。

但我们前面说了:A1是一套硬件输入,平台整理的系统,逻辑上钉钉可以把这个模块开放出来,各个公司可以自己在上面玩出花来!比如:

  1. 销售或客服的对话记录可被提炼销售线索和客户意向;
  2. HR的面试记录衍生候选人报告;
  3. 行政人员的会议记录则转化任务清单和日程安排;
  4. ...

等等千奇百怪的需求全部可以被实现,意思是各位现在在A1上面看到的所有功能仅仅是个打样罢了,后续什么基于此的应用都可以有,一起说A1是一个AI语言产品,倒不如说A1是一个AI语音开放平台

按照这个架势,A1的硬件设备可能会越来越便宜,甚至几十元都可以搞定,必定他已经是钉钉生态的重要组成部分了。

unsetunsetNuanceunsetunset

如前所述,A1给我的感觉其实可以与钉钉无关,只不过钉钉生态下的A1具有不一样的价值,比如:

我在使用A1的过程中第一时间想到的是之前微软收购的一款产品Nuance(2022那年,97亿美元):

国内与他类似的是左手医生的听诊机器人:

Nuance在AI的加持下,在问诊环节其实具有很大的想象空间,能够帮到很多医生、降低误诊率,也可以减少医生的很多文书类工作压力。

据微软发布的数据,Nuance已帮助600多家医疗机构的医生,每次问诊节省约5分钟的时间,超过70%的临床医生反馈因使用该AI而减轻了职业倦怠感,这个产品整体的口碑是很好的;

只不过Nuance虽然估值很高,但出于数据安全问题,国内是没看到的;而国内有很多类似的设备,块头大、成本高,都不利于批量投放,所以这两年在医疗场景,我看到的语言设备是比较少的。

于是乎,今天一看到A1居然就想起了之前的业务场景,逻辑上是可以做到平替的,只不过这不仅是需要在应用层做改造,也对硬件在嘈杂环境下的多人识别能力提出了很高的要求

现在看来钉钉依旧在办公场景发力,他们不关注医疗,从各种宣传口径上都是一样,A1定位于“随身办公AI”,以轻量硬件结合云端大模型,为职场多角色赋能。

其实这也是正确的,因为不同领域的知识在做语义识别的时候是有门槛的,比如Nuance在医疗领域的优势源于其多年的语料积累和算法优化,能精准识别医学术语和医生口述习惯,支持个性化的模板和术语库;

A1要做到这一点,不仅需要很多底层基建支撑,也需要先在办公场景打样,其次需要将这类接口释放到各个公司。

比较恐怖的是,貌似这一切阿里还真能做!

unsetunset阿里生态unsetunset

阿里生态之所以能支撑A1从“功能硬件”跃升为“开放平台”,关键在于其完整闭环能力,这是大多数单一硬件厂商或纯软件服务商难以复制的。

阿里拥有从底层算力(含光芯片、平头哥半导体)、云计算基础设施(阿里云),到中间层算法(达摩院多模态大模型、语音识别引擎),再到上层应用(钉钉、天猫精灵等)的完整技术栈。

这意味着A1的语音处理可以深度优化

以最近很火的医疗AI产品为例:蚂蚁阿福,这东西月活用户已经超1500万,每日处理健康提问超500万次了。虽然这是2C的应用,但未必不能发生延伸,毕竟用户健康数据在上面。

总而言之,这东西想象空间很大就是了,但竞争态势也不容乐观。

unsetunset结语unsetunset

除了钉钉A1与Nuance,语音AI的主流形态大致分成两条线:办公效率型与消费助理型。

在国内,科大讯飞听见/智能办公本代表会议生产力路线:以高精度转写为底座,叠加说话人分离、纪要/待办/思维导图等结构化产出,并强化私有化部署与加密能力,解决政企、涉密场景的“能用与敢用”。

大家一定要注意,讯飞在这个板块其实很强,单说这里的叠加说话人分离就要搞多久

只不过这个领域巨头太多了,包括钉钉、腾讯会议、飞书......

在消费端,家庭物联网入口路线很清晰:就是结合语音、AI、家电构建“家庭管家”生态,这个需求属于聊胜于无但又一定会有的部分,有钱人的玩具......

最后说一嘴,语音类AI产品乃至开放平台想象空间很大,对于基座模型也是其多模态能力的延伸。

但是,这类产品要真正站稳,还要跨过几道硬门槛:嘈杂环境的多人分离与识别精度、企业数据安全与合规、以及行业术语与工作流的深度适配。

办公场景是个不错的起点,钉钉A1做出来不错的选择,下一步能否把能力开放给生态伙伴、让更多公司“在它之上玩出花来”,才是决定上限的关键。

如果说过去语音产品拼的是识别率,那么接下来拼的将是:谁能把语音变成生产力,谁能把生产力变成平台能力,AI语音的故事,才刚开始...

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ