返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

重磅!英伟达推出150万参数极小模型:模拟人的潜意识「机器人“大脑”革命」

[复制链接]
链载Ai 显示全部楼层 发表于 2 小时前 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding: 1em;border-radius: 8px;color: rgba(0, 0, 0, 0.5);background: rgb(247, 247, 247);">

人形机器人有望成为通用机器人的终极化身,但要发挥这一潜力,就必须适应各种任务--导航、桌面操作(桌面上进行的精细操作任务)、移动操作--每种任务都需要独特的控制模式。一个控制器能胜任所有任务吗?

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);text-align: justify;">刚刚英伟达重磅推出用于人形机器人的多功能全身神经通用控制器AI模型ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">HOVER:在统一的通用策略中支持运动学位置、关节角度和身体基座跟踪。HOVER 优于以往针对特定模式(ExBody、H2O、OmniH2O、HumanPlus)训练的专用策略

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">我们人类走路、保持平衡、控制手脚,这些看似简单的动作,其实背后有大量的潜意识处理。HOVER 就相当于把这种ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;text-align: left;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">“潜意识”捕捉并编码到了一个模型里,它学会了如何协调机器人电机,让机器人像人一样流畅地运动和操作

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">英伟达用一个只有150万参数的小模型HOVER,就实现了人形机器人的控制,甚至还能模仿人类动作!更让人震惊的是,它模拟一年的训练量,只需50分钟!

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding: 1em;border-radius: 8px;color: rgba(0, 0, 0, 0.5);background: rgb(247, 247, 247);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1em;letter-spacing: 0.1em;color: rgb(80, 80, 80);text-align: justify;">HOVER 的核心创新在于:利用全身运动模仿作为各种任务的通用抽象,并提供通用的运动技能,用于学习多种全身控制模式,现有的方法通常针对特定命令空间训练单独的策略,限制了它们在不同模式之间的迁移能力。而 HOVER 提出了一种多模式策略蒸馏框架,将不同的控制模式整合到一个统一的策略中

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 8px;color: rgb(63, 63, 63);">HOVER是如何训练的?

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">HOVER 的训练是在英伟达 Isaac 模拟套件中进行的。这套件基于 GPU 加速,比实时物理模拟快 1 万倍!这意味着,机器人可以在虚拟的“道场”里进行长达一年的高强度训练,而实际训练时间只需 50 分钟左右!训练完成后,模型可以直接零样本迁移到现实世界,无需微调!

HOVER如何控制机器人?

HOVER 支持多种高级运动指令,称之为“控制模式”。它就像一个万能的转换器,将不同的指令转换成底层电机控制信号。例如:

头和手的姿势:可以用 Apple Vision Pro 等 XR 设备捕捉

全身姿势:可以通过动作捕捉或 RGB 摄像头获取

全身关节角度:可以使用外骨骼获取

根速度命令:可以使用操纵杆控制

更重要的是,HOVER 的命令空间设计非常巧妙,兼顾了通用性和原子性:

通用性:涵盖了现有的大部分控制模式,无需为了特定任务而牺牲性能或通用性。

原子性:命令空间由独立的维度组成,可以任意组合,支持各种模式

HOVER 有哪些优势?

统一接口:无论你手边有什么输入设备,都可以用来控制机器人,非常方便!

简化数据收集:可以更轻松地收集全身遥操作数据,用于训练机器人

更高级的控制:可以与视觉-语言-动作模型配合使用,HOVER 将高级指令翻译成机器人能理解的低级电机信号,实现更复杂的控制

多模式无缝切换:HOVER 可以流畅地在不同控制模式之间切换,例如从行走模式切换到操作模式,无需重新训练模型,同时保留每种模式的独特优势,为各种模式的仿人控制提供稳健且可扩展的解决方案。从而提高了未来仿人应用的效率和灵活性

HOVER 的核心技术

训练框架:HOVER 通过本体感觉和命令屏蔽从 Oracle 策略中提取训练。该模型的任务命令由特定于模式和基于稀疏性的掩码决定,这些掩码独立应用于上半身和下半身运动。这些掩码生成不同的任务命令模式,优化学生的输入。蒸馏采用 DAgger 将学生的动作与预言机的动作对齐,并通过预言机动作的监督学习进行优化

部署框架:HOVER 通过统一的多模式命令空间实现多功能人形机器人控制。多功能多模式命令空间支持运动位置跟踪(蓝色)、局部关节角度跟踪(黄色)和根跟踪(紫色)。高亮显示的框表示正在跟踪的活动命令,而掩码(右侧的虚线框)允许选择性激活不同的命令空间以适应各种任务

这是英伟达 GEAR 实验室和合作伙伴的共同成果,再次证明了小模型的巨大潜力!


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ