传统的做法是把图像量化成离散的 token,然后用语言模型来处理。但这种方法有个致命缺陷:图像信息在量化过程中会损失,导致模型的生成能力受限。
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">而 Transfusion 则另辟蹊径,它直接把语言建模(预测下一个 token)和扩散模型(目前最先进的图像生成技术Diffusion)结合起来,训练一个能够同时处理文本和图像的 Transformer 模型。这就好比把两种武功秘籍合二为一,练成了一套无敌神功!ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(15, 76, 129);">Transfusion 究竟有多牛x?ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Meta 已经用海量文本和图像数据从零开始训练了70 亿参数的 Transfusion 模型,并在各种单模态和多模态任务上进行了测试。结果表明,Transfusion 的扩展性比传统的量化方法强太多了!无论是生成图像还是生成文本,Transfusion 的表现都更胜一筹!ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">更让人震惊的是,Transfusion 生成的图像质量可以媲美那些专门做图像生成的扩散模型,同时还能保持强大的文本生成能力!这才是真正的多模态 AI 模型啊!模态特定的编码和解码层:为了更好地处理不同模态的数据,Transfusion 引入了模态特定的编码和解码层。这些层可以针对不同模态的特点进行优化,例如图像编码层可以使用卷积神经网络来提取图像特征,而文本解码层可以使用循环神经网络来生成文本序列。这种设计不仅提高了模型的性能,还能把每张图像压缩到 64 个甚至 16 个 patch,大大降低了计算量和内存占用,简直是效率爆表!⚡️
Meta 这一波操作,直接把多模态 AI 领域的天花板抬高了!其他研究团队要加油了!
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |