返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

AutoStudio连环漫画生成方案体验、原理解析

[复制链接]
链载Ai 显示全部楼层 发表于 半小时前 |阅读模式 打印 上一主题 下一主题


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-align: center;font-size: 14px;visibility: visible;">


文章地址:https://arxiv.org/abs/2406.01388

项目地址:https://github.com/donahowe/AutoStudio


01本地效果


turn 1: agirl,aboyandamanwalkingontheroadtoschool

turn 2:amanwavinggoodbyetothegirl

turn 3:girl,angryandarguingonsteet

turn 4:agirlandaboyplayingwithadog


turn 5:sittingandsunbathingnearthesea


基座disney-pixar-cartoon-b

基座DreamShaper


turn 1 : boy,whitehair,blueeyes,singingtotheGirl.girl,redhair,blueeyes,singingtotheboy


turn 2:

boy,whitehair,blueeyes,sittingonsofaandlaughing.girl,redhair,blueeyes,sittingonsofaandangry

turn 3:

theboywalkingonthestreed,boy,whitehair,blueeyes,thinkingandwalking

基座disney-pixar-cartoon-b

基座DreamShaper




turn 1: whitehairgirl,playing.browncat,playing.blackcat,playing.


turn 2:ablackcat,ayellowdog,abluerabbit

turn 3:alegoman,alegowoman,alegocar,alegohouse

基座disney-pixar-cartoon-b



02 方案



2.1 架构




AutoStudio的核心包含利用四个agent(主题管理器、布局生成器、监督者和绘图器)和一个主题数据库完成多回合多主题交互图像生成:


●主题管理器对用户对话进行解读,理解用户的输入并保持对话的主题一致性;


●布局生成器提供布局,根据主题管理器提供的信息来决定图像中每个元素的具体位置;


●监督者提供优化布局的建议;


●绘图器根据提供精细的布局和主题数据库生成图像,这里的核心是引入了平行UNet(Parallel-UNet)和基于稳定扩散(Stable Diffusion)的方法。平行UNet利用两个并行的交叉注意力模块分别增强文本和图像嵌入的潜在主题特征,而稳定扩散则能生成高质量的视觉内容。结合这两种技术,AutoStudio不仅能保持主题的连贯性,还能在视觉上给用户带来震撼的效果。


AutoStudio生成漫画的PipeLine具体如下:


1. 用户输入与主题管理(Subject Manager):


●用户通过自然语言提供指令或故事线索。


●主题管理器解析这些输入,识别对话中提及的不同主题,并为每个主题及其组件分配独特的标识符(ID)和描述(captions)。


2. 布局生成(Layout Generator):


●根据主题管理器提供的描述,布局生成器创建一个初步的布局草图,包括每个主题和组件的边界框(bounding boxes),确定它们在图像中的大致位置和尺寸。


3. 布局优化(Supervisor):


●监督者(Supervisor)对布局生成器提出的草图进行评估,并提供改进建议,以修正不合理的空间关系,优化主题间和主题内部的布局。


4. 图像生成准备:


●经过监督者优化的布局被送回布局生成器以生成最终的布局(Layout)。


●主题数据库(Subject Database)根据布局和优化建议检索和更新主题信息。


5. 主题初始化生成方法:


●利用稳定扩散(Stable Diffusion, SD)模型和P-UNet,根据优化后的布局和主题数据库中的信息,生成每个主题的潜在特征图(latent feature maps)。


●对于小主题,通过调整边界框的大小来确保特征的保留,并使用前向扩散过程将单个主题图像合并为一个统一的指导图像(guidance image)。


6. 图像生成(Drawer):


●Drawer组件接收最终的布局和主题信息,通过P-UNet进行图像生成。P-UNet利用并行的文本和图像交叉注意力模块来增强主题特征,生成与布局一致且主题特征明显的高质量图像



2.2 主题初始化生成方法




在生成过程中初始化潜在特征图,以更好地保留小主题的特征,避免主题丢失或错误融合。这个过程包括对主体粗粒度特征的单独生成,使用提取器提取特征并通过正向扩散映射到潜空间并在全局生成的初始几步进行局部替换


具体来说,给定主题数据库D,该初始化方法生成潜在特征映射,该映射根据布局在空间上合并来自D的所有主题特征,如图所示。为了更好地保留小主体和组件的特征,首先调整每个主体的边界框的大小,以确保其长边达到1024像素。然后,利用具有P-UNet的SD模型(表示为- SD)为每个目标生成具有相应调整大小和居中的边界框的单幅图像,以便进行扩散去噪以获得其相应的潜在特征。




2.3 绘图器核心:Parallel-UNet



SD模型中的原始UNet利用交叉注意模块来挖掘文本特征,这些特征不足以表示多个主体的空间关系和特征。P-Unet是无需训练的布局调制注意力模块,P-Unet将UNet层的原始交叉关注模块分解为两个并行的文本和图像交叉关注模块(表示为PTCA和PICA)来细化Z。这两个模块具有相同的架构,其关键思想是计算Z与每主题文本/图像嵌入之间的特征相似度

备注:任意UNet层在去噪过程中的输入潜在特征表示为Z




03 总结



优势



●AutoStudio能够在多次交互后,图像中的主题元素(如人物、场景等)仍然较好地保持连贯。


●生成的连环漫画速度较快,一致性优于StoryDifusion




缺点



●概率性发生人物一致性问题


●生成的人物效果概率性发生瑕疵,可能会出现多头、多手等身体缺陷问题(可能跟基座模型有关)


●生成图像并不是每一次都能完全正确遵循Promt(可能跟基座模型有关)




客观的说,效果较好,优于前人方法,但是仍然存在不少瑕疵。可以借鉴去制作连环漫画,但需要后期过滤处理问题图像(或者重复同样的主题和Promt重复生成多张,挑选好的一张),暂不适合做全自动的连环漫画AI生成。



ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;font-size: 14px;visibility: visible;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-align: center;color: rgb(0, 128, 255);visibility: visible;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-align: center;color: rgb(0, 128, 255);visibility: visible;">点击下方卡片ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-align: center;color: rgb(0, 128, 255);visibility: visible;">,关注“ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;visibility: visible;">AICV与前沿


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ