链载Ai

标题: 昆仑万维搞了个小模型,很美很强,还开源 [打印本页]

作者: 链载Ai    时间: 4 小时前
标题: 昆仑万维搞了个小模型,很美很强,还开源

GPT-5发布后,你知道大家吐槽最多的是什么吗?

“还我GPT-4o!”

因为那个支持图像理解、生成和编辑的4o,真的很让人喜欢,一直是生图界的热门模型。

后来,又陆续有了FLUX-Kontext、BAGEL等开源模型,但他们都参数太大,不仅理解、生成和编辑能力强耦合,推理速度也慢,计算资源消耗高,普通人根本玩不转。

今天,昆仑万维开源了个“小而美”的模型——Skywork UniPic 2.0,在单一模型中融合了图像理解、生成和编辑的能力,实现了“高效、高质、统一”的多模态一体化模型。

生图部分的参数量只有2B,部署门槛超低(一张RTX4090绰绰有余),但理解、生成与编辑能力丝毫不差,完全可以媲美其他大尺寸的顶尖模型。


一手测评

我参与了他们的内测,简单说说我的一些感受和case。

跟4o类似,Skywork UniPic 2.0在一个模型中融合了图像理解、文本生成图像(T2I)和图像编辑的能力,是一个「多模态一体化模型」。

UniPic 2.0既可以像VLM一样理解图像、像T2I模型一样生成图片,还可以像美图工具一样一键实现风格转绘/吉卜力化的编辑功能。

虽然参数只有2B,但是能力超强。无论是生图效果还是编辑效果,UniPic 2.0都超过了12B的Flux、19B的UniWorld-V1和14B的Bagel。

下面,给大家看一些我实测的case。

1)图片理解

去年,我去泸沽湖玩,拍了一些照片,考考它这是哪里。

全球湖泊那么多,光看图还是很难猜的,但这个模型一下子就猜出来了,是云南丽江的泸沽湖。

再来一张,而且我还特意把图片的Exif信息(就是照片的属性信息和拍摄数据,可以理解为照片的身份证)去掉了,防止模型背参数。

虽然没有准确找出这是哪里(其实我拍的时候也不知道是哪里,只是在川西路边随手拍的),但是列举的地方还是挺对的,大体在川西一带。

抽象的图呢,看看它能不能理解。

也还不错,给出了多层解构。

这是GPT-5发布后的一张梗图,考考它。

“这张图反映了人们对AI发展的乐观预期与现实进展之间的差距,以及AI技术发展的真实情况”,理解准确。

定位大象和狮子的坐标,以JSON格式报告坐标框。

不错,定位准确。这个能力在现实中有着广阔的应用场景,比如安全与质量检查、高空遥感监测分析等。

[{"bbox_2d":[148,30,227,156],"label":"elephant"},{"bbox_2d":[79,58,148,156],"label":"lion"}]

2)图像生成

文生图,算是生图模型的基础能力了。要测,我们就测一些高难度的。以下,是一些有难度的Prompt。

(1)空间飞船超图

a detailed sketch of a space shuttle, renderedinthe intricate, technical style reminiscent of Leonardo da Vinci's famous drawings. The shuttle is depicted with numerous annotations and measurements, showcasing its complex design and structure. The paper on which it is drawn has an aged, yellowed appearance, adding to the historical feel of the artwork.

详细的空间飞船草图,以复杂、技术性的风格呈现,让人联想到达芬奇著名绘画的细节。飞船上标注了众多注释和尺寸,展示了其复杂的设计和结构。绘制该图的纸张呈现出陈1日、泛黄的外观,增添了艺术作品的历史感。
(2)复古旅游海报
A 1950s-style vintage tourism poster promoting a trip to the Moon, featuring a retro rocket ship with mid-century design lines, elegantly dressed tourists waving from the launch pad, hand-painted stars and a gradient blue lunar sky. CMYKprinttexture, visible halftone dots, retro color palette.

一张 1950 年代复古旅游海报,宣传去月球旅行,画面中央是一艘中世纪设计线条的复古火箭,穿着优雅服饰的游客在发射台挥手。背景是手绘的星空与渐变的蓝色月球天空。CMYK 印刷质感,可见网点,复古配色。
(3)光线城市
Lines formed by the flow of luminous particles and non-luminous particles create the silhouette of urban architecture, panoramic views, suspended on the holographic interface, microcosm, blurred lens, ray tracing, high-definition images, master's work

由发光粒子和不发光粒子流动形成的线形成城市建筑轮廓,全景图,悬浮在全息界面上,微观世界,镜头模糊,光线追踪,高清图片,大师作品

(4)巨鲸

A giant whale floating above a golden desert, its back covered with glowing cherry blossom trees, beneath a twilight sky blending auroras and stardust. Ultra-detailed surrealism, HDR rendering, hyper-real textures, atmospheric lighting.
一条巨大的鲸鱼漂浮在金色沙漠上方,背上覆盖着发光的樱花树,天空是融合了极光与星尘的暮色。超细致超现实主义风格,HDR 渲染,逼真质感,氛围光效。

(5)透明水晶的小狐狸

Macro photography of an intricate small fox sculpted from translucent crystal, curled up reading a book under a glowing, magical mushroom. The background is a deep nightinan enchanted forest with luminous spores and dust motes floatinginthe air. Low-angle shot, the mushroom emits a soft, ethereal blue and purple light, illuminating the complex facets of the fox's crystal body, serene and mystical atmosphere.

微距摄影,一只由半透明水晶雕琢而成的精致小狐狸,正蜷缩在发光的魔法蘑菇下看书。背景是深夜的魔法森林,空气中漂浮着发光的孢子和尘埃。视角从低角度仰视,蘑菇散发出柔和的蓝紫色光芒,照亮了狐狸水晶身体的复杂纹理,营造出一种宁静而神秘的氛围。

(6)赛博朋克武士

Cinematic photo, a cyborg samuraiinfuturistic luminous armor, holding a plasma katana, standing at the busy Shibuya crossinginTokyo on a rainy night. Close-up shot, reflections of neon signs shimmering on his visor, steam and digital rain fills the air, cool color palette, cyberpunk atmosphere.

电影感写实照片,一个身穿未来派夜光盔甲的机械武士,手持一把能量武士刀,站在雨夜中东京涩谷繁忙的十字路口。特写镜头,霓虹灯广告牌的倒影映在他的面罩上,空气中弥漫着蒸汽和数字化的雨滴,冷色调,充满赛博朋克氛围。

(7)玻璃海滩

A surreal beachwherethe ocean waves are made entirely of translucent crystal glass, reflecting rainbow light as they crash. White sand with polished gemstones scattered across. Hyper-real, ultra-detailed, dreamlike atmosphere.

一片超现实海滩,海浪完全由半透明水晶玻璃构成,拍打时折射出彩虹光。白色沙滩上散落着打磨光滑的宝石。超写实,细节极致,梦幻氛围。

(8)末世温室

A ruined glass greenhouse overgrown with vines and flowers,inthe middle of a desolate, post-apocalyptic city. Sunlight beams through broken glass panels, dust particles floatinginthe air. Photorealistic, 8K resolution, dramatic lighting.

一座废弃的玻璃温室被藤蔓和鲜花占据,孤立在末世废墟般的城市中央。阳光透过破碎的玻璃洒下,尘埃在空气中漂浮。超写实风格,8K 分辨率,戏剧性光影。

3)图片编辑

还是我在泸沽湖拍的图片。

输入Prompt:将图片转换为油画风格。

不错不错,一张油画版的泸沽湖就出来了。

更多的case还有。

去除图片中的直升机。

将游艇颜色改为红色。

将舞台背景改为有棕榈树和海洋的沙滩。

将图中的蓝色小鸟替换成红色狐狸。

在图片添加一个小巧迷人的凉亭,位于小路靠右的位置,靠近公园的长椅。凉享应与场景的冬日宁静氛围相匹配,并由附近街灯发出的柔和温暖灯光照亮。


技术揭秘

从实测来看,Skywork UniPic 2.0的性能还是很能打的,关键是它很轻量。

怎么理解这个UniPic 2.0呢?简单说,它是一个多模态统一模型,训练和生成都是在单一模型里完成,原生融合了图像理解、文本生成图像(T2I)和图像编辑三大核心能力。

它的技术架构,主要有3个核心模块。

这个架构带来了3个优势:

当然,更重要的是,昆仑万维将Skywork UniPic 2.0全面开源,包括模型权重、训练代码、强化策略等,都全部开源,助力开发者与研究者快速上手并构建多模态应用。

项目主页:

https://unipic-v2.github.io


技术报告:

https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf


GiHub地址:

https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2


HuggingFac地址:

https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B

https://huggingface.co/Skywork/UniPic2-Metaquery-9B


写在最后

从周一起,昆仑万维开启了Skywork AI技术发布周。

8月11日至8月15日,每天发布一款新模型,连续五天,覆盖多模态AI核心场景的前沿模型。

比如Day1,发布的是视频模型SkyReels-A3,可实现任意时长的全模态音频驱动数字人创作。

Day2,发布的是世界模型Matrix-Game 2.0,带来了首个在通用场景上实现实时长序列交互式生成的世界模型开源方案。

今天(Day3),便是这款生图一体化模型SkyworkUniPic 2.0。

而且,这三个模型都全部开源。

国产模型,真是越来越好了。毕竟“海外天天Close AI,国内则疯狂Open AI”。

甚至,有一段时间Hugging Face都被中国大模型给包圆了。

Skywork近期开源模型一览

这到底,谁才是真正的Open AI啊?






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5