4090笔记本电脑0.37秒拍出一部大片! Nvidia与麻省理工学院和清华大学联手开发Sana架构
2025-03-28
更新时间:2025-03-28 16:56:55作者:欧米教育
大家好,今天给各位分享4090笔记本电脑0.37秒拍出一部大片! Nvidia与麻省理工学院和清华大学联手开发Sana架构的一些知识,其中也会对进行解释,文章篇幅可能偏长,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在就马上开始吧!
16GB 4090笔记本直接吐出一张10241024像素的图像只需0.37秒。
这么快的AI绘图工具,居然是由NVIDIA、麻省理工、清华大学的全华人团队打造的!
顾名思义,Sana 可以以惊人的速度合成高分辨率、高质量的模型,并具有强大的文本到图像对齐功能。
此外,它可以有效生成高达40964096像素的图像。
项目主页:https://nvlabs.github.io/Sana/
论文地址:https://arxiv.org/abs/2410.10629
Sana的核心设计包括以下元素:
深度压缩自动编码器(AE):传统自动编码器只能将图像压缩8倍,而新的AE可以将图像压缩32倍,有效减少潜在标记的数量。 Linear DiT(Diffusion Transformer):用“线性注意力”替代DiT中的所有普通注意力,在高分辨率下效率更高,且不牺牲质量。基于纯解码器模型的文本编码器:用现代纯解码器SLM 替换T5 作为文本编码器,并设计复杂的人工指令,通过上下文学习增强图像文本对齐。高效的训练和采样:提出Flow-DPM-Solver,通过高效的标题标注和选择来减少采样步骤并加速收敛。基于上述算法创新,与领先的扩散模型Flux-12B相比,Sana-0.6B不仅参数小了12倍,更重要的是吞吐量猛增了100倍。
今后,Sana将成为该领域低成本内容创作之王。
效果列表
一只网络猫和一个霓虹灯,上面写着“SANA”。
一位站在山顶的巫师在夜空中施展魔法,形成了由彩色能量组成的“NV”字样。
在人物生成方面,萨那对小女孩脸部的刻画可以说是非常细致。
我们来看一个更复杂的:
一艘海盗船被困在宇宙漩涡星云中,由模拟宇宙海滩漩涡的特效引擎渲染,呈现出令人惊叹的三维光效。场景充满了壮丽的环境光和光污染,营造出电影般的氛围。整部作品采用新艺术风格,艺术家Sensei Jaye创作的插画艺术充满了精致的细节。
即使对于像下面这样的超级复杂的提示,Sana 也可以获取关键信息并生成相应的元素和样式。
提示:一间令人惊叹的豪华卧室,雕刻在岩石山坡上,将自然与现代设计无缝地融合在一起,配有豪华的大地色床,有纹理的石墙,圆形壁炉,巨大的独特形状的窗户框架,白雪皑皑的山脉,茂密的森林,宁静的山间度假胜地,可欣赏令人惊叹的高山景色景观木地板柔软的地毯质朴精致的魅力,舒适宁静宁静放松完美的逃离放松与自然联系,舒缓亲密优雅现代设计自然的原始之美和谐的融合迷人的景色迷人的邀请空间,柔和的环境照明温暖的色调间接照明自然日光平衡的诱人光芒
顺便说一句,该团队还制作了经典模因的卡通版本(右)。
设计细节
前面已经简单介绍了Sana的核心组件。接下来,我们将进一步阐述其实现细节。
模型架构的详细信息如下表所示。
- 深度压缩自动编码器
研究人员推出的新自动编码器(AE)将缩放因子显着提高至32 倍。
过去主流AE只能将图像的长宽压缩8倍(AE-F8)。
与AE-F8 相比,AE-F32 输出的潜在令牌少了16 倍,这对于高效训练和生成4K 分辨率等超高分辨率图像至关重要。
- 高效线性DiT(扩散变压器)
原始DiT 的自注意力计算复杂度为O(N),在处理高分辨率图像时会呈二次方增加。
线性DiT 在这里取代了传统的二次注意力机制,将计算复杂度从O(N) 降低到O(N)。
同时,研究人员还提出了Mix-FFN,它可以在多层感知器(MLP)中使用33深度卷积来增强令牌的局部信息。
实验结果表明,线性注意力实现了与传统注意力相当的结果,在4K 图像生成中将延迟缩短了1.7 倍。
此外,Mix-FFN 在不使用位置编码(NoPE)的情况下保持了生成质量,成为第一个不使用位置嵌入的DiT。
- 基于仅解码器的“小语言模型”的文本编码器
在这里,研究人员使用Gemma(仅解码器法学硕士)作为文本编码器来增强对提示词的理解和推理。
尽管T2I生成模型多年来取得了显着进展,但大多数现有模型仍然依赖CLIP或T5进行文本编码,并且这些模型往往缺乏强大的文本理解和指令跟踪能力。
与CLIP 或T5 不同,Gemma 提供更好的文本理解和指令跟随能力,从而解决不稳定的训练问题。
他们还设计了复杂人类指令(CHI),以利用Gemma 强大的指令跟随、上下文学习和推理功能来改善图像文本对齐。
在相似的速度下,Gemma-2B 型号的性能优于T5-large,并且与更大且速度较慢的T5-XXL 相当。
- 高效的训练和推理策略
此外,研究人员还提出了一套自动标注和训练策略,以提高文本和图像之间的一致性。
首先,对于每个图像,利用多个视觉语言模型(VLM)来生成重新描述。尽管这些VLM 的功能各不相同,但它们的互补优势增强了描述多样性。
此外,他们还提出了一种基于clipscore的训练策略,根据概率在图像对应的多个描述中动态选择具有高clip分数的描述。
实验表明,这种方法提高了训练收敛和文本图像对齐。
此外,与广泛使用的Flow-Euler-Solver相比,团队提出的Flow-DPM-Solver将推理采样步骤从28-50步显着减少到14-20步,同时也取得了更好的结果。
整体表现
如下表1 所示,Sana 与当前最先进的文本生成图像扩散模型进行了比较。
对于512512 分辨率: - Sana-0.6 的吞吐量比具有相似模型尺寸的PixArt- 快5 倍- Sana-0.6 在FID、Clip Score、GenEval 和DPG-Bench 方面显着优于PixArt-
对于10241024 分辨率: - Sana 的性能比大多数参数少于3B 的模型好得多- 在推理延迟方面表现特别好
与最先进的大型模型FLUX-dev 的比较: - 在DPG-Bench 上,精度相当- 在GenEval 上,性能稍低- 然而,Sana-0.6B 的吞吐量快39 倍,Sana-1.6B 快23 倍更快的时间
Sana-0.6 的吞吐量比当前最先进的4096x4096 图像生成方法Flux 快100 倍。
在10241024 分辨率下,Sana 的吞吐量快了40 倍。
以下是Sana-1.6B与其他模型的可视化性能对比。很明显,Sana 模型生成速度更快、质量更高。
为了增强边缘部署,研究人员使用8 位整数对模型进行了量化。
此外,他们还在CUDA C++中实现了W8A8 GEMM内核,并使用内核融合技术来减少不必要的激活加载和存储带来的开销,从而提高整体性能。
如下表5所示,研究人员对比了优化前后模型部署在消费级4090上的结果。
在生成1024x1024图像方面,优化后的模型实现了2.4倍的加速,仅用0.37秒就生成了相同的高质量图像。
合著者Enze Xie 是NVIDIA Research 的高级研究科学家,该团队是麻省理工学院Song Han 教授领导的Efficient AI 团队的成员。此前,他曾担任华为诺亚方舟实验室(香港)AI理论实验室的高级研究员和生成式AI研究总监。
2022年于香港大学计算机科学系获得博士学位,导师为罗平教授,共同导师为王文平教授。并与我的朋友王文海密切合作。
博士学习期间,师从阿德莱德大学沈春华教授、加州理工学院Anima Anandkumar教授、多伦多大学Sanja Fidler教授。同时,我们还与Facebook、NVIDIA等行业的众多研究人员进行了合作。
研究方向为高效AIGC/LLM/VLM,在实例级检测和自监督/半监督/弱监督学习领域做了一些工作。 ——开发了几个在CV领域非常知名的算法,以及一个超过2000星的自监督学习框架OpenSelfSup(现在称为mmselfsup)。
- PolarMask(CVPR 2020 十大最具影响力论文排名第10)
- PVT(ICCV 2021十大影响力论文排名第二)
- SegFormer(NeurIPS 2021 十大影响力论文中排名第三)
- BEVFormer(ECCV 2022 十大最具影响力论文中排名第六)
合著者Junsong Chen 是NVIDIA Research 的一名研究实习生,导师是Enze Xie 博士和Song Han 教授。同时,他也是大连理工大学IIAU实验室的博士生,导师是陆虎川教授。
他的研究领域是生成式人工智能和机器学习的交叉点,特别是深度学习及其应用的算法和系统的协同设计。
此前,他在香港大学罗平教授的指导下担任研究助理。
韩松,麻省理工学院电气工程与计算机科学系副教授。此前,他在斯坦福大学获得博士学位。
他提出了广泛应用于高效AI计算的“深度压缩”技术,包括剪枝和量化,以及首次将权值稀疏性引入现代AI芯片的“高效推理引擎”。 —— ISCA 50 年历史中被引用次数最多的前五篇论文之一。
他开创了TinyML 研究,将深度学习引入物联网设备以实现边缘学习。
他的团队在硬件感知神经架构搜索方面的工作使用户能够设计、优化、减少和部署人工智能模型到资源受限的硬件设备,并在多个人工智能会议的低功耗计算机视觉竞赛中获得第一名。
近期,团队在大语言模型量化/加速(SmoothQuant、AWQ、StreamingLLM)方面的工作有效提升了LLM推理效率,并已被NVIDIA TensorRT-LLM采用。
宋瀚因其在“深度压缩”方面的贡献获得了ICLR 和FPGA 的最佳论文奖,并被《麻省理工科技评论》评选为“35 位35 岁以下技术创新者”之一。同时,他关于“加速机器学习的高效算法和硬件”的研究获得了NSF CAREER 奖、IEEE“AIs 10 to Watch: The Future of AI”奖和斯隆研究奖学金。
他是DeePhi(被AMD收购)的联合创始人和OmniML(被NVIDIA收购)的联合创始人。
参考:
https://nvlabs.github.io/萨娜/
用户评论
这速度也太夸张了吧!0.37秒就渲染大片?!我感觉未来AI剪辑时代就要来了,普通人也可以轻松制作电影特效了!
有15位网友表示赞同!
4090笔记本?英伟达现在连自己家的显卡都搞不定,把旗舰性能塞进笔记本,这谁来负担啊!还是别玩这个太夸张的设计了吧。
有18位网友表示赞同!
sana架构听起来很高大上,MIT清华联手打造的科研成果,对未来3D渲染技术肯定是有着巨大帮助的。很期待能看到更多基于这一架构的应用。
有8位网友表示赞同!
我比较好奇这0.37秒是不是测试数据?实际使用中能不能保持这样的速度?还有就是耗电量会不会特别恐怖啊?
有9位网友表示赞同!
4090笔记本,价格直接上天了,普通人买不起是肯定的。还是说英伟达打算只面向高收入人群设计这款产品
有12位网友表示赞同!
这要是能流畅运行游戏,那岂不是个完美的配置!我现在用的笔记本已经吃力了,看来得换新机了,等这个Sana架构出来玩。
有7位网友表示赞同!
0.37秒直出大片?这速度也太吓人了!是不是意味着未来视频制作流程会完全改变?
有5位网友表示赞同!
清华和MIT联手科研产物?这个感觉太酷了!期待看看Sana架构能带来哪些颠覆性的技术,尤其是对影视剪辑行业的影响。
有6位网友表示赞同!
笔记本厂商能不能别搞那么夸张的堆料了?4090那功率要怎么解决散热问题?真不是所有用户都需求那么强的配置。
有17位网友表示赞同!
Sana架构是什么东西呢?感觉英伟达每次发布都不清楚具体介绍技术细节,大家都是看着新闻报道猜来猜去。希望看到更详细的讲解。
有15位网友表示赞同!
0.37秒直出大片!这效率简直就是梦寐以求啊!如果能应用到日常视频制作中,那简直太棒了!
有5位网友表示赞同!
这个技术的普及还需要多久呢?我感觉现在的笔记本价格已经很高了,要是再加个Sana架构的费用,估计就更贵了吧。
有20位网友表示赞同!
4090的功耗和发热量都是很高的,塞进笔记本可能导致用户体验不佳,续航时间也会短很多吧!
有11位网友表示赞同!
这个新闻说的好像Sana架构就能解决所有视频渲染难题一样?我觉得这只是一个突破性的进展,还需要进一步完善和发展。
有19位网友表示赞同!
MIT和清华联手,可见Sana架构的潜力有多大。我对英伟达未来的研究成果充满了期待!
有5位网友表示赞同!
如果这个0.37秒渲染的速度能应用到游戏开发中,那也太酷了!可以更快地完成高品质的游戏画面设计。
有6位网友表示赞同!
4090笔记本,感觉更像是炫富的产品吧?普通用户完全不需要这么强劲的配置,性价比不高啊!
有12位网友表示赞同!
这个Sana架构会不会对普通用户的笔记本电脑造成过度依赖呢?还是说能促进更多创新产品研发?
有11位网友表示赞同!