像素扩散模型虽然避开了 VAE,但它要面对的是一个极其复杂的高维空间。在这个空间里,除了我们关心的物体形状、颜色,还充斥着大量的“无效信息”,比如相机的噪声、肉眼不可见的细节。让模型去逐个像素地死磕这些无效信号,不仅浪费算力,还会让训练变得异常困难。
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com ...
长期以来,扩散模型的训练通常依赖由变分自编码器(VAE)构建的低维潜空间表示。然而,VAE 的潜空间表征能力有限,难以有效支撑感知理解等核心视觉任务,同时「VAE + Diffusion」的范式在训练与推理效率上也存在显著瓶颈。 清华大学智能视觉团队和快手可灵 ...
港科大团队重磅开源 VideoVAE+,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复。 VideoVAE + 模型大幅超过 ...
本研究针对文化遗产保护中传统巴厘面具三维数据缺失问题,开发了包含27类面具的BaliMask3D数据集。通过360度摄影测量法获取高精度三维模型,结合VQ-VAE(矢量量化变分自编码器)和SDFusion(符号距离场融合)技术实现破损文物的三维补全,平均Uniform Hausdorff ...