发布时间2025-06-07 10:25:20 来源:小编 阅读次数:次
关于OpenAI的GPT-4o架构的猜测中,最有可能的一种是采用了一种混合管道结构◆◆◆:
谢赛宁等新作,统一多模态BLIP3-o登场!先理解后生成,端掉VAE刷新SOTA
BLIP3-o的架构包括两部分,理解部分使用CLIP对图像进行编码★★★◆■;生成部分★★■★◆,自回归模型生成中间视觉特征◆■★■,作为DiT的输入,采用CLIP+Flow Matching策略生成图像特征。
·图像表示方式:将图像编码为高层级的语义特征(例如CLIP图像编码器)凯发娱乐官网电玩下载凯发娱乐官网电玩下载,而不是低层级的像素特征(例如基于VAE的编码器)
BLIP3-o采用「先理解后生成」训练策略★★,实现了图像理解与生成的有效统一◆■■◆,并基于GPT-4o构建了BLIP3o-60k数据集★◆。
·训练策略◆★★◆◆:采用顺序训练策略效果最佳,先用图像理解任务训练自回归模型■◆■★,再在图像生成阶段保持其参数冻结。
研究团队首先探讨如何通过编码器-解码器架构将图像表示为连续嵌入,这在学习效率和生成质量方面起着基础性作用。
OpenAI的GPT-4o最近展示的高质量图像生成和强大的多模态理解能力,激发了人们对于多模态范式的兴趣◆★■■★。。
为了解决这些问题■★◆,研究团队在后续部分中对不同的架构设计、特征表示方式和建模策略进行了系统性探索◆★■■★。
·训练目标函数:使用Flow Matching代替MSE◆■,提升图像生成质量凯发娱乐官网电玩下载。
这表明自回归和扩散模型可结合起来■★■■◆。受这种混合设计的启发,研究团队在研究中采用了自回归+扩散框架。
在这种框架下,最优架构方案仍不明确。自回归模型负责生成连续的中间视觉特征,用以逼近真实的图像表示,但这带来了两个关键问题:
首先,如何定义「真实」的图像嵌入?应该选择VAE还是CLIP来将图像编码为连续特征?
其次■★★◆■,如何建模和对齐这些生成的视觉特征与真实特征之间的分布◆◆★◆★?是采用简单的MSE损失,还是使用更复杂的扩散方法■◆◆◆?
【新智元导读】BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务★■◆★■。
就在最近,来自Salesforce◆■◆、UMD、VT◆★★★■■、NYU、UW等机构的研究人员■■★★■,发布了一组完全开源的统一多模态模型BLIP3-o◆■◆◆。