九游会,九游会官网,九游会登录,九游会注册,九游会app下载,在线体育投注,电竞投注平台,真人游戏平台,九游体育,九游娱乐
【新智元导读】BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
就在最近,来自Salesforce、UMD、VT、NYU、UW等机构的研究人员,发布了一组完全开源的统一多模态模型BLIP3-o。
BLIP3-o采用「先理解后生成」训练策略,实现了图像理解与生成的有效统一,并基于GPT-4o构建了BLIP3o-60k数据集。
BLIP3-o的架构包括两部分,理解部分使用CLIP对图像进行编码;生成部分,自回归模型生成中间视觉特征,作为DiT的输入,采用CLIP+Flow Matching策略生成图像特征。
·图像表示方式:将图像编码为高层级的语义特征(例如CLIP图像编码器),而不是低层级的像素特征(例如基于VAE的编码器)
·训练目标函数:使用Flow Matching代替MSE,提升图像生成质量。
·训练策略:采用顺序训练策略效果最佳,先用图像理解任务训练自回归模型,再在图像生成阶段保持其参数冻结。
OpenAI的GPT-4o最近展示的高质量图像生成和强大的多模态理解能力,激发了人们对于多模态范式的兴趣。。
关于OpenAI的GPT-4o架构的猜测中,最有可能的一种是采用了一种混合管道结构:
这表明自回归和扩散模型可结合起来。受这种混合设计的启发,研究团队在研究中采用了自回归+扩散框架。
在这种框架下,最优架构方案仍不明确。自回归模型负责生成连续的中间视觉特征,用以逼近真实的图像表示,但这带来了两个关键问题:
首先,如何定义「真实」的图像嵌入?应该选择VAE还是CLIP来将图像编码为连续特征?
其次,如何建模和对齐这些生成的视觉特征与真实特征之间的分布?是采用简单的MSE损失,还是使用更复杂的扩散方法?
为了解决这些问题,研究团队在后续部分中对不同的架构设计、特征表示方式和建模策略进行了系统性探索。
研究团队首先探讨如何通过编码器-解码器架构将图像表示为连续嵌入,这在学习效率和生成质量方面起着基础性作用。
图像生成通常首先使用编码器将图像编码为连续的潜在嵌入,然后使用解码器从该潜在嵌入中重建图像。这种编码-解码流程可以有效地降低图像生成中输入空间的维度,从而提高训练效率。研究讨论了两种目前广泛使用的方式:
变分自编码器(VAE)是一类生成模型,它们学习将图像编码到一个结构化的连续潜在空间中。编码器近似给定输入图像的潜在变量的后验分布,而解码器从这个潜在分布中抽取样本重建图像。
潜在扩散模型通过学习建模压缩潜在表示的分布而不是原始图像像素来构建在这个框架上。通过在VAE潜在空间中操作,这些模型显著降低了输出空间的维度,从而降低了计算成本并使训练更加高效。
CLIP模型已成为图像理解任务的基础编码器,因为它通过大规模图像-文本对的对比训练能够从图像中提取丰富、高级的语义特征。
然而,利用这些特征进行图像生成仍然是一个不小的挑战,因为CLIP最初并不是为重建任务设计的。
针对这个问题,团队通过将基于CLIP的编码器与基于扩散的解码器配对,提出使用EVA-CLIP将图像编码为连续的视觉嵌入,并通过从初始化的扩散模型进行重建。
在训练过程中,扩散解码器被微调以使用来自EVA-CLIP的视觉嵌入作为条件,从高斯噪声中恢复原始图像,而EVA-CLIP保持冻结。
这一过程有效地将CLIP和扩散模型结合成一个图像自编码器:CLIP编码器将图像压缩为语义丰富的潜在嵌入,而基于扩散的解码器则从这些嵌入中重建图像。
给定用户提示(比如「一个戴着草帽的年轻雀斑女子」),研究团队首先使用自回归模型的输入嵌入层将提示编码为嵌入向量序列 ,并将可学习的查询向量附加到 ,其中是随机初始化并在训练中优化的。
当组合序列[;]通过自回归Transformer处理时, 学会关注并从提示中提取相关的语义信息。
生成的被解释为由自回归模型生成的中间视觉特征或潜在表示,并被训练以逼近真实图像特征。
接下来,研究团队介绍两个训练目标并进行了对比:均方误差和流匹配,使与真实图像嵌入对齐。
给定由自回归模型生成的预测视觉特征和真实图像特征 ,研究团队首先应用一个可学习的线性投影来对齐和的维度。然后将MSE损失公式化为:
仅使用MSE损失只能使预测的图像特征与目标分布的均值对齐。理想的训练目标应能建模连续图像表示的概率分布。
研究团队建议使用流匹配FlowMatching,这是一种扩散框架,可以通过迭代地从前一个分布(例如高斯分布)中传输样本,从目标连续分布中采样。
给定一个线和由自回归模型编码的条件 ,在每个训练步骤中,研究团队采样一个时间步 t∼(0,1) 和噪声 0∼(0,1) 。
其中θ是扩散变换器的参数,而θ(t,,t) 表示基于实例 (1,) 、时间步t和噪声0预测的速度。
与离散标记不同,离散标记天生支持基于采样的策略来探索多样的生成路径,而连续表示缺乏这一属性。
具体来说,在基于MSE的训练目标下,对于给定的提示,预测的视觉特征几乎变得确定性。
因此,无论视觉解码器是基于VAE还是CLIP+Diffusion架构,输出图像在多次推理运行中几乎保持相同。
这种确定性突显了MSE的一个关键限制:它限制了模型为每个提示生成单一、固定的输出,从而限制了生成多样性。
相比之下,流匹配框架使模型能够继承扩散过程的随机性。这使得模型能够在相同的提示条件下生成多样化的图像样本,从而有助于更广泛地探索输出空间。
然而,这种灵活性是以增加模型复杂性为代价的。与MSE相比,流匹配引入了额外的可学习参数。
在研究团队的实现过程中,研究团队使用了扩散Transformer(DiT),通过经验发现增加其容量可以显著提高性能。
对于流匹配损失,研究团队保持自回归模型冻结,仅微调图像生成模块以保留模型的语言能力。
研究团队使用CLIP将图像编码为64个固定长度的语义丰富的视觉嵌入。如上图 (a) 所示。在推理过程中,给定文本提示,自回归模型预测潜在的视觉特征,随后将其传递给基于扩散的视觉解码器以重建真实图像。
作为一种替代MSE损失的方法,研究团队使用流匹配损失来训练模型以预测真实CLIP嵌入,如上图 (b)所示。
本质上,推理流程包括两个扩散阶段:第一阶段使用条件视觉特征逐步去噪为CLIP嵌入。
在推理时,给定提示 ,自回归模型生成视觉特征。然后,以为条件并在每一步迭代去除噪声,真实图像由VAE解码器生成。
因为研究团队的重点是自回归+扩散框架,所以研究团队排除了VAE+MSE方法,因为它们没有包含任何扩散模块。
为了比较各种设计选择,研究团队使用Llama-3.2-1B-Instruct作为自回归模型。研究团队的训练数据总计约2500万个样本。
下图显示,CLIP+流匹配在GenEval和DPG-Bench上都达到了最佳的提示对齐得分,而VAE+流匹配产生了最低(最佳)的FID,表明其具有优越的美学质量。
在图像生成研究基础上,下一步是开发一个统一的模型,该模型可以同时执行图像理解和图像生成。
使用CLIP + Flow Matching进行图像生成模块的开发。由于图像理解也在CLIP的嵌入空间中运行,在相同的语义空间内对齐这两个任务,从而实现它们的统一。
联合训练图像理解和图像生成是最为常见做法,这些方法采用了不同的图像生成架构,但都通过混合用于图像生成和理解的数据来进行多任务学习。
与其同时训练图像理解和生成,研究团队采用两阶段方法。在第一阶段,研究团队仅训练图像理解模块。在第二阶段,研究团队冻结MLLM主干,并仅训练图像生成模块。
在联合训练设置中,尽管图像理解和生成任务可能互相受益,但两个关键因素影响它们的协同效应:总数据量和图像理解和生成数据之间的数据比例。
相比之下,顺序训练提供了更大的灵活性:能够冻结自回归主干并保持图像理解能力。研究团队可以将所有训练能力专门用于图像生成,避免联合训练中的任何任务间影响。
基于研究团队的研究结果,研究团队采用CLIP+Flow Matching和顺序训练来开发先进的统一多模态模型BLIP3-o。
研究团队开发了两种不同大小的模型:一个是在专有数据上训练的8B参数模型,另一个是仅使用开源数据的4B参数模型。
研究团队跳过了图像理解训练阶段,直接在Qwen 2.5 VL上构建研究团队的图像生成模块。
研究团队利用Lumina-Next模型的架构来构建研究团队的DiT。Lumina-Next模型基于改进的Next-DiT架构,这是一种可扩展且高效的扩散Transformer,专为文本到图像和一般的多模态生成而设计。
对于8B模型,研究团队将大约2500万开源数据与额外的3000万专有图像结合。 所有图像标题由Qwen2.5-VL-7B-Instruct生成,平均长度为120个标记。
为了提高对不同提示长度的泛化能力,研究团队还包括了大约 10%(600万)的较短标题,每个标题大约20个标记。
尽管这些类别在预训练时本应被涵盖,但由于研究团队的预训练语料库规模有限,它们没有得到充分处理。
对于每个类别,研究团队提示GPT-4o生成大约10k个提示-图像对,创建一个有针对性的数据集,以提高模型处理这些情况的能力。
在图像理解任务中,研究团队在多个数据集上评估基准性能。如表1所示,研究团队的BLIP3-o 8B在大多数基准测试中达到了最佳性能。
由于基于模型的DPG-Bench评估可能不可靠,研究团队在下一节通过继续研究补充这些结果。
结果显示,BLIP3-o在视觉质量和提示对齐上都显著优于Janus Pro,尽管后者在表2的DPG分数更高。
两个维度的统计显著性分别为5.05e-06和1.16e-05,说明BLIP3-o的优势可信度非常高。
目前作为第一步,研究团队将专注于图像重建,将图像输入到图像理解视觉编码器中,然后通过图像生成模型进行重建,以无缝连接图像理解和生成。
在此能力的基础上,研究团队将收集指令调优数据集,以使模型适应各种下游应用。
这篇论文系统性探索了混合自回归与扩散架构在统一多模态建模中的应用,重点评估了图像表示、训练目标和训练策略三大核心要素。
实验显示,CLIP特征配合Flow Matching损失在训练效率与生成质量方面表现最佳。
研究团队推出了统一模型系列BLIP3-o,并构建了包含60k条指令的微调数据集BLIP3o-60k,显著提升了模型的提示对齐能力和图像美学质量。
05月15日,印尼三一一大学开设第二个本科中文专业,威尼斯人买球,澳博在线登录,华体会娱乐体育首页,大富豪官方下载
05月15日,水利部针对8省启动干旱防御Ⅳ级应急响应,打鱼现金平台,ky开元棋脾下载,必威首页体育,有人在凯时赢过钱吗
05月15日,伊朗以色列矛盾螺旋式升级 美西方在其中扮演什么角色?,云顶娱乐网站官网首页,博狗官方网站网址,宝马棋牌官方网站,kb体育平台怎么样
05月15日中新健康丨浙江高校发现红斑狼疮免疫失衡新机制 为治疗提供靶点贝博app下载链接leyu乐鱼手机版登录365bet体育在线滚球信誉六合心经B
05月15日黄磊:做善良的人,是一种“渡我”外围滚球app排行永利注册网址国际易发娱乐平台欧洲杯赛事大全
05月15日宁夏:多举措缓解工业企业融资难题AG亚洲官网入口皇冠正规raybet雷竞技官网下载电子游戏网站……
05月15日,加拿大众议员呼吁将每年二月设为“全国华人传统月”,奥讯比分,葡京赌博手机版,优发国际youfa,万博maxbet体育
05月15日,中央气象台发布今年首个冰冻预警 7省市有持续性冻雨,新加坡网站狮城网址大全,买球的APP哪个好,正规好的返水棋牌,买球app网易
05月15日中国铁路上海局集团有限公司上海客运段开展“心聚力向未来 乘高铁迎进博”主题活动bob综合体育平台官网爱博网页登陆wepoker德州透视挂下载英皇娱乐注册彩金
05月15日,塑料污染会杀死多种海洋物种胚胎,银河国际城网站,188体育快速登陆,best365体育投注,e星体育网页版
05月15日,星巴克与“大闹天宫”合作了,咖啡赛道加剧互卷,12bet在线试玩,猎人国际真人cs照片,手机上现金可以斗地主吗,乐鱼体育网页登录
05月15日,新疆克孜勒苏州阿合奇县发生4.0级地震 震源深度10千米,欧亿官方平台登陆3,沙巴SB体育app,沙巴网址登录,leyu乐鱼娱乐电竞
05月15日福建省政协助推打造两岸融合示范样板亚娱在线登陆万博在线登录注册AG积分王菲律宾太阳城赌城
05月15日三部门联合印发《关于跨境税费缴库退库业务管理有关事项的通知》 welcome皇冠手机版下载BETVlCTOR登录网站另解码图开元体育官网app
05月15日为强国建设注入青春动能MG真人开户博狗在线试玩ROR手机版爱游戏登陆
程安心嫁了个隐形渣男,金属口红东西问·名家坊丨王炳华:享誉学界的新中国新疆考古拓荒人蛇报电竞竞猜网址bob50app打鱼注册送200元
第八届联机大赛报名开始了,我的阿勒泰马克龙宣布2月访问乌克兰 法将向乌交付40枚远程导弹凯发娱乐平台天博克罗地亚官方网站中欧体育是不是黑平台亚博体育
元首外交战略引领新典范,孙杨冲刺都没起腿云南镇雄县凉水村山体滑坡救援:已找到两名失联人员 均无生命体征沙巴体育是正规的吗AG怎么变成九游会了金牌亚洲168体育官方入口
千阳,山东花饽饽一口咬出8个金元宝浙江嘉兴:钱塘江退潮 “潮汐巨龙”清晰可见mg国际游戏官方365bet球盘手写马会挂牌万博在线登录
印度五名医生被指涉奸杀女医生案,郑州通报货车司机坠桥:严重超限超载中国航展观察:谁是“最该追的星”kok电子网投188bet金宝搏外围官网国际象棋线up软件下载
高质量发展信心满怀,同路人第六届浙江国际智慧交通产业博览会开幕 “黑科技”亮相吸睛富豪炸金花手机版凯时开户网址BET影视BOB综合体育官网
特斯拉中国全系降价,西游记四张图片里的京津冀十年澳门百老汇赌场平台780游戏下载最新版本巴黎人导航大全银河手机app下载