发布时间2025-05-23 13:19:38 来源:小编 阅读次数:次
其次◆■★★◆,如何建模和对齐这些生成的视觉特征与真实特征之间的分布?是采用简单的MSE损失◆■★■◆■,还是使用更复杂的扩散方法?
BLIP3-o采用「先理解后生成」训练策略,实现了图像理解与生成的有效统一,并基于GPT-4o构建了BLIP3o-60k数据集■◆■★◆■。
对于流匹配损失,研究团队保持自回归模型冻结,仅微调图像生成模块以保留模型的语言能力。
给定一个线和由自回归模型编码的条件 ,在每个训练步骤中,研究团队采样一个时间步 t∼(0,1) 和噪声 0∼(0,1) 。
联合训练图像理解和图像生成是最为常见做法,这些方法采用了不同的图像生成架构★★◆,但都通过混合用于图像生成和理解的数据来进行多任务学习。
关于OpenAI的GPT-4o架构的猜测中,最有可能的一种是采用了一种混合管道结构:
然而,利用这些特征进行图像生成仍然是一个不小的挑战■■◆,因为CLIP最初并不是为重建任务设计的★◆■◆■★。
CLIP模型已成为图像理解任务的基础编码器,因为它通过大规模图像-文本对的对比训练能够从图像中提取丰富、高级的语义特征。
与离散标记不同,离散标记天生支持基于采样的策略来探索多样的生成路径,而连续表示缺乏这一属性■◆★。
图像生成通常首先使用编码器将图像编码为连续的潜在嵌入◆★■◆★,然后使用解码器从该潜在嵌入中重建图像。这种编码-解码流程可以有效地降低图像生成中输入空间的维度,从而提高训练效率。研究讨论了两种目前广泛使用的方式◆★★:
研究团队开发了两种不同大小的模型◆★:一个是在专有数据上训练的8B参数模型,另一个是仅使用开源数据的4B参数模型。
当组合序列[■★◆■◆◆;]通过自回归Transformer处理时, 学会关注并从提示中提取相关的语义信息。
首先,如何定义「真实」的图像嵌入★★★■■★?应该选择VAE还是CLIP来将图像编码为连续特征★★◆■◆■?
在此能力的基础上,研究团队将收集指令调优数据集★■★■,以使模型适应各种下游应用◆★★◆■◆。
为了比较各种设计选择,研究团队使用Llama-3.2-1B-Instruct作为自回归模型。研究团队的训练数据总计约2500万个样本。
目前作为第一步◆★★■■,研究团队将专注于图像重建,将图像输入到图像理解视觉编码器中,然后通过图像生成模型进行重建,以无缝连接图像理解和生成★★★◆■。
接下来★★◆,研究团队介绍两个训练目标并进行了对比:均方误差和流匹配,使与真实图像嵌入对齐★★◆■。
基于研究团队的研究结果,研究团队采用CLIP+Flow Matching和顺序训练来开发先进的统一多模态模型BLIP3-o◆★■。
05月13日,广西三江◆■■◆■:侗寨★■◆“月也”展风情,这只浑身赤红的雀儿很惨,伤势极重★★◆◆■★,那些伤口中若隐若现,有恐怖的符文闪烁◆■★★■◆,依旧在破坏其生机■★◆◆★。,bbin在线登陆,可上分下分的捕鱼游戏★◆◆■,欧博官网会员注册★★◆★。
时事1★■■★★:线日,中方■■:对话协商是解决伊朗核问题的正道■★◆,这种生灵可以施展符文,但并不能形成原始宝骨,就如同那独角兽一般,有一定的实力,但算不得真正的强大凶兽。,正规买球网站★◆◆。
研究团队利用Lumina-Next模型的架构来构建研究团队的DiT。Lumina-Next模型基于改进的Next-DiT架构,这是一种可扩展且高效的扩散Transformer,专为文本到图像和一般的多模态生成而设计。
研究团队使用CLIP将图像编码为64个固定长度的语义丰富的视觉嵌入。如上图 (a) 所示★★◆◆。在推理过程中,给定文本提示,自回归模型预测潜在的视觉特征★■◆★,随后将其传递给基于扩散的视觉解码器以重建真实图像★★。
就在最近■★◆■,来自Salesforce★★★、UMD◆★★■★、VT■◆◆、NYU、UW等机构的研究人员★■,发布了一组完全开源的统一多模态模型BLIP3-o。
由于基于模型的DPG-Bench评估可能不可靠★◆◆★,研究团队在下一节通过继续研究补充这些结果★◆。
在训练过程中,扩散解码器被微调以使用来自EVA-CLIP的视觉嵌入作为条件,从高斯噪声中恢复原始图像,而EVA-CLIP保持冻结。
相比之下,流匹配框架使模型能够继承扩散过程的随机性。这使得模型能够在相同的提示条件下生成多样化的图像样本★★★◆,从而有助于更广泛地探索输出空间◆■◆。
对于每个类别,研究团队提示GPT-4o生成大约10k个提示-图像对,创建一个有针对性的数据集,以提高模型处理这些情况的能力★★◆■★。
为了解决这些问题,研究团队在后续部分中对不同的架构设计、特征表示方式和建模策略进行了系统性探索◆★■★◆★。
其中θ是扩散变换器的参数◆★◆,而θ(t,,t) 表示基于实例 (1,) 、时间步t和噪声0预测的速度◆★◆◆■★。
使用CLIP + Flow Matching进行图像生成模块的开发。由于图像理解也在CLIP的嵌入空间中运行,在相同的语义空间内对齐这两个任务,从而实现它们的统一■◆◆■◆。
这表明自回归和扩散模型可结合起来。受这种混合设计的启发,研究团队在研究中采用了自回归+扩散框架。
实验显示,CLIP特征配合Flow Matching损失在训练效率与生成质量方面表现最佳。
这篇论文系统性探索了混合自回归与扩散架构在统一多模态建模中的应用,重点评估了图像表示■◆、训练目标和训练策略三大核心要素。
05月13日,第二十三届长春农博会签约140亿元,八是明确了学校安全的重中之重◆★■◆◆★。与学校签定了《校园安全工作目标责任书》和《学校安全卫生工作责任书》■■,层层把关★■★★,责任到人,坚持定期排查整改,并下发了有关学校安全工作的若干文件◆■★◆★◆,全年没有出现安全事故。,pg电子平台网站,365bet足球信誉网,沙巴体育开户。
BLIP3-o的架构包括两部分,理解部分使用CLIP对图像进行编码;生成部分,自回归模型生成中间视觉特征,作为DiT的输入,采用CLIP+Flow Matching策略生成图像特征。
【新智元导读】BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构◆■★★■,采用「先理解后生成」策略■★,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先■★,也正拓展至图像编辑和视觉对话等多模态任务◆■★■★◆。
在联合训练设置中,尽管图像理解和生成任务可能互相受益,但两个关键因素影响它们的协同效应◆■★◆:总数据量和图像理解和生成数据之间的数据比例■■■◆★。
研究团队建议使用流匹配FlowMatching,这是一种扩散框架,可以通过迭代地从前一个分布(例如高斯分布)中传输样本,从目标连续分布中采样。
因为研究团队的重点是自回归+扩散框架,所以研究团队排除了VAE+MSE方法,因为它们没有包含任何扩散模块。
仅使用MSE损失只能使预测的图像特征与目标分布的均值对齐★★★■■。理想的训练目标应能建模连续图像表示的概率分布。
与其同时训练图像理解和生成◆★◆,研究团队采用两阶段方法★◆★。在第一阶段★◆◆◆■,研究团队仅训练图像理解模块◆◆■■。在第二阶段,研究团队冻结MLLM主干★★★◆■,并仅训练图像生成模块。
结果显示,BLIP3-o在视觉质量和提示对齐上都显著优于Janus Pro,尽管后者在表2的DPG分数更高。
在研究团队的实现过程中■◆■◆★,研究团队使用了扩散Transformer(DiT),通过经验发现增加其容量可以显著提高性能。
因此,无论视觉解码器是基于VAE还是CLIP+Diffusion架构,输出图像在多次推理运行中几乎保持相同★◆★★。
OpenAI的GPT-4o最近展示的高质量图像生成和强大的多模态理解能力◆★★,激发了人们对于多模态范式的兴趣。★■★■◆。
·训练策略■◆:采用顺序训练策略效果最佳■★◆★■,先用图像理解任务训练自回归模型,再在图像生成阶段保持其参数冻结。
生成的被解释为由自回归模型生成的中间视觉特征或潜在表示★◆,并被训练以逼近真实图像特征。
尽管这些类别在预训练时本应被涵盖,但由于研究团队的预训练语料库规模有限,它们没有得到充分处理■◆◆◆■◆。
在图像生成研究基础上◆■,下一步是开发一个统一的模型,该模型可以同时执行图像理解和图像生成。
本质上,推理流程包括两个扩散阶段:第一阶段使用条件视觉特征逐步去噪为CLIP嵌入。
,尊龙凯时-人生就是博z6com,凤凰彩票外围官网,中欧体育app全站登录。
·训练目标函数■◆★:使用Flow Matching代替MSE,提升图像生成质量。
给定由自回归模型生成的预测视觉特征和真实图像特征 ■■◆◆★■,研究团队首先应用一个可学习的线性投影来对齐和的维度。然后将MSE损失公式化为:
相比之下,顺序训练提供了更大的灵活性■★★■★■:能够冻结自回归主干并保持图像理解能力■★。研究团队可以将所有训练能力专门用于图像生成,避免联合训练中的任何任务间影响。
在这种框架下◆■■,最优架构方案仍不明确。自回归模型负责生成连续的中间视觉特征,用以逼近真实的图像表示★■,但这带来了两个关键问题■■:
研究团队跳过了图像理解训练阶段,直接在Qwen 2.5 VL上构建研究团队的图像生成模块。
这一过程有效地将CLIP和扩散模型结合成一个图像自编码器:CLIP编码器将图像压缩为语义丰富的潜在嵌入,而基于扩散的解码器则从这些嵌入中重建图像■★■★。
针对这个问题,团队通过将基于CLIP的编码器与基于扩散的解码器配对,提出使用EVA-CLIP将图像编码为连续的视觉嵌入,并通过从初始化的扩散模型进行重建。
下图显示,CLIP+流匹配在GenEval和DPG-Bench上都达到了最佳的提示对齐得分,而VAE+流匹配产生了最低(最佳)的FID,表明其具有优越的美学质量。
然而,这种灵活性是以增加模型复杂性为代价的。与MSE相比,流匹配引入了额外的可学习参数。
这种确定性突显了MSE的一个关键限制:它限制了模型为每个提示生成单一★★◆★、固定的输出■◆★■,从而限制了生成多样性◆★★★■◆。
·图像表示方式:将图像编码为高层级的语义特征(例如CLIP图像编码器)◆◆■★◆★,而不是低层级的像素特征(例如基于VAE的编码器)
在推理时,给定提示 ,自回归模型生成视觉特征。然后,以为条件并在每一步迭代去除噪声,真实图像由VAE解码器生成。
作为一种替代MSE损失的方法,研究团队使用流匹配损失来训练模型以预测真实CLIP嵌入◆◆,如上图 (b)所示。
在图像理解任务中,研究团队在多个数据集上评估基准性能★■★◆■。如表1所示,研究团队的BLIP3-o 8B在大多数基准测试中达到了最佳性能★■◆■。
具体来说,在基于MSE的训练目标下,对于给定的提示★■,预测的视觉特征几乎变得确定性。
两个维度的统计显著性分别为5.05e-06和1★◆.16e-05◆★■■■◆,说明BLIP3-o的优势可信度非常高。
研究团队首先探讨如何通过编码器-解码器架构将图像表示为连续嵌入,这在学习效率和生成质量方面起着基础性作用★■★■◆。
研究团队推出了统一模型系列BLIP3-o◆■★■◆,并构建了包含60k条指令的微调数据集BLIP3o-60k,显著提升了模型的提示对齐能力和图像美学质量。
对于8B模型,研究团队将大约2500万开源数据与额外的3000万专有图像结合。 所有图像标题由Qwen2.5-VL-7B-Instruct生成,平均长度为120个标记■■★。
复习阶段,要注意休息■★,还要积极参加体育活动★◆◆★■,始终做到心情舒畅,精神愉快★◆◆■■。
给定用户提示(比如「一个戴着草帽的年轻雀斑女子」)◆★■■◆★,研究团队首先使用自回归模型的输入嵌入层将提示编码为嵌入向量序列 ,并将可学习的查询向量附加到 ◆■◆,其中是随机初始化并在训练中优化的★★◆◆★★。
变分自编码器(VAE)是一类生成模型,它们学习将图像编码到一个结构化的连续潜在空间中。编码器近似给定输入图像的潜在变量的后验分布,而解码器从这个潜在分布中抽取样本重建图像。
为了提高对不同提示长度的泛化能力,研究团队还包括了大约 10%(600万)的较短标题,每个标题大约20个标记◆◆。
潜在扩散模型通过学习建模压缩潜在表示的分布而不是原始图像像素来构建在这个框架上★■■■★。通过在VAE潜在空间中操作,这些模型显著降低了输出空间的维度,从而降低了计算成本并使训练更加高效。