凯发k8国际娱乐官网入口|电玩网|开源即屠榜!UniME多模态框架登顶MMEB训

2025-05-23

  格灵深瞳◈ღ★、阿里ModelScope团队◈ღ★,以及通义实验室机器智能团队联合发布通用多模态嵌入新框架UniME◈ღ★,一经推出就刷新MMEB训练榜纪录◈ღ★。

  UniME作为一个创新性的两阶段框架◈ღ★,所展现的卓越的组合理解力◈ღ★,帮助MLLMs具备学习适用于各种下游任务的判别性表征的能力◈ღ★,并在多个任务中达到了新的SOTA◈ღ★。

  受E5V等之前研究的启发◈ღ★,研究团队第一阶段选择使用纯文本数据来增强了MLLM中LLM语言组件的嵌入能力◈ღ★。

  从最先进的基于LLM的嵌入模型NV-Embed V2(该模型在对比训练中移除了因果注意力掩码并使用多个多样化的数据集进行训练)中转移知识◈ღ★。

  通过在一个批次内不同样本之间的关系蒸馏◈ღ★,该方法在相同数据和训练条件下相较于直接使用对比学习在下游任务中展示出显著的性能提升◈ღ★。

  在训练阶段◈ღ★,此方法仅使用纯文本输入◈ღ★,并单独优化多模态语言模型架构中的语言模型组件◈ღ★,同时保持其他参数不变◈ღ★。

  对于图文交错的输入凯发k8国际娱乐官网入口凯发k8国际娱乐官网入口◈ღ★,独立处理每种模态及其相应的提示◈ღ★,并通过元素级求和聚合嵌入从而得到最终的多模态表示◈ღ★。

  在完成文本判别知识蒸馏截断的训练后◈ღ★,UniME已经具备了初步的判别能力但表现出较弱的视觉敏感性◈ღ★,这种不敏感导致图文对齐出现偏差◈ღ★,并限制了判别性能◈ღ★。

  1. 进一步增强模型判别能力◈ღ★。2. 改善模型跨模态对齐◈ღ★。3. 加强下游任务中的指令跟随能力◈ღ★。

  困难负样本在标签上与正样本不同但在向量空间中非常接近◈ღ★,这类具有挑战性的样本能够在对比学习过程中显著增强模型的判别能力◈ღ★。

  这一阶段仅使用纯文本输入并仅训练极少的参数(通常不超过总数的5%)◈ღ★,完整训练Phi3.5-V和LLaVA-1.6分别需要大约1小时和2小时◈ღ★。

  参照VLM2Vec◈ღ★,使用了GradCache梯度缓存技术将对比损失计算和编码器更新的反向传播分离◈ღ★;采用QLoRA对MLLM内所有参数进行参数高效的微调◈ღ★。

  研究人员在第一阶段的文本判别知识蒸馏中使用了Natural Language Inference(NLI)数据集◈ღ★,该数据集包含约273k个句子对◈ღ★。

  对于困难负例增强指令调优阶段◈ღ★,使用了MMEB基准提供的训练数据集◈ღ★,涵盖了四个核心多模态任务◈ღ★:分类◈ღ★、视觉问答◈ღ★、多模态检索和视觉定位◈ღ★。

  这一全面的训练语料库◈ღ★,结合了单模态和多模态输入数据◈ღ★,共计662k经过精心策划的训练对k8凯发◈ღ★,确保了模型在多样化的多模态任务中的稳健适应◈ღ★。

  团队评估了MMEB中的分布内(20个测试集)和分布外(16个测试集)基准◈ღ★,以评估UniME在多样化检索任务中的多模态嵌入能力◈ღ★。

  为了进一步检验UniME的单模态嵌入性能电玩网◈ღ★,研究人员在多个跨模态检索任务上进行了实验◈ღ★,包括短标题图文检索(Flickr30K和COCO2014)◈ღ★,长标题图文检索(ShareGPT4V和Urban1K)◈ღ★,以及组合式检索(SugarCrepe)◈ღ★。

  在表1中◈ღ★,展示了UniME与现有基线模型的性能对比◈ღ★,其中IND代表分布内数据集◈ღ★,OOD代表分布外数据集凯发k8国际娱乐官网入口◈ღ★,报告的分数是相应数据集上平均精确度◈ღ★,最佳结果用粗体标出◈ღ★,†表示仅文本判别蒸馏的UniME◈ღ★,‡表示文本判别蒸馏和困难负样本增强指令调优的UniME◈ღ★。

  在相同的训练数据和配置设置下◈ღ★,UniME相比E5-V在不同的基础模型上始终展示出显著的性能提升◈ღ★。

  使用Phi3.5-V模型时◈ღ★,UniME的平均性能提高了4.2%◈ღ★;采用LLaVA-1.6作为基础模型时◈ღ★,UniME的平均性能进一步提高了4.1%电玩网◈ღ★。

  这些显著的性能提升主要归功于团队提出的文本判别知识蒸馏方法可以更有效地增强MLLM中LLM语言组件的判别能力凯发k8国际娱乐官网入口◈ღ★。

  与E5-V相比凯发k8国际娱乐官网入口◈ღ★,UniME矩阵的对角线清晰度显著增强◈ღ★,表明UniME学习到了更具判别性的表征◈ღ★。

  随后的困难负例增强指令调优进一步提升了UniME的表现◈ღ★,相较于VLM2Vec提高了5.2%-11.3%◈ღ★。

  对于在ShareGPT4V和Urban1K数据集上的长标题检索任务◈ღ★,UniME在所有指标上均表现出优越性能◈ღ★。

  在文本判别蒸馏阶段后◈ღ★,基于Phi3.5-V模型UniME展示了1.3%-3.8%的性能提升◈ღ★。

  随后通过困难负例增强指令调优的进一步增强◈ღ★,UniME相较于VLM2Vec提高了2.0%-8.3%◈ღ★。

  这一显著增强主要源于EVA-CLIP(8B)受77文本输入令牌长度的限制凯发天生赢家一触即发◈ღ★,◈ღ★,从而严重阻碍了其传达长标题完整语义信息的能力◈ღ★。

  在文本判别知识蒸馏后◈ღ★,基于Phi3.5-V的UniME在关系替换◈ღ★、对象交换和属性添加任务中分别比E5-V表现出2.0%◈ღ★、1.0%和15.9%的性能提升◈ღ★。

  在第二阶段困难负例增强指令微调后电玩网聚乙烯板◈ღ★,◈ღ★,UniME的组合理解能力得到进一步增强电玩网◈ღ★,与VLM2Vec相比分别实现了3.9%◈ღ★、4.2%和9.1%的性能提升◈ღ★。

  此外◈ღ★,与EVA-CLIP(8B)相比◈ღ★,UniME在这些任务上也显示出了4.2%◈ღ★、0.6%和6.6%的提升◈ღ★,凸显了其在区分困难负例方面的强大能力◈ღ★。

  在下图中◈ღ★,展示了三种类型负样本的训练损失和裁剪前梯度范数◈ღ★:简单负样本(批次中最不相似的样本)◈ღ★,随机负样本(批次中随机采样的负样本)◈ღ★,以及困难负样本(在移除正例和假负例后批次中最相似的负样本)◈ღ★。

  由于就简单负样本容易区分◈ღ★,模型通过学习这类数据很难增强其判别能力◈ღ★,因此训练损失迅速收敛到接近零◈ღ★。

  在经过文本判别知识蒸馏后◈ღ★,模型在MMEB基准◈ღ★、短长标题跨模态检索和组合检索任务上分别获得了15%◈ღ★、19.5%◈ღ★、24.9%和19.9%的性能提升◈ღ★。

  如果仅进行第二阶段负样本增强指令微调◈ღ★,同一任务的性能提升分别为38.5%◈ღ★、17.3%◈ღ★、21.3%和14.0%◈ღ★。

  值得注意的是◈ღ★,第二阶段在MMEB基准的性能提升明显超过第一阶段◈ღ★,主要是由于模型在遵循下游任务复杂指令方面的能力得到了改善◈ღ★。

  为了进一步探索UniME嵌入捕获的语义表达◈ღ★,使用此提示“ Summary above image in one word: \n”天生赢家 一触即发◈ღ★,并在下图中展示了不同训练阶段之前和之后◈ღ★,top-k下一个预测词汇的预测概率◈ღ★。

  经过文本判别知识蒸馏后◈ღ★,词汇转向更具体的语义◈ღ★,包括“cow”◈ღ★、“waterfront”和“house”◈ღ★,尽管概率分布仍主要集中在“Farm”◈ღ★。

  在第二阶段困难负样本增强指令微调后◈ღ★,概率分布在与图像语义一致的多个词汇上变得更加均匀◈ღ★,从而使嵌入能够更准确地表达图像的语义内容◈ღ★,并增强其判别能力◈ღ★。

  05月11日凯发首页官网登录◈ღ★,◈ღ★,江苏南京◈ღ★:三棵千年古银杏迎来最佳观赏季◈ღ★,天天德州害了多少人电玩网◈ღ★,hg2020app◈ღ★,明升体育官网是多少◈ღ★,K8凯发登录官网

  05月11日◈ღ★,看图学习丨新时代的乡村振兴 要把特色农产品和乡村旅游搞好◈ღ★,手机单机斗地主◈ღ★,酷游app下载平台凯发链条导轨◈ღ★。◈ღ★,真人菲律宾金佰利国际◈ღ★,火狐体育下载手机版

  05月11日◈ღ★,邯郸国际陆港“公转铁”项目全面开工◈ღ★,天博网址是多少◈ღ★,18luck新利官网利app◈ღ★,葡金威尼斯◈ღ★,大嬴家体育比分

  05月11日深港双向奔赴再迎小高峰乐橙app官网下载安装永利体育最新版APPbbin世界杯玩法365bet足球滚球盘

  05月11日【两会30秒】黄强◈ღ★:四川把人工智能作为全省1号创新工程维多利亚网络网站多少伟德体育在线注册mg游戏摆脱手机版技巧爱游戏体育平台怎么样

  05月11日天津港保税区与北戴河新区达成六项战略合作mg现金游戏开户金沙电玩城娱乐马博体育买球网站炸金花苹果手游……

  05月11日◈ღ★,中方谈中东局势◈ღ★:近期发生的一系列事件再次表明停火止战的紧迫性◈ღ★,新宝5登录测速中心◈ღ★,网投体育平台合集下载◈ღ★,188比分足球◈ღ★,信用网娱乐平台

  05月11日◈ღ★,2024年台湾地区两项选举结果揭晓◈ღ★,168在线注册电玩网◈ღ★,亚博游戏平台◈ღ★,必威全站网页版登录◈ღ★,手机真人APP下载安装

  05月11日“顺德新港——海南洋浦港”内外贸同船班轮航线开通完美体育下载官网足球波胆比分网赌博电竞星速下载app下载

  05月11日◈ღ★,中国驻日使馆就日方涉靖国神社消极动向答问◈ღ★,劲爆体育官网◈ღ★,安博体育电竞下载◈ღ★,美高梅下载◈ღ★,新加坡网站狮城网址大全

  05月11日◈ღ★,处暑节气适合做哪些运动?丨时令节气与健康◈ღ★,半岛游戏中心官网◈ღ★,hth华体会官网APP◈ღ★,微信上下分的捕鱼平台◈ღ★,太阳集团app下载

  05月11日(乡村行·看振兴)江西共青城◈ღ★:科技小院助力杨梅产业提质升级365bet体育外围客户端现金网游戏平台yabo注册太阳娱乐场官网

  05月11日2023中国金融级分布式数据库市场报告发布凯发k8娱乐官网入口◈ღ★,GaussDB位居领导者象限◈ღ★!二八杠网上哪里可以玩2020年欧洲杯决赛圈分组365bet平台客户端下载凯发k8

  05月11日“春之声·金梦想”春节文化交流系列活动走进尼泊尔孟加拉国日博体育备用万博官网登陆页进不去永利国际平台f66永乐国际勇往直前

  T1对战Fly◈ღ★,2024央视网络春晚阵容【良法善治】习言道|更好发挥宪法在治国理政中的重要作用英亚娱乐app凯发娱乐手机登陆bob综合体育app平台欧宝官方入口

  萤火虫 开票◈ღ★,白夜破晓大结局广西山水田园暑期游火热 游客“水墨画”中觅清凉深海捕鱼千炮版官方365bet手机中文188bet下载地址必博体育官网网址

  星穹铁道3.0版本爆料◈ღ★,男孩丢失人工耳蜗69小时寻回即将重新开放 巴黎圣母院夜色中灯火辉煌众赢娱乐FG棋牌官网至尊捕鱼电玩必威在线个新作品油管预估收入超8万◈ღ★,九部的检察官中共中央政治局召开会议 中共中央总书记习近平主持会议bck体育不能登录威尼斯游戏网址大全nv8588网投线上导航九游会线路检测

  紫金矿业回应被贩毒集团掠夺3吨黄金◈ღ★,工厂请千名工人吃1吨龙虾西瓜中国正能量|我们的新疆大赢家体育足球kb88凯时官网手机登录地址币游网址必赢亚洲手机版官网登录

  赵丽颖乔妍的新事碎片◈ღ★,比特币超白银 成全球市值第八大资产(巴黎奥运)场地自行车女子团体争先赛决赛◈ღ★:中国队第六欧冠新赛季万博appAG娱乐的网址是多少利来国际老牌app必赢亚洲官网登录手机号

  又见逍遥◈ღ★,盘点历代tga年度最佳游戏斯诺克世界公开赛回归中国 6名中国选手率先晋级正赛新濠天地官方下载稳定分分彩官方网址爱游戏地址入口电游老虎机