LLM2CLIP: LLM增强SOTA CLIP多模态表征能力

作者：LLM2CLIP: LLM增强SOTA CLIP多模态表征能力

📚论文名称:《ILLM2CLIP: POWERFUL LANGUAGE RICHER VISUAL REPRESENTATION MODEL UNLOCK》发布时间：2024/11/07 发布单位：微软阅读重点: 本文引入LLM2CLIP训练框架,旨在利用大语言模型(LLM)来增强 CLIP 的视觉表示学习能力。核心创新在于： ◻️借鉴LLM2VECT中方法，通过Caption Contrastive(CC)微调，高效将任意LLM转化为适应表征能力的text encoder ◻️基于以上开发LLM2CLIP框架，能显著提升现有 SOTA CLIP 模型的性能，尤其是增强其处理复杂长文本语义、跨语言迁移学习能力，为下游任务和整个视觉表征领域带来了重要进展训练方式 ◻️Caption Contrastive (CC)微调阶段：对LLM(如Llama-3)进行CC微调, 提高其文本特征的判别能力；使用CC3M数据集,将同一图像的原始captions和通过ShareCaptioner生成的重写captions作为正样本对；采用对比学习loss进行训练；模型结构改为双向注意力，masked next token prediction(MNTP)任务；冻结LLM参数，lora训练 ◻️LLM2CLIP阶段：用CC微调后的LLM替代原始CLIP的文本编码器；冻结LLM，仅训练adapter、projector和视觉编码器，利用LLM丰富的世界知识提供更好的监督信号；数据(默认配置)为15M 经MLLM(ShareCaptioner等)改写后的caption 实验结果 ◻️在长文本和短文本检索任务上将 EVA02 的性能提升了 16.5% ◻️将仅在英语数据上训练的 CLIP 模型转变为跨语言模型 ◻️与 Llava 1.5 等多模态模型集成时,在几乎所有基准测试中都优于原始 CLIP 思考 ◻️通过CC微调解决了LLM输出特征判别能力差的问题，成功地将 CLIP 转变为一个更通用的基础模型，增强了其处理复杂长文本语义的能力，使其不再受限于CLIP原始77 token的限制 ◻️通过adapter、LoRA等轻量级微调方法，训练成本与原始CLIP微调相近 #AI #chatgpt #算法 #论文

文章详情

LLM2CLIP: LLM增强SOTA CLIP多模态表征能力