📚论文名称:《ILLM2CLIP: POWERFUL LANGUAGE RICHER VISUAL REPRESENTATION MODEL UNLOCK》 发布时间:2024/11/07 发布单位:微软 阅读重点: 本文引入LLM2CLIP训练框架,旨在利用大语言模型(LLM)来增强 CLIP 的视觉表示学习能力。核心创新在于: ◻️借鉴LLM2VECT中方法,通过Caption Contrastive(CC)微调,高效将任意LLM转化为适应表征能力的text encoder ◻️基于以上开发LLM2CLIP框架,能显著提升现有 SOTA CLIP 模型的性能,尤其是增强其处理复杂长文本语义、跨语言迁移学习能力,为下游任务和整个视觉表征领域带来了重要进展 训练方式 ◻️Caption Contrastive (CC)微调阶段:对LLM(如Llama-3)进行CC微调, 提高其文本特征的判别能力;使用CC3M数据集,将同一图像的原始captions和通过ShareCaptioner生成的重写captions作为正样本对;采用对比学习loss进行训练;模型结构改为双向注意力,masked next token prediction(MNTP)任务;冻结LLM参数,lora训练 ◻️LLM2CLIP阶段:用CC微调后的LLM替代原始CLIP的文本编码器;冻结LLM,仅训练adapter、projector和视觉编码器,利用LLM丰富的世界知识提供更好的监督信号;数据(默认配置)为15M 经MLLM(ShareCaptioner等)改写后的caption 实验结果 ◻️在长文本和短文本检索任务上将 EVA02 的性能提升了 16.5% ◻️将仅在英语数据上训练的 CLIP 模型转变为跨语言模型 ◻️与 Llava 1.5 等多模态模型集成时,在几乎所有基准测试中都优于原始 CLIP 思考 ◻️通过CC微调解决了LLM输出特征判别能力差的问题,成功地将 CLIP 转变为一个更通用的基础模型,增强了其处理复杂长文本语义的能力,使其不再受限于CLIP原始77 token的限制 ◻️通过adapter、LoRA等轻量级微调方法,训练成本与原始CLIP微调相近 #AI #chatgpt #算法 #论文