Navigation menu

新闻中心

Florence-VL来了!使用生成式视觉编码器,重新定义

AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:[email protected][email protected]本文由马里兰年夜学,微软研讨院结合实现。作者包含马里兰年夜学博士生陈玖海,重要研讨偏向为言语模子,多模态模子。通信作者为 Bin Xiao, 重要研讨偏向为盘算机视觉,深度进修跟多模态模子。其余作者包含马里兰年夜学助理教学Tianyi Zhou , 微软研讨院研讨员 Jianwei Yang , Haiping Wu, Jianfeng Gao 。论文:https://arxiv.org/pdf/2412.04424开源代码:https://github.com/JiuhaiChen/Florence-VL名目主页:https://jiuhaichen.github.io/florence-vl.github.io/在线 Demo:https://huggingface.co/spaces/jiuhai/Florence-VL-8B模子下载:https://huggingface.co/jiuhai/florence-vl-8b-sftFlorence-VL 提出了应用天生式视觉编码器 Florence-2 作为多模态模子的视觉信息输入,战胜了传统视觉编码器(如 CLIP)仅供给单一视觉表征而每每疏忽图片中要害的部分信息。 但是 Florence-2 经由过程天生式预练习,将多种视觉义务(如图像描写、目的检测、笔墨辨认跟工具定位)同一为 sequence-to-sequence 构造,并经由过程 prompt 来实现多样化的视觉义务。在 Florence- VL 中,咱们仅应用一个视觉编码器 Florence-2,但采取多个差别的 prompt,分辨重视 caption,OCR 跟 grounding,来取得差别档次的视觉表征。经由过程融会这些差别深度的特点,Florence-VL 实现了更片面的视觉懂得。弁言跟着年夜范围言语模子(LLM)的疾速开展,多模态年夜言语模子(MLLMs)成为视觉与言语义务的主流处理计划。但是,现有的视觉编码器(如 CLIP 跟 SigLIP)固然在团体语义提取方面表示杰出,但存在显明缺乏:缺少细粒度懂得:仅捕捉图像的团体语义,疏忽像素级跟部分地区的细节。义务泛化才能无限:难以适配 OCR、物体定位等须要特定视觉特点的义务。Florence-VL 恰是针对这一成绩提出的处理计划。经由过程引入天生式视觉基本模子 Florence-2,Florence-VL 在坚持高效练习的同时,可能机动适配差别义务,补充传统视觉编码器的缺点。在接上去的局部,咱们将具体先容 Florence-2 背地的技巧原,Florence-VL 怎样应用多义务视觉特点,以及咱们提出的深度 - 广度融会战略怎样实现视觉信息的高效整合。配景先容:Florence-2传统视觉编码器如 CLIP 跟 SigLIP 重要依附对照进修来预练习,固然能在跨模态义务中获得不错后果,但其输出的图像特点平日是单一的全局语义表现,难以捕捉细粒度信息。这一缺点使得这些模子在 OCR 文本提取、工具定位等义务上表示欠安。Florence-2 则采取了天生式预练习的方法,将多种视觉义务同一到一个编码 - 解码框架中,可能依据差别义务提醒天生多样化的视觉特点。Florence-2 的重要流程包含:视觉编码器 DaViT:将输入图像转换为基本视觉特点。义务提醒机制:经由过程差别的文本提醒调剂天生目的,从而提取义务特定的视觉信息。编码 - 解码框架:联合视觉跟文本特点,输出满意差别义务需要的成果。经由过程这一架构,Florence-2 实现了全局语义到部分细节的视觉特点天生,为多模态义务供给了更片面的视觉表现。接上去咱们将先容怎样应用 Florence-2 来构建 Florence-VL。方式:深度与广度融会 (DBFusion)Florence-VL 的中心翻新在于咱们提出的深度 - 广度融会(Depth-Breadth Fusion)战略,它充足发掘 Florence-2 的天生式特征,将多义务提醒跟多层级特点无效联合,构成更丰盛的视觉表征。1. 广度:经由过程义务提醒扩大视觉表征差别的视觉义务须要差别的视觉信息。比方:Captioning:用于懂得图像团体语义,天生描写性文本。OCR:提取图像中的文本内容,尤其实用于带有笔墨的图像。Grounding:用于定位物体,捕获物体之间的关联。Florence-2 经由过程差别的义务提醒,天生针对性强的视觉特点,从而实现视觉特点的 “广度” 扩大。2. 深度:整合多层级的视觉特点Florence-2 的差别深度层可能捕捉从 low- level 到 high-level 的视觉特点,这种多层级特点的联合,保障了视觉编码器既能存眷细节,又能捕捉团体信息。3. 融会战略:通道拼接实现高效整合为了将多义务跟多层级的特点高效融会,咱们计划了通道拼接(Channel Integration)战略。详细做法是将差别特点按通道维度拼接,并经由过程 MLP 映射到言语模子的输入空间。这一战略的上风在于:防止了增添练习与推理时的序列长度以及最年夜水平保存了视觉特点的多样性与完全性。剖析:多种视觉编码器的对照为探究差别视觉编码器(如 CLIP、SigLIP、DINOv2 跟 Florence-2)跟年夜言语模子的对齐才能,咱们采取了试验来定量评价差别视觉编码器与言语模子的跨模态对齐品质。详细方式如下:对每组图文配对 (image- caption pair),视觉编码器天生视觉特点,言语模子天生文本特点,咱们经由过程可练习投影对视觉特点跟文本特点停止维度对齐,而且经由过程对齐丧失函数来评价视觉编码器跟言语模子的对齐才能。试验成果标明,Florence-2 相较于其余视觉编码器表现出更优的跨模态对齐才能。试验验证为了片面评价 Florence-VL 的机能,咱们计划了一系列试验,涵盖通用视觉问答、OCR、常识懂得等多模态义务。1. 试验义务与数据通用视觉问答:如 VQAv2、GQA 等。OCR 与图表义务:如 TextVQA 跟 ChartQA,着重文本提取与图表剖析。视觉主导义务:如 CV-bench 跟 MMVP, 着重视觉信息懂得。常识麋集型义务:如 AI2D、MathVista 等,测试模子对基础常识的懂得才能。咱们应用了经由挑选的 15M 图像描写数据 (detailed caption)与 10M 高品质指令微调数据停止练习,以确保数据的多样性跟高品质。2. 试验成果在试验成果中,Florence-VL 在多个多模态基准义务上展示出出色的机能上风。特殊是在 TextVQA 跟 OCR-Bench 等文本提取义务上,得益于 Florence-2 天生式视觉编码器供给的细粒度 OCR 特点。别的,在通用视觉问答义务,视觉主导义务,常识麋集型义务中,Florence-VL 经由过程深度 - 广度融会战略无效联合了多层级、多义务视觉特点,使得团体正确率比拟传统 CLIP-based 方式有所晋升。3. 融化试验为了证实采取 Florence-2 作为视觉编码器的优胜性,咱们应用 llava 1.5 的预练习跟指令微调数据,而且采取跟 llava 1.5 雷同的练习战略。咱们发明 florence-VL 明显优于 llava 1.5,  Florence-VL 在 TextVQA 跟 OCR-Bench 等义务中表示凸起,表现诞生成式视觉特点在提取图像笔墨信息中的上风。总结在本文中,咱们提出了 Florence-VL,一种基于天生式视觉编码器 Florence-2 的多模态年夜言语模子。与传统依附对照进修的视觉编码器(如 CLIP)比拟,Florence-2 经由过程天生式预练习可能捕获更丰盛的视觉特点,供给多档次、多角度的图像表征。咱们计划了翻新的深广融会(Depth-Breadth Fusion)战略,经由过程整合差别深度档次跟义务提醒天生的视觉特点,将视觉信息片面映射到言语模子输入空间。经由过程普遍的试验,咱们验证了 Florence-VL 在多种义务中的出色表示,包含通用视觉问答、OCR、图表懂得跟常识麋集型义务等。在将来,咱们将进一步摸索:比方自顺应融会战略:依据义务静态调剂深度与广度特点的均衡等。[1]. https://arxiv.org/abs/2311.06242© THE END 转载请接洽本大众号取得受权投稿或追求报道:[email protected]]article_adlist-->   申明:新浪网独家稿件,未经受权制止转载。 -->