Xz's blog Xz's blog
首页
时间序列
多模态
合成生物学
其他方向
生活
工具相关
PyTorch
导航站

Xu Zhen

首页
时间序列
多模态
合成生物学
其他方向
生活
工具相关
PyTorch
导航站
  • Visual Grounding

    • 多目标Grounding

    • 基于大模型(LLMs)的Visual Grounding

      • Grounding+LLMs 模型汇总
        • 1.1. Shikra
        • 1.2. KOSMOS-2
        • 1.3. BuboGPT
        • 1.4. Ferret
        • 1.5. Ferret v 2
        • 1.6. Qwen-VL
        • 1.7. MiniGPT-v 2
        • 1.8. NExT-Chat
        • 1.9. VistaLLM
        • 1.10. GroundingGPT
        • 1.11. COMM
        • 1.12. Griffon
        • 1.13. Griffon v 2
        • 1.14. Groma
        • 1.15. GLaMM
        • 1.16. SPHINX
        • 1.17. SPHINX-X
  • 多模态学习笔记
  • Visual Grounding
  • 基于大模型(LLMs)的Visual Grounding
xuzhen
2025-07-04
目录

Grounding+LLMs 模型汇总

按照大概的时间顺序总结了一下 LLM 做 grounding 任务的模型的创新点和主要思路。

# 1.1. Shikra

它使得多模态大模型在对话时有指代物体的能力。论文没给模型框架图(其实和下面的 KOSMOS-2 差不多),大模型用的 Vicuna,视觉编码器用的 ViT。使用[xmin, ymin, xmax, ymax]表示 bounding box,使用[xcenter, ycenter]表示物体中心。使用 GPT-4 生成训练数据,训练数据如下图。 Shikra训练数据

# 1.2. KOSMOS-2

目的和 Shikra 差不多,让模型有能够理解指代物体的能力。<loc44> = (x 1, y 2), <loc863> = (x 2, y 2)。设计了一个构造数据的方法,构造了大规模数据集 grounded image-text pairs (called GRIT)。 KOSMOS-2模型结构数据量⽐较

# 1.3. BuboGPT

相比上面模型,BuboGPT 能够同时理解 text-image-audio,结构没啥变化,就增加了一个模态。 BuboGPT模型 BuboGPT做 Grounding 任务的⽅法

# 1.4. Ferret

Ferret 相比其他模型升级的地方是,它可以接受图像层面的任何形状的空间指示(如 point,box,free-form shape),之前的方法都只能在语言层面指示。他提出 spatial-aware visual sampler 就是用来处理这个的。

# 1.5. Ferret v 2

相比于 v 1, Ferret v 2 能够处理高分辨率的图像,低分辨率图像经过 CLIP,引入了一个额外的 DINOv 2 编码器来处理高分辨图像。

# 1.6. Qwen-VL

从下图可以看出,和之前的模型差不多。就多了个 Vision-Language Adapter,就是图中的 CrossAttn,可学习 embs 作为 query,图像特征作为 key 和 value。所以送入 LLM 不是图像图像特征了而是可学习 embs。 Qwen-VL 训练流程

# 1.7. MiniGPT-v 2

从下面的模型结构可以看出,MiniGPT-v 2 和其他模型区别不大。一个不同的地方就是它引入了一个 Identifiers,不同任务的 Identifiers 是不同的(如下图中的[refer]就表示要做 REC 任务)。

# 1.8. NExT-Chat

NExT-Chat 和其他模型不同的是,其它模型直接将坐标[xmin, ymin, xmax, ymax]作为语言送入 LLM,NExT-Chat 就先对坐标进行编码(Box Encoder)然后送入大模型,Box Encoder 是 2 层 MLP。

# 1.9. VistaLLM

VistaLLM 和其他模型不同的地方是,VistaLLM 提出了一个 Instruction-guided Image Tokenizer(其实是一个 QFormer)来使得图像特征和指令进行对齐。

# 1.10. GroundingGPT

GroundingGPT 模型结构和正常方法没什么区别。就增加了一个对视频的理解。GroundingGPT 可以理解 Image-Video-Audio-Text。

# 1.11. COMM

从下图可以看出 COMM 其实就是使用了 2 个图像特征编码器(CLIP 和)提取视觉特征,然后再把他们 concat 起来。

# 1.12. Griffon

Griffon 在模型与正常的方法没有什么区别。但他提出了一个数据集,包含 600 万的训练数据。

# 1.13. Griffon v 2

Griffon v 2 主要解决的高分辨率图像(1024 x 1024)的问题。高分辨图像的问题是视觉 token 太多了,计算复杂度高。Griffon v 2 其实就是在 high-resolution visual encoder(其实就是 ViT)后接上卷积层。然后他也能接受除文本之外的 prompt 了,如下图的图片。

# 1.14. Groma

Groma 和其他模型主要的不同是,Groma 除了将全局的图像特征送入 LLM,还会使用一个 Region Proposer 生成一些 region proposal(bounding box),将这些 proposal 送入 Region Encoder 得到局部的视觉特征,然后送入 LLM。

# 1.15. GLaMM

GLaMM 是一个能接受视觉 prompt 的一个模型,靠的是 Region Encoder 生成局部区域的特征。Grounding Image Encoder 其实就是 SAM 的图像编码器,Pixel Decoder 其实就是类 SAM 的解码器。

# 1.16. SPHINX

SPHINX 和其他模型的不同主要是 Mixed Visual Encoders,它包括了 4 种编码器,CLIP-ConvNeXt,CLIP-ViT,DINOv 2-ViT,Q-Former。使用这 4 种编码器来提取特征。

# 1.17. SPHINX-X

相比 SPHINX,SPHINX-X 在处理高分辨率图像,SPHINX-X 考虑了图片可能有填充的情况,它为填充的子图像增加了 Skip Token。MoV 其实就是使用了两种图像编码器。

#Visual Grounding
上次更新: 2025/07/05, 22:15:22

← DINO-X

最近更新
01
Slice切片
07-26
02
引用与借用
07-26
03
所有权
07-26
更多文章>
Theme by Vdoing | Copyright © 2025-2025 Xu Zhen | 鲁ICP备2025169719号
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式