Grounding+LLMs 模型汇总

按照大概的时间顺序总结了一下 LLM 做 grounding 任务的模型的创新点和主要思路。

# 1.1. Shikra

它使得多模态大模型在对话时有指代物体的能力。论文没给模型框架图（其实和下面的 KOSMOS-2 差不多），大模型用的 Vicuna，视觉编码器用的 ViT。使用[xmin, ymin, xmax, ymax]表示 bounding box，使用[xcenter, ycenter]表示物体中心。使用 GPT-4 生成训练数据，训练数据如下图。 Shikra训练数据

# 1.2. KOSMOS-2

目的和 Shikra 差不多，让模型有能够理解指代物体的能力。<loc44> = (x 1, y 2), <loc863> = (x 2, y 2)。设计了一个构造数据的方法，构造了大规模数据集 grounded image-text pairs (called GRIT)。 KOSMOS-2模型结构数据量⽐较

# 1.3. BuboGPT

相比上面模型，BuboGPT 能够同时理解 text-image-audio，结构没啥变化，就增加了一个模态。 BuboGPT模型 BuboGPT做 Grounding 任务的⽅法

# 1.4. Ferret

Ferret 相比其他模型升级的地方是，它可以接受图像层面的任何形状的空间指示（如 point，box，free-form shape），之前的方法都只能在语言层面指示。他提出 spatial-aware visual sampler 就是用来处理这个的。

# 1.5. Ferret v 2

相比于 v 1, Ferret v 2 能够处理高分辨率的图像，低分辨率图像经过 CLIP，引入了一个额外的 DINOv 2 编码器来处理高分辨图像。

# 1.6. Qwen-VL

从下图可以看出，和之前的模型差不多。就多了个 Vision-Language Adapter，就是图中的 CrossAttn，可学习 embs 作为 query，图像特征作为 key 和 value。所以送入 LLM 不是图像图像特征了而是可学习 embs。 Qwen-VL 训练流程

# 1.7. MiniGPT-v 2

从下面的模型结构可以看出，MiniGPT-v 2 和其他模型区别不大。一个不同的地方就是它引入了一个 Identifiers，不同任务的 Identifiers 是不同的（如下图中的[refer]就表示要做 REC 任务）。

# 1.8. NExT-Chat

NExT-Chat 和其他模型不同的是，其它模型直接将坐标[xmin, ymin, xmax, ymax]作为语言送入 LLM，NExT-Chat 就先对坐标进行编码（Box Encoder）然后送入大模型，Box Encoder 是 2 层 MLP。

# 1.9. VistaLLM

VistaLLM 和其他模型不同的地方是，VistaLLM 提出了一个 Instruction-guided Image Tokenizer（其实是一个 QFormer）来使得图像特征和指令进行对齐。

# 1.10. GroundingGPT

GroundingGPT 模型结构和正常方法没什么区别。就增加了一个对视频的理解。GroundingGPT 可以理解 Image-Video-Audio-Text。

# 1.11. COMM

从下图可以看出 COMM 其实就是使用了 2 个图像特征编码器（CLIP 和）提取视觉特征，然后再把他们 concat 起来。

# 1.12. Griffon

Griffon 在模型与正常的方法没有什么区别。但他提出了一个数据集，包含 600 万的训练数据。

# 1.13. Griffon v 2

Griffon v 2 主要解决的高分辨率图像（1024 x 1024）的问题。高分辨图像的问题是视觉 token 太多了，计算复杂度高。Griffon v 2 其实就是在 high-resolution visual encoder（其实就是 ViT）后接上卷积层。然后他也能接受除文本之外的 prompt 了，如下图的图片。

# 1.14. Groma

Groma 和其他模型主要的不同是，Groma 除了将全局的图像特征送入 LLM，还会使用一个 Region Proposer 生成一些 region proposal（bounding box），将这些 proposal 送入 Region Encoder 得到局部的视觉特征，然后送入 LLM。

# 1.15. GLaMM

GLaMM 是一个能接受视觉 prompt 的一个模型，靠的是 Region Encoder 生成局部区域的特征。Grounding Image Encoder 其实就是 SAM 的图像编码器，Pixel Decoder 其实就是类 SAM 的解码器。

# 1.16. SPHINX

SPHINX 和其他模型的不同主要是 Mixed Visual Encoders，它包括了 4 种编码器，CLIP-ConvNeXt，CLIP-ViT，DINOv 2-ViT，Q-Former。使用这 4 种编码器来提取特征。

# 1.17. SPHINX-X

相比 SPHINX，SPHINX-X 在处理高分辨率图像，SPHINX-X 考虑了图片可能有填充的情况，它为填充的子图像增加了 Skip Token。MoV 其实就是使用了两种图像编码器。

#Visual Grounding

上次更新: 2025/07/05, 22:15:22

← DINO-X