Xz's blog Xz's blog
首页
时间序列
多模态
合成生物学
其他方向
生活
工具相关
PyTorch
导航站

Xu Zhen

首页
时间序列
多模态
合成生物学
其他方向
生活
工具相关
PyTorch
导航站
  • Visual Grounding

    • 开放词汇检测与Visual Grounding
      • 区别
        • 1. 零样本检测 (Zero-Shot Detection)
        • 2. 开放词汇检测 (Open-Vocabulary Detection)
        • 3. 少样本检测 (Few-Shot / Low-Shot Detection)
        • 4. 视觉定位 (Visual Grounding) / 指代理解 (Referring Expression Comprehension)
      • 参考
    • 多目标Grounding

    • 基于大模型(LLMs)的Visual Grounding

  • 多模态学习笔记
  • Visual Grounding
xuzhen
2025-08-21
目录

开放词汇检测与Visual Grounding

# 区别

# 1. 零样本检测 (Zero-Shot Detection)

零样本检测指的是模型在评估时,能够识别出在训练阶段从未见过的全新物体类别。其标准设定如下:

  • 训练阶段: 模型在一个大规模的源数据集上进行训练,该数据集包含一组已知的物体类别。
  • 测试阶段: 模型在一个全新的目标测试集上进行评估,该测试集的物体类别与训练集完全没有交集。在测试时,模型会接收图片以及一组目标类别名称(例如:啤酒、马、狗、披萨),并被要求定位出这些从未学习过的物体。

这个任务的核心是评估模型将从已知类别中学到的视觉知识泛化到未知概念上的能力。

# 2. 开放词汇检测 (Open-Vocabulary Detection)

开放词汇检测与零样本检测非常相似,但其评估范式略有不同,更侧重于模型的泛化扩展能力。其标准做法是:

  • 模型在一组**“基础类别” (base categories)** 上进行训练。
  • 然后,在一个与基础类别完全不重叠的**“新颖类别” (novel categories)** 数据集上进行测试。

示例:

  • 基础类别 (训练): [人, 微波炉, 披萨, 汽车, 狗, 桌子]
  • 新颖类别 (测试): [啤酒, 马, 自行车, 烤箱, 飞机, 汉堡]

这种设置旨在衡量模型将从基础类别中学到的知识迁移到未知类别的能力,模拟了在现有检测系统中不断添加新识别能力的场景。

# 3. 少样本检测 (Few-Shot / Low-Shot Detection)

少样本检测介于传统的全监督学习和零样本学习之间。它的目标是让模型仅通过学习**极少量(通常是1到10个)**新类别的标注样本,就能快速掌握并检测这些新类别。

这种设定非常贴近现实场景,例如,在不耗费大量资源重新训练整个模型的情况下,快速为系统添加识别新产品的能力。

# 4. 视觉定位 (Visual Grounding) / 指代理解 (Referring Expression Comprehension)

这项任务的核心是建立自然语言描述与图像中特定物体区域之间的精确对应关系。它通常表现为以下两种形式:

  • 形式一:指代理解 (Referring Expression Comprehension) 这个任务是根据一句具有唯一指向性的描述,在图像中定位出唯一特定的目标。描述通常包含属性、空间关系等复杂信息。

    • 示例1: 输入描述 “那个穿着黄色短裤的人”,模型需在多个中人精确框出符合描述的那一个。
    • 示例2: 输入描述 “从左数第二个人”,模型需理解空间顺序并定位到正确的人。
    • 输出: 一个与描述精确匹配的目标边界框。
  • 形式二:短语定位 (Phrase Grounding) 这种形式更进一步,要求模型解析一段完整的句子,并定位出句子中提到的所有物体实体。

    • 示例: 输入句子 “一名黑发女子坐在红色毯子上,抱着一个小女孩”。
    • 输出: 多个边界框,每个框分别对应句子中提到的实体,如“黑发女子”、“红色毯子”和“小女孩”。

# 参考

https://zhuanlan.zhihu.com/p/16145010471

#Visual Grounding
上次更新: 2025/08/21, 15:38:56

Grounding DINO 1.5→

最近更新
01
Linux 通过Windows代理上网
09-18
02
vscode远程使用copilot和codex(内网环境)
09-18
03
跨机器克隆环境
09-18
更多文章>
Theme by Vdoing | Copyright © 2025-2025 Xu Zhen | 鲁ICP备2025169719号
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式