对象差分注意力机制

less than 1 minute read

论文基本信息

  1. 论文名:Object-Difference Attention: A Simple Relational Attention for Visual Question Answering

  2. 论文链接:http://www.acmmm.org/2018/accepted-papers/

  3. 论文源码:
    • None
  4. 关于作者:
    • 吴晨飞,北邮AI Lab博士
  5. 关于笔记作者:
    • 朱正源,北京邮电大学研究生,研究方向为多模态与认知计算。

论文推荐理由

注意机制极大地促进了视觉问答技术(VQA)的发展。注意力分配在注意力机制中起着至关重要的作用,它根据对象(如图像区域或定界框)回答问题的重要性对图像中的对象(如图像区域或包围盒)进行不同的权重。现有的工作大多集中在融合图像特征和文本特征来计算注意力分布,而不需要比较不同的图像对象。作为注意力的一个主要属性,分离度取决于不同对象之间的比较。这种比较为更好地分配注意力提供了更多的信息。为了实现对目标的可感知性,我们提出了一种对象差分注意(ODA)方法,通过在图像中实现不同图像对象之间的差值运算来计算注意概率。实验结果表明,我们基于ODA的VQA模型得到了最先进的结果。此外,还提出了一种关系注意的一般形式。除了ODA之外,本文还介绍了其他一些相关的注意事项。实验结果表明,这些关系关注在不同类型的问题上都有优势。

对象差分注意力机制:视觉问答中一个简单的关系注意力机制

引言

本文术语

  1. 序列编码的方式:
    1. RNN: $y_t=f(y_{t-1},x_t)$
    2. CNN: $y_t=f(x_{t-1},x_t,x_{t+1})$
    3. Attention: $y_t=f(x_t, A, B), if A = B = X: Self Attention$
  2. 注意力机制的例子
  1. 应用于VQA的注意力机制编年史:

    1. one-step linear fusion
    2. multi-step linear fusion
    3. bilinear fusion
    4. multi-feature attention
  2. Mutan机制

论文写作动机

  1. 现有的工作大多集中在融合图像特征和文本特征来计算注意力分布,而忽略了比较不同的图像对象之间的差异。 img 如上图,想要回答出问题图中最高的花是什么?,我们建立的模型就需要不仅仅关注潜在答案玫瑰,也应该关注兰花
  2. 如何合理分配现有问题的注意力?

解决问题的方法

玫瑰例子

对于回答图中最高的花是什么?,一共分几步?

  1. 找到图中所有的花。
  2. 比较不同的花对于正确答案的重要性。

正确的答案就会在比较的过程中产生。若以这个例子作为启发,一种新型的注意力机制的思路便产生了:ODA在问题的指导下,通过将每个图像对象与其他所有对象进行对比,计算出图像中物体的注意注意力分布。

模型细节

img

  1. 将数据Embedding
    1. $V^f=RCNN(image)$,其中$v^f$是一个$m\times{d_v}$维的embedding,代表拉出的$m$个框。
    2. $Q^f=GRU(question)$,其中$Q^f$代表$d_q$维的问题embedding。
    3. $V=relu(Conv1d(V^f))$
    4. $Q=relu(Linear(Q^f))$
  2. 对象差分注意力

该模型的优点: 1. 通过对比(差分)),我们可以选择更重要的对象。 2. 计算复杂度相对与传统注意力机制模型(Mutan)低。 3. ”即插即用“的特性使得该模型十分容易应用到其他领域。

  1. 决策阶段
    1. 通过对$\hat{V}$计算$p$次,并且将结果拼接在一起。

    可以参考Attention is all you need模型的multi-head

    1. 将图片的特征和问题的特征相结合
    2. 预测

扩展:相关性注意力

针对模型中$(V_i-V_j)\odot{Q}$部分进行扩展,可以得到不同类型的注意力机制

img

实验结果分析

数据集

  • VQA1.0 dataset
  • VQA2.0 dataset
  • COCO-QA dataset

评估指标

  • 针对VQA1.0和VQA2.0,使用准确率: img
  • 针对COCO_QA使用: img

实验结果评价

  • 在VQA1.0上与最先进的模型对比 img
  • 在VQA2.0上与最先进的模型对比 img
  • 在VQA3.0上与最先进的模型对比 img

总结

从感性的角度来说,对象差分注意力机制符合人类根据图片回答问题的思考过程。未来的研究方向应该是通过对世界的常识性知识建立一个世界模型,通过先验知识减少计算量和对大量带有标签的数据的依赖性。

引用与参考

  1. https://kexue.fm/archives/4765

Comments