多示例学习
多示例学习(Multiple Instance Learning 简称 MIL)是由监督型学习算法演变出的一种方法。
多示例学习中,定义“包”为多个示例的集合。与其他Classification方法不同,此方法仅对“包”作标签,“包”中的示例并无标签。定义“正包”:包中至少有一个正示例;反之,当且仅当“包”中所有示例为负示例时,该“包”为“负包”。
多示例学习的目的:
- 归纳出单个示例的标签类别的概念。
- 计算机通过对这些已标注的“包”学习,尽可能准确地对新的“包”的标签做出判断。
我们就拿图像分类举个例子:图像分类是基于图像内容来确定图像目标的类别。例如:一张图片上存在“sand”、”water”等各种示例,我们研究的目标是”beach”。在多示例学习中,一张图像作为一个“包”:$X={X_1 ,X_2 ,X_3 ,…,X_N }$。$X_i$是特征向量(也就是我们所说的示例),是从图像中对应的第i个区域中提取出来的,总共存在N个示例区域。那么,“包”中当且仅当”sand”和”water”都存在时,此“包”才会作上“beach”标签。显然,利用这种方法来研究图像分类就考虑到了图像中元素之间关系,相比单示例方法在某些情况下得出的分类效果更好。
多示例问题在实际的应用中非常常见,比如说,方校长建长城的时候,他要列举一些违禁词汇不让大家搜索,他觉得一个一个输入太麻烦了,于是可以找来一些黄色或者反动的网站,直接作为正样本包:网站中的词汇总有一个是违禁的。然后拿健康向上的人民日报网页作为负样本包:里面的词汇没有一个是违禁的。又比如做检测问题,标记训练图片样本的时候需要给出一个矩形框指明目标的位置,有可能标的不够准确,导致不同的样本之间对不齐,这时候可以将标记的矩形框做一些局部扰动得到一些新的矩形框,将它们一起看成一个bag,其中总有一个是最佳的正样本,也就是标记为正。而取一张没有目标的图片,作为负样本包:无论在里面怎么截取图片,都是负样本。
3.1. 依赖树关系作为句子片段
我们要从句子中提取和重新表示视觉识别单元。例如图2,我们识别(狗,孩子)单元并描述它们的属性(黑,年轻)和它们的交互关系(追逐)。受[5,22]的启发,句子的依赖树提供了丰富的关系集合,这比独立的词和二元模型更有用。我们设计了一个相似的树结构,并将每一个关系(边)用独立的句子片段表示。因此,我们用1-of-k的编码向量w表示每一个词并使用了一个400,000的字典。