那些标签学习问题

从输出空间定义问题

二分类:对输出空间的定义,将输入空间通过学习方法处理为一个输出,有$P(Y | X)$ 概率模型或者是非概率模型,一般是分为0或者1 (negative or positive),典型问题如垃圾邮件过滤。

多分类问题:对于输出空间定义,训练后的模型需要在多个分类中确定一个,典型问题如手写数字识别 (0-9 中预测正确的一个数字) 、预测出行是开车/步行/公交/自行车。

多标签学习问题:对输出空间的定义,训练后的模型需要在标签空间中确定多个标签,典例有图像标注。

从输入空间定义问题

多实例学习问题 (MIL, Multiple-Instance Learning):假如一段视频由很多张图组成,假如10000张,那么我们要判断视频里是否包含某一物体,比如气球。单张标注每一帧是否有气球太耗时,通常人们看一遍说这个视频里是否有气球,就得到了多示例学习的数据。

部分多标签学习 (PML, Partial Multi-Label Learning):由于标注者的专业知识不足或者数据本身模糊含混,标注者可能不太确定某标签,若不标注会丢失信息,若随机标注会带来噪声,于是把所有怀疑的标签都标注。即训练集中有伪正例 ( false positive example) ,也有正确的标签,PML的前提假设是所有的标签都会包含在候选标签中。

部分标签学习 (PLL, Partial Label Learning):PML的特例,训练数据中只有一个标签是正确的。

缺失标签学习 (MLML, Multi-Label Missing Labels ):标注者遗漏真标签,即训练集某些数据缺失了一些真标签。

极端多标签学习 (XML, Extreme Multi-label Learning) :XML的挑战在于指数标签空间涉及到可能有$2^L$种标签大小的标签集,特别是当标签尺寸$L$很大的时候,例如:维基百科的标签。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注