那些标签学习问题 | 隋辨的博客

从输出空间定义问题

二分类：对输出空间的定义，将输入空间通过学习方法处理为一个输出，有$P(Y | X)$ 概率模型或者是非概率模型，一般是分为0或者1 (negative or positive)，典型问题如垃圾邮件过滤。

多分类问题：对于输出空间定义，训练后的模型需要在多个分类中确定一个，典型问题如手写数字识别 (0-9 中预测正确的一个数字) 、预测出行是开车/步行/公交/自行车。

多标签学习问题：对输出空间的定义，训练后的模型需要在标签空间中确定多个标签，典例有图像标注。

从输入空间定义问题

多实例学习问题 (MIL, Multiple-Instance Learning)：假如一段视频由很多张图组成，假如10000张，那么我们要判断视频里是否包含某一物体，比如气球。单张标注每一帧是否有气球太耗时，通常人们看一遍说这个视频里是否有气球，就得到了多示例学习的数据。

部分多标签学习 (PML, Partial Multi-Label Learning)：由于标注者的专业知识不足或者数据本身模糊含混，标注者可能不太确定某标签，若不标注会丢失信息，若随机标注会带来噪声，于是把所有怀疑的标签都标注。即训练集中有伪正例 ( false positive example) ，也有正确的标签，PML的前提假设是所有的标签都会包含在候选标签中。

部分标签学习 (PLL, Partial Label Learning)：PML的特例，训练数据中只有一个标签是正确的。

缺失标签学习 (MLML, Multi-Label Missing Labels )：标注者遗漏真标签，即训练集某些数据缺失了一些真标签。

极端多标签学习 (XML, Extreme Multi-label Learning) ：XML的挑战在于指数标签空间涉及到可能有$2^L$种标签大小的标签集，特别是当标签尺寸$L$很大的时候，例如：维基百科的标签。