读书笔记: 数据挖掘导论

https://book.douban.com/people/fleure/annotation/5377669/

5.2.2 最近邻分类器的特征

像最近邻这样的消极学习方法不需要建立模型,然而,分类测试样例的开销很大,因为需要逐个计算测试样例和训练样例之间的相似度。

最近邻分类器基于局部信息进行预测,而决策树和基于规则的分类器试图找到一个拟合整个输入空间的全局模型。正式因为这样的局部分类决策,最近邻分类器(k很小时)对噪声非常敏感。

最近邻分类器可以生成任意形状的决策边界,这样的决策边界与决策树和基于规则的分类器通常所局限的直线决策边界相比,能提供更灵活的模型表示。

除非采用适当的临近性度量和数据预处理,否则最近邻分类器可能做出错误的决策。

必须做 normalization。