高维数据的重要属性:
- 数据集的大小随着维数呈指数级增长。
- 在高维样本空间中,需要一个更大的数据才能把小部分的数据放入。
- 在高维度空间中,几乎每一个点都比其他样本点更接近于某一边界。
- 几乎每一个点都是异常点。
随着维数的增加,数据密度会越来越小,稀疏。如果样本没增加,只是增加维数,就会导致最终任意两个样本点的距离一样大。
理解:假如一个电信客户有短信功能,另外一个客户有通话功能,还有一个客户有上网功能。那么,如果把他们的记录都放在一个表,则会导致
第一个客户的通话和上网属性为0,第二个客户的短信和上网属性为0,第三个客户的短信和通话为0,这样计算这三个客户的距离就会变得很大。
做个小推广:程序员经常久坐,颈椎毛病比较多,特别推荐