读书笔记: 大数据

https://book.douban.com/people/fleure/annotation/26435217/

维数灾难

相似新闻报道检测

每家报纸会把新闻报道放在网上,但是报道周围会放置报纸相关的特定信息,比如报纸的名称、初版地址、相关报道链接以及广告链接等。此外,报纸编辑人员也往往会对原始的报道进行修改,比如去掉最后几段或者从中间删除一些文字等。因此,同样的一篇新闻报道,在不同报纸的网站上可能会显得非常不同。

可以证明,散文文本和广告或大标题文本之间的区别非常显著。散文当中停用词的频率较高,会经常使用如 “the” 或者 “and” 等的一些高频词汇。停用词的总数目随着具体应用的不同而有所不同。,但是通常都是用含几百个高频词的词表来作为停用词。

定义一个 shingle 为一个停用词加上后续的两个词。那么例 3.23 中的广告 “Buy Sudzo” 就没有 shingle,从而在包含该广告的网页的表示中不会反映出来。

非欧空间

欧氏空间的一个非常重要的性质是空间中的点的平均总是存在,并且也是空间中的一个点。

余弦距离所暗示的向量空间可能是也可能不是欧氏空间。如果向量的分量可以使任何实数,那么此时就是一个欧氏空间。但是,如果将向量的分量限定为整数,那么就是非欧空间。

邦弗朗尼原理

邦弗朗尼原理:在考察数据时,如果将某些对象视为数据的有趣特征,而这些对象中的许多实例都可能会在随机数据中出现,那么这些显著的特征就不可依赖。对于那些实际中并不充分罕见的特征来说,上述观察结果限制了从这些数据中进行挖掘的能力。

哈希函数

当哈希键都是整数时,如果选用一个与所有可能的哈希键(大部分)都具有公因子的 B 时,将会导致分配到桶中的结果不随机。因此通常都首选将 B 取为素数。