读书笔记: Spark机器学习

https://book.douban.com/people/fleure/annotation/26593179/

准确率和召回率

在信息检索中,准确率通常用于评价结果的质量,而召回率用来评价结果的完整性。

通常,准确率和召回率是负相关的,高准确率常常对应低召回率,反之亦然。

准确率和召回率在单独度量时用处不大,但是它们通常会被一起组成聚合或者平均度量。二者也同时依赖于模型中选择的阈值。

设计机器学习系统

现代的大数据场景包含如下需求:比如能与系统的其他组件整合,尤其是数据的收集和存储系统、分析和报告以及前端应用;易于扩展且与其他组件相对独立..;.. 最好能同时支持批处理和实时处理。

个性化和推荐十分相似,但推荐通常专指向用户显式地呈现某些产品或是内容,而个性化有时偏向隐式。比如说,对 MovieStream 的搜索功能个性化,以根据该用户的数据来改变搜索结果。

对数据进行初步预处理之后,需要将其转换为一种适合机器学习模型的表示形式。对许多模型类型来说,这种表示就是包含数值数据的向量或矩阵。

在现实系统中,模型的应用将影响用户的决策和潜在行为,从而反过来将从根本上改变模型自己将来的训练数据。