江天一色: 笔记：智能WEB算法

Lucene 读取文档，分词，索引，搜索　＝》　其中，分词至关重要

PageRank 链接分析，认为用户更有可能点击他认为正确的搜索结果

基于用户相似度的推荐是可靠的，但用户量大时会比较低效

基于条目相似度数量级相对较小，较为可行

基于内容相似度有词法分析精度的问题

商用推荐系统的一个要求是，在不牺牲推荐质量的前提下具有进行实时推荐的能力

数据的特性决定了算法能否成功

聚类没有任何先验知识，因此是"无监督学习"

层次型聚类是在分组中识别分组

凝聚型聚类自底向上关联分组

高维度扩大了数据点所分布的空间，就很难判断出聚类的优劣；并且，在高维度空间中，任何数据集的数据点，无论用何种距离度量，数据点之间的差异都会变小

有可能你的分类器在一个小规模数据集工作良好，但当它作用于一个充分大的数据集时，表现急剧下降。

如果一个分类器极其精确但极其缓慢，它其实与废物差不多！

如果你使用的是基于规则的系统，也许会遇到可用性问题，学习的过程－规则的收集－会导致生产环境中的系统整体变得缓慢起来。

分类方案应该易于维护、易于测试、并且还要能够迅速的产生结果。

更多的数据并不一定意味着更多的信息量。

监督学习：我们告诉分类器应该懂得什么，然后它就尝试着通过修改自身的参数来同化这些知识，例如贝叶斯、神经网络权重、基于规则。

如果你没有告诉分类器什么是正确的，那它该如何工作？

分类器融合：降低单分类器用于未知数据的风险；平滑每个分类器在训练集中的敏感性；表达性组合效果更好。

一个分类器如果输入受到轻微的扰动时会产生不一样的输出，就称为是非稳定的。

搜索、推荐、聚类、分类

江天一色

2011年10月8日星期六

笔记：智能WEB算法

没有评论:

发表评论