2011年10月8日星期六

笔记:智能WEB算法

Lucene 读取文档,分词,索引,搜索 =》 其中,分词至关重要

PageRank 链接分析,认为用户更有可能点击他认为正确的搜索结果

基于用户相似度的推荐是可靠的,但用户量大时会比较低效

基于条目相似度数量级相对较小,较为可行

基于内容相似度有词法分析精度的问题

商用推荐系统的一个要求是,在不牺牲推荐质量的前提下具有进行实时推荐的能力

数据的特性决定了算法能否成功

聚类没有任何先验知识,因此是"无监督学习"

层次型聚类是在分组中识别分组

凝聚型聚类自底向上关联分组

高维度扩大了数据点所分布的空间,就很难判断出聚类的优劣;并且,在高维度空间中,任何数据集的数据点,无论用何种距离度量,数据点之间的差异都会变小

有可能你的分类器在一个小规模数据集工作良好,但当它作用于一个充分大的数据集时,表现急剧下降。

如果一个分类器极其精确但极其缓慢,它其实与废物差不多!

如果你使用的是基于规则的系统,也许会遇到可用性问题,学习的过程-规则的收集-会导致生产环境中的系统整体变得缓慢起来。

分类方案应该易于维护、易于测试、并且还要能够迅速的产生结果。

更多的数据并不一定意味着更多的信息量。

监督学习:我们告诉分类器应该懂得什么,然后它就尝试着通过修改自身的参数来同化这些知识,例如贝叶斯、神经网络权重、基于规则。

如果你没有告诉分类器什么是正确的,那它该如何工作?

分类器融合:降低单分类器用于未知数据的风险;平滑每个分类器在训练集中的敏感性;表达性组合效果更好。

一个分类器如果输入受到轻微的扰动时会产生不一样的输出,就称为是非稳定的。

搜索、推荐、聚类、分类

没有评论:

发表评论