Lucene 读取文档,分词,索引,搜索 =》 其中,分词至关重要
PageRank 链接分析,认为用户更有可能点击他认为正确的搜索结果
基于用户相似度的推荐是可靠的,但用户量大时会比较低效
基于条目相似度数量级相对较小,较为可行
基于内容相似度有词法分析精度的问题
商用推荐系统的一个要求是,在不牺牲推荐质量的前提下具有进行实时推荐的能力
数据的特性决定了算法能否成功
聚类没有任何先验知识,因此是"无监督学习"
层次型聚类是在分组中识别分组
凝聚型聚类自底向上关联分组
高维度扩大了数据点所分布的空间,就很难判断出聚类的优劣;并且,在高维度空间中,任何数据集的数据点,无论用何种距离度量,数据点之间的差异都会变小
有可能你的分类器在一个小规模数据集工作良好,但当它作用于一个充分大的数据集时,表现急剧下降。
如果一个分类器极其精确但极其缓慢,它其实与废物差不多!
如果你使用的是基于规则的系统,也许会遇到可用性问题,学习的过程-规则的收集-会导致生产环境中的系统整体变得缓慢起来。
分类方案应该易于维护、易于测试、并且还要能够迅速的产生结果。
更多的数据并不一定意味着更多的信息量。
监督学习:我们告诉分类器应该懂得什么,然后它就尝试着通过修改自身的参数来同化这些知识,例如贝叶斯、神经网络权重、基于规则。
如果你没有告诉分类器什么是正确的,那它该如何工作?
分类器融合:降低单分类器用于未知数据的风险;平滑每个分类器在训练集中的敏感性;表达性组合效果更好。
一个分类器如果输入受到轻微的扰动时会产生不一样的输出,就称为是非稳定的。
搜索、推荐、聚类、分类
没有评论:
发表评论