腾讯分分彩组三杀号 > Web分析 >

Web使用挖掘是将数据挖掘技术应用到Web使用数据

2018-07-21 12:35

  文档聚类是指大量的文档被分成多个组,每个组在内容上相似。这通常是一个优化文档检索的中间过程。文档聚类基于文档特征(单一的关键词或词组),这被用来加快检索或实施基于关键词的检索。文档聚类基于通常的数据聚类算法。通过一组特征表示每个文档,这些算法被用到文本数据,并以同样的方法对文档进行分类。两个文档的相似通过文档单词矢量表示的余弦进行测度。文档聚类可用于处于同一个物理位置的集合,也可用于提供因特网开放集合存取的搜索引擎。

  Web使用挖掘是将数据挖掘技术应用到Web使用数据。通常对于数据挖掘来说,目标是构建用户行为模型,或直接构建一个适应性系统。用户模型的潜在优势在于它可用于不同的目的,这里适应性系统具有特定的功能。为了对用户行为建模,使用挖掘与有关用户的其他信息相结合。用户的许多方面可以建模:他们与系统的交互、他们的兴趣、他们的知识、他们的地理行为。对偏好建模需要有关用户对个别对象的偏好的信息,这常常存在问题,因为用户不总是准备着评估对象或输入评估。因此,需要利用其他数据如下载、购买和时间数据。

  适应性系统旨在改善系统行为的一些方面。改善体现在面向系统的、面向内容的(如提供与用户相关的信息或产品),或面向业务的(如提供用户愿买或商家愿卖的广告)。另外,要考虑模型或适应性是考虑了个别用户的个性,还是一般的系统行为。折中的方法是利用获得的使用信息来调整系统行为,也可与个性化相结合。

  基于使用挖掘的面向系统的改善旨在运行优化,如Web服务器。这对面临拥塞问题的大型站点来说非常重要。导致运行恶化的一个重要因素是存取像磁盘这样的慢速存储器,网页可以根据用户需求从硬盘中得到预先提取。因此,有必要设计出智能预先提取机制,以允许有效的缓存。使用挖掘有助于解决这个问题。