腾讯分分彩组三杀号 > 数据挖掘 >

什么是海量数据挖掘引擎

2018-07-13 14:14

  传统的关键词搜索引擎技术产生于上世纪末,通过对网页文本的全文搜索提供了网页快速查询的手段,使得网页信息的可用性大大提高。但随着网页数量的快速膨胀,重复引用,使得罗列的搜索结果越来越难以利用。多媒体技术、宽带技术的发展也使网络资源日趋多元化,这些资源质量评价标准不同、特征各异,混合排序难以达到满意的效果。网络用户年龄结构年轻化,平均知识水平降低,使得用户对搜索技巧掌握、结果筛选的能力降低。网络上不同领域爱好者群体的兴起对搜索结果的个性化、专业化提出了更高要求。

  所有这些变化促使我们希望改变简单的关键词全文匹配、结果混合罗列的单一搜索方式,开发一种更聪明的搜索引擎。

  用户在互联网上搜索的目的是为了获取某一主题的资源,资源的形式可能是文字、图片、音频、视频、程序等等。这些资源发布前通常是结构严谨的结构化数据库,标识准确,关系清晰。但当它们随着作为载体的网页发布后,就转化为杂乱的非结构化数据。这样使得资源的查找、组织、利用难度增加,效率下降。

  海量数据挖掘引擎通过模式识别、文本挖掘等先进的技术手段从网页中将有用资源正确提取,标明属性,抽象特征,区分类别,使资源重新有序化,并实现跨来源、跨类别的广泛关联。搜索中,围绕用户的搜索意图,组织不同类别的资源,使用户的每一次搜索,都相当于获得一个囊括互联网所有相关资源的主题网站。

  对于用户来说,如果我们把传统关键词搜索引擎看作一种有力的工具,那么海量数据挖掘引擎更像是一个训练有素的助手。他提供给用户的不再是简单的列表,他会揣测用户的意图,会将不同的结果分类,会提供搜索结果的分类目录,还会向用户推荐超出预期的关联搜索结果。

  与传统的关键词搜索引擎相比,海量数据挖掘引擎突出了对数据的加工,强调对于资源的整合。网页不再是搜索引擎处理的最小颗粒,网页中的文字、图片、音频、视频、程序应该分别提取、分别评价、贴注标签、分类、建立关联,从而获得了对资源前所未有的利用能力。