论文代写网可分享到:0
论文代写 > 毕业论文代写 > 软件工程论文 > Web数据挖掘技术综述

Web数据挖掘技术综述

作者:2016-09-14 22:33阅读:文章来源:论文代写
  1 引言 
   
  随着Internet的发展,Web信息迅速膨胀,如何从海量的Web信息中快速和准确地获取有用信息已经成为近几年数据挖掘领域研究的热点。Web上的数据与其他的数据相比较存在着明显的特点,这些特点使得Web挖掘在方法和技术方面与传统的数据挖掘有着显著的不同。 
   
  2 Web数据挖掘的概念 
   
  Web数据挖掘(Web Mining),简称Web挖掘,是由Oren Etzioni在1996年首先提出的[1]。它是数据挖掘技术和Internet应用研究相结合的研究领域。一般,对Web数据挖掘定义如下:Web数据挖掘是指Web从文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,则Web挖掘的过程就是从输入到输出的一个映射[2]。 
  Web挖掘是指从大量的Web数据中发现新颖的、潜在可用的及最终可以理解的知识(包括概念、模式、规则、规律、约束及可视化等形式)的非平凡过程。Web挖掘是数据挖掘技术和Internet应用研究相结合的产物,其涉及的技术覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、机器学习、神经网络等。 
   
  3 Web数据的特点[3] 
   
  1) 异构数据库环境。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点的信息和组织都不一样,这就构成了一个巨大的异构数据库。 
  2) 分布式数据源。Web页面散布在世界各地的Web服务器上,形成了分布式数据源。 
  3) 半结构化。半结构化是Web上数据的最大特点。Web上的数据非常复杂,没有特定的模型描述,是一种非完全结构化的数据,称之为半结构化数据。 
  4) 动态性强。Web是一个动态性极强的信息源,信息不断地快速更新,各站点的链接信息和访问记录的更新非常频繁。 
  5) 多样复杂性。Web包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。 
   
  4 Web数据挖掘的分类 
   
  Web挖掘技术根据挖掘的方向一般分为三类:Web内容挖掘,Web结构挖掘和Web使用记录的挖掘。 
  4.1 Web内容挖掘(WCM,Web Content Mining) 
  Web内容挖掘是指从大量的Web数据中发现信息、抽取知识的过程。这些Web数据的形式有Web页面、Web页面上各种链接所指向的内容以及网络数据库里的数据等。从内容方面,Web内容挖掘可分为Web文本挖掘和Web多媒体挖掘,它们的不同在于提取的特征不同。从方法上,Web内容挖掘可分为数据库方法和信息抽取方法。 
  4.2 Web结构挖掘(WSM,Web Structure Mining) 
  Web结构挖掘是从Web的组织结构、Web文档结构与其链接关系中挖掘潜在的知识和模式。通过对Web结构的分析,可以发现页面结构和链接关系中所蕴涵的有用模式;也可以对页面及其链接进行分类和聚类,发现权威页面。有关这方面的算法研究成果有:Page-rank、HITS(Hyperlink-Induced Topic Search)及改进的HITS(将内容信息加入到链接结构中去)、Hub/authority(Kleinberg,1998)[4]。 
  4.3 Web使用挖掘(WUM,Web Usage Mining) 
  Web使用挖掘是应用数据挖掘技术从Web数据中发现用户访问模式的过程[5]。它可以帮助我们提高Internet信息服务的质量,改进Web服务器的系统性能和结构。 
   
  5 Web数据挖掘过程 
   
  Web数据挖掘过程是一个完整的KDD过程,但是与传统的数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如图1所示,包括如下四个过程: 
  1) 查找资源:根据挖掘目的,从Web资源中提取相关数据,构成目标数据集,Web数据挖掘主要从这些数据通信中进行数据提取。其任务是从目标Web数据(包括Web文档、电子邮件、电子文档、新闻组、网站日志、网络数据库中的数据等)中得到数据。 
  2) 数据预处理:在进行Web挖掘之前对“杂质”数据进行过滤,例如消除数据的不一致性;将多个数据源中的数据统一为一个数据存储等。预处理数据的效果直接影响到挖掘算法产生的规则和模式。数据预处理主要包括站点识别、数据选择、数据净化、用户识别和会话识别等。 
  3) 模式发现:利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。常用的模式发现技术包括:路径分析、关联规则挖掘、时序模式发现、聚类和分类等技术。 
  4) 模式分析:利用合适的工具和技术对挖掘出来的模式进行分析、解释、可视化,把发现的规则模式转换为知识。 
   
  6 常用的数据挖掘技术 
   
  6.1 路径分析技术 
  我们通常采用图的方法来分析Web页面之间的路径关系。G=(V,E),其中:V是页面的集合,E是页面之间的超链接集合,页面定义为图中的顶点,而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站的结构图,从图中可以确定最频繁的访问路径。路径分析技术常用于进行改进站点的结构。如70%的用户访问/company/product时,是从/company开始,经过/company/new/company/products/company/product。此时可以将路径放在比较显著的地方,方便了用户访问,也提高了该产品的点击率。 
  6.2 关联规则技术 
  关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期限(Session),从服务器上访问的页面文件之间的联系,这些页面之间并不存在直接的参引(Reference)关系。使用关联规则可以发展很多相关信息或产品服务。例如:某信息A和B,同时被很多用户浏览,则说明A和B有可能相关。同时点击的用户越多,其相关度就可能越高。系统可以利用这种思想为用户推荐相关信息或产品服务。如当当电子书店就采用了这一模式用以推荐相关书目。当你选择某本图书时,系统会自动给你推荐信息,告知“很多读者在购买此书时还购买的其他书目”。ACM数字图书馆也采用了这一思想,推出信息推荐服务“Peer to Peer”。 
  6.3 序列模式挖掘技术 
  序列模式数据挖掘技术就是要挖掘出交易集之间的有时间序列关系的模式。它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术注重事务内的关系,而序列模式技术则注重事务之间的关系。发现序列模式,便于预测用户的访问模式,有助于开展基于这种模式的有针对性的广告服务。依赖于发现的关联规则和序列模式,能够在服务器方动态地创立特定的有针对性的页面,以满足访问者的特定需求。 
  6.4 聚类分类技术 
  分类规则可挖掘出某些共同的特性,而这一特性可对新添加到数据库中的数据项进行分类。在Web数据挖掘中,分类技术可根据访问用户而得到个人信息、共同的访问模式以及访问某一服务器文件的用户特征。而聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。发现分类规则可以识别一个特殊群体的公有属性的描述,这种描述可以用于分类新的检索。如政府机关的用户一般感兴趣的页面是/company/product。聚类可以从Web访问信息数据库中聚集出具有相似特性的用户群。在Web事务日记中聚类用户信息或数据项能够便于开发和执行未来的市场战略。这些事务信息可以用在:在找出用户共同兴趣后,进行合作式信息推荐,共同体的成员可以互相推荐新的滚动信息;自动给一个特定的用户聚类发送销售邮件,为用户聚类动态地改变一个特殊的站点等。 
   
  7 Web挖掘的研究热点[6] 
   
  在未来一段时间内,Web挖掘研究的焦点可能会集中到以下几个方面: 
  1) 高性能Web搜索引擎。尽管搜索引擎性能已有了较大提高,但搜索引擎的最终目标是“理解用户需求精确返回所需”,如何翻译用户的非专业搜索请求,实现自然语言处理,涉及兴趣爬虫、元搜索引擎、垂直搜索、移动搜索和多媒体搜索等方面的研究。 
  2) Web数据的特征描述与监控。如何表示Web文本内容的特征数据,如何表示和识别Web中的图像、flash等多媒体数据,进而进行网页分类、内容跟踪、过滤和报警等,对于不良网站的监控等有着积极意义。 
  3) Web数据的获取与集成。包括Web文本特征的提取和表示,如何用一种广泛兼容的半结构化数据模型表示网页;如何抽取动态网页中的数据;如何在分布的Web中获取信息;如何在指定网页中快速定位所需的数据区;如何利用数据库和数据仓库技术查询和存储Web内容等。
  4) Web数据流挖掘。Web日志、cookie、点击流等流式数据量巨大,如何识别和过滤爬虫的访问信息;如何有效收集和处理日志以外的访问数据;如何有效标识用户、设置用户会话时间等。 
  5) 安全与非法访问检测。如何评价Web数据信息本身的可靠和安全性;如何对Web内容、邮件、各种日志和用户访问行为的分析,识别出威胁、欺诈、入侵、无用的数据和异常行为,从而构建安全的网络环境。 
  6) 个性化与安全隐患。如何跟踪、学习和表达多变的用户兴趣及行为模式,在个性化服务中过滤信息,实现商业应用,在提醒个性化服务时不侵犯用户隐私等都是亟待决的问题。 
  7) 基于Web的模式分析技术和工具。如何将Web挖掘的结果在浏览器中可视化地表达,包括统计、关联、聚类、分类等工具开发等。 
  8) Web挖掘的算法改进与质量评估。由于Web数据本身的特点,使得Web挖掘不能照搬数据挖掘的理论和技术,而需要对现有的算法等方面都进行改进。Web挖掘算法和挖掘系统的性能通常需要大量用户的反馈,实际运行测试,因而缺乏有效的评价模式。 
  9) Web挖掘在社会领域的应用。Web已经是人类社会活动的一面镜子,如何在Web中发现社会现象、问题和热点的规律,为社会学家、经济学家、教育学者提供有价值的知识。 
  此外,分布式Web挖掘、语义Web挖掘、无线网络下的Web挖掘、Web2.0时代的Web挖掘、多语言环境下的Web挖掘等是值得研究的方向。同时,Web挖掘技术应用于具体领域的研究将持续受到关注,例如,银行证券、企业ERP、医疗卫生、农业、电子商务、网络教学、BLOG等。 
   
  8结束语 
   
  Web挖掘技术是一个新兴的研究领域,对它的研究和应用正在成为一个热点。伴随着Internet的快速发展,Web挖掘技术的研究和发展将会迎来更好的契机。  硕士代写论文网文章地址:http://www.shuoshilunwen01.com/rjgclw/1953.html

相关阅读

最新更新

毕业论文代写

写作技巧

认准本站唯一联系方式

论文代写: 78312064

论文发表: 78312674

咨询电话:13281127927

haoyiceo@163.com

安排论文送知网报告

检测结果与学校一致

扫一扫咨询官方微信