基于元搜索的网页消重方法研究

(5页)

'基于元搜索的网页消重方法研究'
7/0 年第0期计算机系统应用基于元搜索的网页消重方法研究!**#$% &' ”()*#+,??/")$ 0)1 2/3)4 *)”).”?&' 5,3&6?”(78-M( 9)7 !)/6.(:S)谢!蕙!秦!杰!(河南工业大学信息科学与工程学院河南郑州 ”#$$$%)摘!要:本文在对现有主流网页消重技术进行分析基础上,针对元搜索引擎技术,提岀一?种基于元搜索的网页消 重算法。介绍了算法的具体实现步骤,并且通过实验验证了算法的有效性。关键词;消重特征码 元搜索引擎网页元数据摘要相似度%!引言随着网络技术的飞速发展,网络提供给人们的信的相同指纹,则认为这两个文档的内容重叠性较高,也 即二者是重复网页。对于234相同的网页,为了避免重复搜集同234网页,主要使川排除相同234的方法:网络蜘蛛把息资源越来越多,要想在浩瀚的网络资源中查找到有用的信息,搜索引擎起到了雨要作用。但是现在的搜访问过的网页地址变成信息指纹存放到哈希表屮,在 抓取新的网页时,把网页的地址解析成指纹,判断比较 该指纹是否存在于哈希表中,若存在则表示已下载过,索引擎技术并不完善,存在一些亟待解决的问题,最主耍的问题之一是存在大量的重复网页[%] 0 对用户而言,如果査询到的是重复信息,学空响杳询效率。对刁??联网系统而言,如凋诩智珥砂用扌進腹軒j网页,既浪费信息检索时间乂浪费存瀨1'祥肖络机* W然那谍要億帀沧咏能产4"爲S网址指器人(&,()*+)采集互联网中的相关信息,采集信息的 针对内容相同的网页,当前比较成功的搜索引擎数量非常巨大,采集结果的处理,需要进行消重 系统大多是基丁 ?关键词匹配和结合向量空间向量模型处理后,才能作为冇效的信息。若单单依靠人工进行去重 处理,不仅耗费宝贵的人力资源,而且时效性也不能满 足实际需要。为了解决这些问题,网页消巫成为搜索引擎所研 究的一项重要技术。來完成消重任务的。典型的系统包括56607*和天网 系统门。通常这类系统的消重工作过程大致是:在对 网络蜘蛛己抓取冋來的网页进行分析时,首先对网贞 进行净化,提取出网页的主题以及与主题相关的内容, 这些内容包括网页标识、网页类型、内容类别、标题、关 键词、摘要、止文、相关链接等信息,根据网页的关键 词、摘、止文等信息提取网页的特征项,构造评价函网页消重技术 入严、网页消重技术是指对内容匝翕潇血?行羸V是* w ?处理和合并,以节省网页数据库的存储空间和在网页 数据库上进行操作的时间的过程LI o!”#网页消觅技术主要思想根据网页重复原因不同对应的判断网页是否重复 的方法也有所不同,但是几乎所有的消重技术都皐于 这样一个基本思想[-]:根据一定的算法为每个文档计 重复。!“!现有主流网页消重技术⑷89:;算法计算出每篇文档各个单词的词频, 将文档用词频向虽的方法表示出來,计算,个词频向 量Z间的距离,在一定的范围Z内就判断为相似的文 档。<89 ( )(0( 1=7 &>/!=?!(? ?7@&1*+(/0)算法,首先将一篇算出一组指纹(.(/()"+(/1),若两个文档拥有一定数量文档分成由/个字组成的&A(/07*&, -?篇文章就可以山- /个&A(/07*&來表示,再按照一定的过滤规则将过滤出"! 应用技术!mm& ?%()*$+,%.//0 年第0期计算机系统应用的!”#$%&,!作为该篇文档的代表,参加比较的就是这 些被选出来的!”#$%&'!。()*+,?”算法是对70算法 的一种改进,它从过滤!“#$%&'!这方面着手,尽量过滤 掉尽可能多的重复次数较多的!”#$%&,!。北大的天网系统在搜集并分析一篇网页时,提取 并记录了网页中出现的关键词,同时根据公式赋予毎 个关键词一个权值,这些关键词的权值构成一个向量 空间,可以用来表示该网页。并以关键词作为网页的 4^征项。清华大学使用的提取方法是在文章中逗号, 句号的前后各取1个汉字,作为字符串。哈工大使用 的方法是在文章中各个句号的前后各取2个汉字。虽 然提取汉字的方法不同,但是都是以标点作为文屮的 提取标记,这种方法效率较高,因为提取字符冷是线性 时间的,就是把一个3 ($')时间复杂度的问题转变成 T 3 ( $)时间复杂度的问题,不失为一种好方法。 !“#现有网页消重技术的局限我们为网页消重算法设计的评价指标包括算法复 杂度、查全率和准确率三个方面,其中杳全率是指左重 算法所发现的转载网页占总网页的1T分比,而准确率 反映了算法所发现的转载网页中有多少是真正的转载 网页。文档具有不同的版本或拷贝,放在不同的位置,此时存 放的主机也可能不相同,此种悄况最难识别。考虑到元搜索引象的特殊性,可以充分利用成员搜索引擎提供的结果基本信息,如网页地址,网页 标题,网页摘要等。因此,该网页消重算法选择结果网页集合中每条记录的网页地址, 判断网页重复性分析 方案 如下:(:)网页元数据提取 元搜索引擎模型调用网页标题,网页摘要作为 的依据。算法具体设计源搜索引擎,得到搜索结当前提出的网页消重算法还I: 屮还存在着很多的局限。/04*算法去重效率不髙,要求存储空 间较大;./0算法准确率不高,比较次数过多,效 下降;() *+,■“算法效率和准确率比较平均,山用硕盘空间大。 国内儿种算法大都是对国外算法的沿川,在算法效率, 准确率,时效性等方面都存在各种问题。56 一种基于元搜索引擎的轡轡弄IX该元搜索引擎模型,选择若蔽3索引潇堀W 用户的单个査询请求,调用成员搜索引擎的搜索结果, 存储到数据库,经过相应的结果融合,再返回给用户。不同搜索引擎的检索结果中会有-?定程度的重 复,为了使元搜索引擎获得用户满意的窩质暈的检索 结果,必须尽量消除重复。-?般來说,会有以下儿种情 况:!最简单的重复情况是结果具有相同的789,可以 很容易的排除;“同一文档存在常见的别名,或者是同 一文档被做了链接因而具有差异较人的别名;#同一果 结果网页记录集,直接提取网页集合中每条记录的标题,地址和摘耍作为网页元数据。(1)提取网页摘要特征串针对网页的摘耍,用文本中分隔标记把文本分成若干句子,从句子中提取特征码,把特征码按顺序连接起來构成该文本的特征巾。(5)摘耍相似度评价函数为了实现去重模块屮判断摘要和似度功能,摘要如下:@ 子,A$是两个常 特征串的特征码的个数,相似因子的值即为相似度。判断C$的值:如果两特征爪含特征码的个数和 等,则C$的值即特征串的特征码个数值;否则是两个 特征串的特征码个数的较小值。判断A$的值:比较特征码是否相同。每冇一组特征码相同,A$的值就加:。设计系统阈值3;,若两个摘要的相似因子小于该阈值则该两个摘要重复,否则不重复。_ (D)消重算法描述复蔬址ffR]:复,转$7和|],转“;”判断网页标题是否重复。如果标题相同,则转#;否则,转%;#依次提取每个网页摘要的特
关 键 词:
基于 搜索 网页 方法 研究
 剑锋文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:基于元搜索的网页消重方法研究
链接地址: //www.wenku365.com/p-43768494.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服点击这里,给剑锋文库发消息,QQ:1290478887 - 联系我们

本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。本站是网络服务平台方,若您的权利被侵害,侵权客服QQ:1290478887 欢迎举报。

1290478887@qq.com 2017-2027 //www.wenku365.com 网站版权所有

粤ICP备19057495号 

收起
展开