标题:基于版块的论坛增量搜集策略
作者:杜言琦;马军
作者机构:[杜言琦] 山东大学 计算机科学与技术学院, 济南, 山东 250101, 中国.;[马军] 山东大学 计算机科学与技术学院, 济南, 山东 250101, 中国 更多
会议名称:第五届全国信息检索学术会议
来源:中文信息学报
出版年:2010
卷:24
期:3
页码:62-68
关键词:计算机应用; 中文信息处理; 增量搜集; 论坛爬虫; 延迟
摘要:该文研究论坛的增量搜集问题. 由于在论坛中同一主题通常分布在多个页面上, 而传统增量搜集技术的抓取策略通常是基于单个页面, 因此这些技术并不适于对论坛增量搜集. 该文通过对许多论坛中版块变化规律的统计分析, 提出了基于版块的论坛增量搜集策略. 该策略将属于同一版块的所有页面看做一个整体, 以它做为抓取的基本单位. 同时该策略利用版块权重和局部时间规律确定抓取频率和抓取时间点. 实验结果表明本策略对新增和新回复帖子的平均召回率为99.3%, 并且与平均调度方法相比系统总延迟最高可减小42%
收录类别:CSCD
资源类型:会议论文;期刊论文
原文链接:http://kns.cnki.net/kns/detail/detail.aspx?FileName=MESS201003010&DbName=CJFQ2010
TOP