标题:基于集成学习和二维关联边条件随机场的Web数据语义标注方法
作者:丁艳辉;李庆忠;董永权;彭朝晖
作者机构:[丁艳辉] 山东大学计算机科学与技术学院, 济南, 山东 250014, 中国.;[李庆忠] 山东大学计算机科学与技术学院, 济南, 山东 250014, 中国.;[董永权] 山东大学计算机 更多
通讯作者:Li, QZ(lqz@sdu.edu.cn)
通讯作者地址:[Li, Q.-Z] School of Computer Science and Technology, Shandong University, Jinan 250014, China;
来源:计算机学报
出版年:2010
卷:33
期:2
页码:267-278
DOI:10.3724/SP.J.1016.2010.00267
关键词:Web信息抽取; 语义标注; 集成学习; 条件随机场; 长距离依赖
摘要:大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信 息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成 学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster 合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系 进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模 Web信息抽取的需要.
收录类别:EI;CSCD;SCOPUS
Scopus被引频次:3
资源类型:期刊论文
原文链接:https://www.scopus.com/inward/record.uri?eid=2-s2.0-77950552737&doi=10.3724%2fSP.J.1016.2010.00267&partnerID=40&md5=a46082becb494238f7c841c7664c9417
TOP