标题:基于网络爬虫技术的健康医疗大数据采集整理系统
作者:卞伟玮;王永超;崔立真;郭伟;李晖;周苗;薛付忠;刘静;
作者机构:[卞伟玮;王永超;崔立真;郭伟;李晖;周苗;薛付忠;刘静]山东大学公共卫生学院生物统计学系;[卞伟玮;王永超;崔立真;郭伟;李晖;周苗;薛付忠;刘静]山东大学齐鲁生物医学 更多
来源:山东大学学报(医学版)
出版年:2017
期:06
页码:47-55
关键词:网络爬虫;数据库系统;聚焦爬虫;数据采集;数据解析;数据整理
摘要:目的快速、准确地获得公共卫生服务系统的医疗数据,并进行数据整理,为建立人群健康风险评估模型提供数据基础。方法运用聚焦网络爬虫技术,设计算法并编程,在自动记录和修正URL异常、原始数据存档、保持登录方式3个方面进行算法改进。将设计好的爬虫应用于爬取已获得授权网站的医疗数据,通过医学数据库系统,对数据进行解析、整理与导出。结果获得多个公共卫生服务基地数据,为当地政府部门提供数据分析报告,利用整理分析的数据完成多项健康风险评估模型建立。结论基于网络爬虫技术建立的数据采集整理系统,可以解决获取及整理网络许可数据的难题,将此技术应用于医药卫生领域,可使现有丰富的医学数据资源得以充分利用并提高利用效率。
资源类型:期刊论文
原文链接:http://kns.cnki.net/kns/detail/detail.aspx?FileName=SDYB201706005&DbName=CJFQ2017
TOP