标题:基于大数据的小微企业统计信息采集策略
作者:张玉明;张远远;
作者机构:[张玉明;张远远]山东大学管理学院
来源:统计与决策
出版年:2017
期:14
页码:178-181
DOI:10.13546/j.cnki.tjyjc.2017.14.043
关键词:大数据;;小微企业信息;;信息不对称;;Web信息采集;;主题聚焦网络爬虫
摘要:小微企业由于信息严重不对称导致融资难、融资贵、贷款难等问题,基于大数据来源之一的互联网社交媒体的小微企业信息采集是获取小微企业信息数据的重要途径。文章面对爆发式增长的互联网信息资源,利用主题聚焦网络爬虫技术、数据库技术、Java技术等设计并实现由基于链接结构分析的链接地址URL筛选及采集、基于模板节点匹配的网页正文信息抽取、数据入库三个功能模块组成的小微企业统计信息自动采集系统,采集到的数据以结构化数据的形式存储到My SQL数据库中,为后续数据挖掘与分析提供良好的数据支持。结果表明,文章所提出的信息自动采集系统采集效率较高,能够适应小微企业统计信息采集的需求。
收录类别:中文社会科学引文索引
资源类型:期刊论文
原文链接:http://kns.cnki.net/kns/detail/detail.aspx?FileName=TJJC201714046&DbName=CJFQ2017
TOP