Page 112 - 高中 信息技术 必修1 数据与计算
P. 112
第五章 数据处理和可视化表达
5.2 数据的采集
数据的来源广泛(主要是互联网和物联网)、类型丰富、规模巨大。采集数据首先要
明确数据应用项目的需求,围绕选定的项目主题,制订数据采集的需求清单和内容大纲,
再采用适当的方法和工具进行采集。
广东教育出版社
5.2.1 数据采集的方法和工具
数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据采集法。
1.系统日志采集法
在信息系统中,系统日志是记录系统中硬件、软件和系统问题的信息文件。系统日志
包括操作系统日志、应用程序日志和安全日志。系统日志采集数据的方法通常是在目标主
机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推
送到日志服务器进行存储、监控和管理。
通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受
到攻击时攻击者留下的痕迹。例如,安全管理信息系统就是以系统日志服务器采集原始日
志数据,以日志记录文本文件实现日志数据的监控和保存,以数据库操作进行日志有效信
息的管理工作。
2.网络数据采集法
网络数据采集是指通过网络爬虫或网站公开API(Application Programming Interface,
应用程序接口)等方式从网站上获取数据信息。网络爬虫从一个或若干初始网页的URL
(Uniform Resource Locator,统一资
源定位符)开始,获得初始网页上的
URL,在抓取网页的过程中,不断从
当前页面上抽取新的URL放入队列,
直到满足系统的一定停止条件(图
5-4)。该方法可以将非结构化数据
从网页中抽取出来,将其存储为统一
的本地数据文件,并以结构化的方式
存储。它支持图片、音频、视频等文
件或附件的采集,附件与正文可以自
动关联。
图5-4 网络爬虫
104 104
9 ֻᅣ JOEE