Page 110 - 高中 信息技术 必修1 数据与计算
P. 110
第五章 数据处理和可视化表达
探究活动
分 析
仔细阅读以下案例,分析大数据具有哪些特征。
案例1:某市交通智能化分析平台的数据来源于道路交通、电信、地理信息系统等各
行各业。例如,交通卡刷卡每天产生1900万条记录,手机定位数据每天产生1800万条,出
租车运营数据每天产生100万条,电子停车收费系统数据每天产生50万条,等等。这些数
据在体量和速度上都达到了大数据的规模。
案例2:搜索引擎公司通过跟踪网民对“感冒症状”以及“治疗”等关键词的搜索,
广东教育出版社
发现某个时段在某个区域内搜索数量急剧增长,从而成功预测了甲型H1N1流感的暴发时
间、地域。
案例3:目前,某基于大数据的网约车平台已覆盖全国400多个城市,涵盖出租车、快
车、顺风车、代驾、专车、试驾以及租车等多项业务,为人们的出行带来极大的便利。我
们只需在网约车APP上输入或者说出目的地,强大的智能系统就立刻分配订单,即时通知
附近司机;借助定时定位系统,我们可以看到司机的大致位置以及预计到达时间。
(1)从互联网产生大数据的角度来看,大数据具有“4V”特征:大量(Volume)、
多样(Variety)、低价值密度(Value)、高速(Velocity)。
第一,数据体量巨大。从TB级别跃升到PB级别。
第二,数据类型繁多。如网络日志、视频、图片、地理位置信息等。
第三,价值密度低。以视频为例,在连续不间断的监控过程中,有用的数据可能仅仅
一两秒。
第四,变化速度快。数据来自世界各地的网络终端,且以秒为单位快速变化。
(2)从互联网思维的角度来看,大数据具有三个特征:样本渐趋于总体,精确让位
于模糊,相关性重于因果。
第一,在大数据时代强调数据要全量而不是抽样,即强调数据规模全量,而不是强调
数量巨大。大数据时代有了更好的数据采集手段,让获取全量数据成为可能。
第二,大数据时代研究的数据如此之多,追求的不是精确性,而是模糊性。在大数据
时代,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观
层面拥有更好的洞察力。
第三,大数据时代不是因果关系,而是相关关系。在大数据时代,无须再紧盯事物之
间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件
事情为何会发生,但是会提醒我们这件事情正在发生。
(3)从大数据存储与计算的角度来看,大数据具有两个特征:分布式存储和分布式
并行计算。
第一,大数据存储在互联网不同的服务器与各客户终端。
第二,应用分布式并行计算处理互联网的大数据。
102 102
9 ֻᅣ JOEE