无障碍浏览
当前位置:
首页
> 科室工作 > 两化融合
金昌市工信局信息化科普系列(一)

一文读懂“大数据”
发布日期:2021-04-25 浏览次数: 字号:[ ]

《西游记》开篇有云:混沌未分天地乱,茫茫渺渺无人见。自从盘古破鸿蒙,开辟从兹清浊辨。覆载群生仰至仁,发明万物皆成善。欲知造化会元功,须看《西游释厄传》。为切合本篇题意,小编特意将最后一句改为“欲知造化会元功,须看信息演变史”。意为天地还没有分开时,世界处于混沌状态,渺渺茫茫没有人能看清。自从盘古开天辟地,轻清者上浮为天,重浊者下凝为地,从此清浊相离,天地分开,人类社会文明开始形成。创生万物成就了极大的功德,如果想要知道这种功德是如何造就的,就要通过文字、语言等信息来了解。

人类社会发展经历了渔猎文明、游牧/农业文明、工业文明、后工业文明/信息时代,生活方式由原来的刀耕火种进化到如今的“秀才不出门,便知天下事”,经济基础、上层建筑、生产关系、生产力等都发生了翻天覆地的变化,但是作为社会文明的传递载体——文字、语言等信息,从诞生之时起就一直在为人类文明的生生不息、绵延不绝贡献着。

 

如今,“大数据”这个词很火热,广泛应用于社会各领域。但很多人对“大数据”是什么很难说得透彻。解释“大数据”首先得明白什么是“数据”。实际上,人类社会一直存在于“数据”中,以今人的视角来看,古代“数据”和现代“数据”的区别除了表现形式外,还有就是线下与线上的区别。也就是说,在计算机、互联网出现以前,社会发生的“数据”全都表现为以文字、语言等为主体的信息;现代社会诞生二进制、计算机、互联网后,文字、语言等信息逐渐被数字化,并向线上迁移,名称也变为了“数据”,特别是近几年随着信息技术的发展,社会各行各业向数字化深入转型,导致线上“数据”的量以几何倍的速度在增长。量变引起质变,传统的思维已无法适应巨量的社会“数据”了,此“大数据”便应运而生。

 

今天这篇文章,小编就以通俗直白的语言来试着为大家解读一下“大数据”。

一、什么是大数据

许多人认为大数据就是数据大。数据大这只是大数据的表面特征。大数据的实质,是通过获取存储分析等手段,从大容量数据中挖掘价值的一种全新的技术架构。我们从做什么——对谁做——怎么做的逻辑角度来看一下到底什么是大数据。

做什么:获取数据、存储数据、分析数据

对谁做:大容量数据

怎么做:挖掘数据

实际上,获取、存储、分析数据一直是我们的日常工作,比如经济运行调度报表的汇总、分析,用常规的Office办公软件就可实现,但是对于大容量数据,这些工具就得往后站了。可以这么说,常规的电脑、Office软件无法应对的数据即可理解为大数据。下面,我们来看一看大数据容量有多大。

二、大数据的特征

一般将大数据的特征归纳为4个V”:Volume,Variety, Value,Velocity,其意为量、多样、价值和速度,可以说4“V”很好的概括了大数据的特征。1.数据体量巨大。大数据的起始计量单位至少是PB,甚至达到EBZB;2.数据类型繁多。比如,网络日志、视频、图片、地理位置信息、工厂产品数据、设备信息3.价值密度低。大数据的数据量很大,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分;4.处理速度。从数据的生成到消耗,时间窗口非常小,数据的变化速率,还有处理过程,越来越快,时效性很强。

现阶段我们工作中处理的数据大部分是GB级别的,也有TB级别,如常用的U盘是4G、8G、16G等,移动硬盘是1T,已经足够我们工作、生活中使用了。那么PBEBZB有多大呢,用几个公式来说明。

1 KB=1024 B  

1 MB=1024 KB

1 GB=1024 MB(U盘级别)

1 TB=1024 GB(硬盘级别)

1 PB=1024 TB(机柜级别) 

1 EB=1024 PB (互联网巨头级别)

1 ZB=1024 EB

数字可能有点抽象,举个例子形象的说明。

1TB,一块移动硬盘的容量,可以存20-50万张照片或MP3音乐或电子书。

1PB,容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听1900多年。我市紫金云大数据中心目前可提供约20PB的数据存储服务能力。

EB,阿里、腾讯、百度这些网络巨头。

那面对如此体量的数据,是怎么处理的呢,我们来看一看大数据的内在逻辑。

三、大数据的内在逻辑

为了更好理解大数据内在逻辑,以做菜的过程来做类比说明。

数据采集(买菜)数据清洗洗菜数据建模配菜数据加工(炒菜)

1.数据采集(买菜)

炒菜,首先要买菜。买菜可选的地方很多,如菜市场、超市、小摊等,根据需要可以选择买辣椒、西红柿、茄子等不同的菜。卖菜的地方可以理解为数据源,买菜的过程就是数据采集。有些地方菜的质量好、品种较少,有些地方菜的质量一般、品种较多,数据源也是一样,有“质量好”的数据(数据库的结构化数据),也有“质量一般”的数据(大量的日志数据、机器数据等半结构化和非结构化数据),我们根据需要去采集并存储。

2.数据清洗(洗菜)

菜买回来后,就要把菜择一择、洗一洗,这样才能安心吃下去。数据也是一样,采集起来后,就得检查一下数据的内容是否齐全,有没有错误的信息等,我们把数据检查、纠正的过程叫做数据清洗。数据清洗实际过程比较复杂,涉及到数据的质量、标准管理等。

3.数据建模(配菜)

厨师在炒菜之前,需要把炒的菜配好,要做西红柿炒鸡蛋,就把鸡蛋、西红柿准备好,放在一个地方,这样炒菜的时候就直接取过来,不用到处去找,提升了炒菜的效率和质量。数据建模的过程就类似配菜的过程。大数据里,数据种类、数量繁多远超菜的种类和数量,比如一个数字化工厂有许多信息系统,MESERPEDASAP等等,还有工厂外部的各种数据,为了让这些复杂的数据科学、有效的发挥作用,就得进行数据建模。根据各行业数据的特性,建立不同的数据模型,使用的时候把这些复杂数据“倒进”已经建好的模型里即可,模型自会按照算法逻辑运算。也可以这么理解数据建模,每个菜都有一个秘方,材料用多少,调味品用多少,什么时候放材料,秘方都做了规定,你炒菜只需要按照秘方的步骤进行就可以了。实际上的数据建模非常复杂,专业性很强,这方面的人才也特别紧缺。

4.数据加工

这个很好理解,菜配好后,你只需要炒好就行了。但是炒菜是个技术活,同样的食材,有些人炒的好吃,有些人炒的不好吃。大厨们炒菜对于火候、配料等拿捏得狠好,而且速度很快,所以客人们也爱吃。数据加工就是炒菜的过程,将各种数据进行计算、汇总、分析最后生成可视化的报表、互动式分析的素材等对外数据应用和数据消费者提供服务。客户的要求总是千奇百怪的,数据消费者需求不同,数据加工的形式就会百花齐放,所以数据加工的创新也很重要,但不管怎么样,你就得想办法炒出客人想要吃的菜来  

下面我们再来说说大数据思维和大数据的应用。

四、大数据思维

有人把数据比喻为蕴藏能量的煤矿煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘价值又不一样。与此类似,大数据思维主要关注数据价值的含量,而不是数据量的本身,要通过挖掘数据蕴含的信息,去做以前无法做到事也就是说,传统方式无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。

比如地图导航软件公司通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。图导航软件公司充分应用了数据的相关性,通过大数据做到了以前做不到的事情,这就是大数据思维。

五、大数据可以为我们做什么

大数据支撑智慧城市智慧交通智慧能源智慧医疗智慧环保的建设,这所谓的智慧本质上是通过各种手段将数据采集起来,然后分析运算,帮助政府在,实现智慧化治理提供决策。

大数据帮助农民分析实时数据,如天气,温度和湿度等,提供优化和提高产量的意见,对所需资源水平做出更明智的决策,以防止浪费。

大数据帮助医疗机构建立流调机制,快速分析、追溯、定位病毒爆发点和携带者。比如,这次疫情期间,“健康码”的推广使用,给予疫情防控有力的支撑。     

大数据帮助电商公司对用户的喜好进行定位,精准推送商品,提升成交率。比如淘宝、京东等电商公司,积累了大量的用户数据在早期的时候,这些数据几乎要成为企业的累赘和负担,存储它们需要大量的硬件成本但是现在这些数据都是阿里、京东等最宝贵的财富和核心竞争力

大数据帮助航空公司节省运营成本帮助电信企业实现售后服务质量提升帮助保险企业识别欺诈骗保行为帮助快递公司监测分析运输车辆的故障险情以提前预警维修帮助电力公司有效预警即将发生故障的设备帮助二手市场的买卖双方找到最合适的交易目标帮助企业提升广告投放精准度帮助企业分析评估市场,科学合理投资等等。

 

六、小结

从古文字到二进制,再到如今的大数据,见证了历史的沧海桑田、浩瀚如烟,也见证了科技的日新月异、一日千里,辉煌的文明被文字传承下来,文明的辉煌势必会被数据发扬光大。2020年4月9日,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据与土地、劳动力、资本、技术等传统要素相并列,数据要素对提高生产效率的乘数作用将进一步被体现。现在或未来在大数据领域最值得关注的两个方向:一是培养大数据思维,这种思维在大数据时代可以将潜在价值转化为巨大的经济效益;二是尚未被大数据触及过或触及较浅的领域,如工业、农业等,这些是还未被深入挖掘的油井金矿,是所谓的蓝海。应该说,对于大数据的发展,把握机会,就是把握未来!