目录
第一章 大数据与大数据应用
第二章 大数据分析与挖掘
第三章 网络信息安全知识
第四章 财务信息安全与数据管理
01 大数据与大数据应用
学习目标:
(1)全面认识大数据概念和现状
(2)了解大数据对现在经济的巨大影响
(3)了解大数据的特点
(4)了解大数据在各个领域的应用
全面认识大数据
1999年,华纳兄弟公司科幻电影《黑客帝国》风靡全球。
相信有很多朋友都曾幻想过自己拥有片中的“救世主”尼奥一样神奇能力,几秒钟精通一门外语,几分钟掌握全部数据信息,几小时便可通晓古今。这些超人一般的能力,不可思议又令人心驰神往!
2011年,相对论传媒公司科幻电影《永无止境》这让我们更加容易理解大数据的化腐朽为神奇。
落魄的作家库珀,服用了一种可以迅速提升数据分析能力的神奇蓝色药物,库珀能在短时间掌握无数公司资料和背景,也就是将世界上已经存在的海量数据挖掘出来,串联起来,甚至将Face Book、Twitter的海量社交数据挖掘得到普通大众对某种股票的感情倾向,通过海量信息的挖掘、分析,使一切内幕都不是内幕,使一切趋势都在眼前,结果在几天内他就赚取了大量的财富。
而现实生活中,大数据也正在不断改变我们的生活。
大数据让生活更加方便
一直以来,城市的交通拥堵给我们的生活带来诸多不便,大量时间耽搁在路上、错过了很多重要的事情以及交通事故频发……
通过交通大数据的可视化实时分享,帮助我们躲避拥堵、调度公共交通工具、分析后期改善交通的关键点等等。
食品大数据平台汇聚相关政府部门的监管数据、检验监测数据、食品企业数据、安全投诉举报数据等,通过开展大数据分析,预防食品安全事件发生、方便消费者购买安全放心食品、提高企业管控食品质量意识。
医疗大数据全面汇集医院管理和医保控费;人体研究、药物研发、精准医疗等方面;公共卫生则在多元化数据检测的基础上,构建重大突发事件预警和应急响应体系,逐步解决居民看病难问题。
实时动态分析商业数据,为产品研发确定方向、为商品运输提供便利、为建筑设计提供方案、为营销策略提供数据分析。
优化:各级政府、主管部门、上市公司、企业集团、外资公司都将基于大数据分析平台优化其决策。
革命:大数据分析能力逐渐加强,传统市场研究行业、证券研究所、产业链咨询机构将逐渐消失。
颠覆:银行都将基于企业大数据平台开展银行直销业务,同时按照产业链金融服务事业部模式开展业务。
改变:因大数据系统的出现,所有依赖信息不对称盈利的业务都将消失。
什么是大数据?
说了这么多,到底什么是大数据
Big Data,从英语单词就能判断它并不是什么新词。毕竟,大是一个相对概念。不同时代、不同的机构、不同的企业、不同的专家给出了不同的定义。
历史上,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大量数据的问题。被誉为数据仓库之父的Bill Inmon早在20世纪90年代就经常将Big Data挂在嘴边了。
随着互联网的发展,美国《自然》杂志专刊The next Google又再次提出“大数据”概念。
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。
从数据到大数据
数据不再是社会生产的“副产物”,而是可被二次乃至多次加工的原料,从中可以探索更大价值,它变成了资源。
数据爆炸式增长(每分钟……)
数据表---工作簿---数据库---数据仓库
储存 Storing
每天几百 GB、几TB 的资料,且持续成长中
计算 Processing
接收数据的同时做必要的前置处理 (pre-processing),并区分数据处理的优先等级
管理 Managing
如何有效的避免因硬件毁坏所导致的资料损毁
分析Analyzing
如何从中挖掘出所关注事件的可视化分解结果或本质
传统的方式是不能满足需求的,于是,适应新时代,解决新问题,大数据应运而生。
大数据带来的思维变革
更多:
不是随机样本
而是全部数据
更杂:
不是精确性
而是混杂性
更好:
不是因果关系
而是相关关系
一般人看到的数据,其实是残缺不全的。
这时候,我们需要不同“看”数据的方式。
结构化,是指将逐渐积累起来的知识加以归纳和整理,使之条理化、纲领化,做到纲举目张。
心理学研究已发现,优生和差生的知识组织存在明显差异。优生头脑中的知识是有组织、有系统的,知识点按层次排列,而且知识点之间有内在联系,具有结构层次性。
结构化的层次:
●结构化——包括预定义的数据类型、格式和结构的数据
举例:事务性数据和联机分析处理
●半结构化——具有可识别的模式并可以解析的文本数据文件
举例:自描述和具有定义模式XML数据文件
●“准”结构化——具有不规则数据格式的文本数据,通过使用工具可以使之格式化
举例:包含不一致的数据值和格式的网站点击数据
●非结构化——没有固定结构的数据,通常保存成不同类型的文件
举例:文本文档、PDF文档
·是指在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查表和统一的标准时点,对全国人口普遍地、逐户逐人地进行的一次性调查登记;
·主要特点是调查组织高度集中性,普查对象的全面完整性;
·人口大普查耗时耗费,一般来讲是十年一次,新中国成立以来共进行了6次人口大普查;
·人口大普查是一种典型的全数据模式;