讨论区讨论详情

【自主模式】大数据系统基础笔记
2016-12-31 09:37:58

第一章

1.1 什么是大数据

2013NCR公司的CTO用狄更斯《生存记》中的一句话这是一个最好的时代, 也是一个最坏的时代来描述今天大数据的发展现状。大数据仍然处在一个起步阶段要带着批评性的思维和与时俱进的观点来学习。

上个世纪60年代现在数据管理实践开始起步,其代表性成果是网状数据库和层次数据库

上世纪70年代IBM公司的EFCloud开创了关系数据库理论

80年代随着事物处理模型的完善,关系数据管理在数据库的学术界和工业界取得了主导地位,并一直保持到今天

同时80年代中后期,随着计算机辅助设计 CAD等技术的发展,面向对象数据库开始进入研究领导,但未直接形成产业。

上世纪90年代,随着互联网的飞速发展,出现了文本和多媒体数据库,同时数据分析和挖掘技术开始萌芽

进入新世纪,Web数据库 XML数据库等得到了快速的发展

2010年左右,随着云计算技术的逐步落地,大数据理念首先为产业界和社会所认可并迅速拓展到了学术界。

计算平台 数据类型和产业应用构成了数据管理发展的驱动力,其中产业应用的拉动与驱动起到了核心的作用

大数据,根据维基百科的定义,它是一个包罗万象的概念。如果一个数据集的规模或者是其处理的复杂性用传统的数据处理系统难以驾驭的话,我们就把这样的数据集叫做大数据。

大数据可能是来源于我们每个人,我们在互联网上的每一步操作都可以产生数据,这些数据集合在一起就是一个大数据。但大数据的数据,又并非单纯指人们在互联网上产生的信息。工业设备, 汽车制造仪表,等都会产生数据。这些东西与我们人类生产的信息也都可以称之为大数据。

大数据包含着巨大的价值。将大数据比作科技时代的原油,能够让我们从这些数据资料中获取我们需要的价值,推动我们的发展。我们需要从数据资源中发掘这些数据的价值来为我们服务,来为社会进步提供新的动力。

如果说大数据是21世纪的石油,那么大数据系统就是从这些数据当中提出价值的基础装备。

大数据的大是相对的,比如100兆的数据量并不大,但是我们需要在1秒之内对这100兆的数据完成复杂的数据分析,可能就超出了目前传统数据系统的处理能力

那么在任何的一个时代我们都会面临当输入的数据规模大到超出了一定的计算能力或者可容忍的时间时,它就成为了大数据问题。

形成了人, 机器和软件数据三流汇聚的局面。它当然是今天大数据产业发展的直接原因

 

今天大数据对企业而言,我们不仅要考虑企业内部的非结构化数据以及企业内部的结构化数据,还要考虑企业外部的结构化数据和企业外部的非结构化数据。

在某种意义上说,数据的产生的环境与使用的过程是相分离的,有些人将这种现象概括为数据治理的无政府组。这也是当前大数据管理的一个重要的挑战或者说特征

2014年图灵奖的获得者MITMichael Stonebraker教授在2012年的他的一篇博文当中,认为大数据是计算机科学这个学科当中的一个旗帜

比如说斯坦福大学创建了SNAP实验室,CMU大学提供了两个针对于图形的开源项目,牛津大学建立了大数据研究院,MIT成立了大数据的科学和技术中心。在伯克利的GraphLab,有今天最火的大数据实验室。

那么数据科学就是从数据当中发现知识。特别是在数据当中能够发现指导人们行动的知识,它叫做Xknowledge

1.2 大数据典型应用

举几个例子:

人机大战,实践证明机器是可以在某种程度上胜过人类的智慧。

沃尔玛的啤酒加尿片的这种经典的案例

塔吉特百货孕妇营销的分析

谷歌对流感的成功预测

奥巴马借助大数据连任成功

2013年微软利用大数据成功预测了奥斯卡的21项大奖

中国古代孙膑与庞涓的斗智斗勇当中使用的增兵减灶

林彪通过大数据来发现国民党司令部

1.3 大数据的特点

八个维度来考虑大数据的大

第一个维度,考察数据的规模

第二个方面,数据的多样性方面

(数据的类型可以分为三大类:结构化数据,半结构化数据,非结构化数据。

结构化数据就是关系数据,数据是先有模式后有数据。半结构化数据先有一部分的模式数据。非结构化数据是先有数据后有模式的一类数据。非结构化数据是大数据的主体,总量已经占了数据总量的80%以上。)

第三个方面,处理的生命周期

2011年美国CRA组织给出的大数据分析的生命周期的五个主要阶段:数据的获取和记录,抽取和清洗,集成和聚合,分析建模和解释展示五大阶段。

第四个方面,大数据的加工深度的问题。

第五个方面,处理方式上面。

传统的对于大规模的数据处理,我们基本上采用批量的方式。到了本世纪初进入了互联网时代,我们提出了在线处理的方式。而今天的大数据,我们提出了实时处理的要求。

第六个方面,考察一下大数据的用户

传统数据管理的用户主要是指在有一定的组织边界下的内部用户。而我们今天所说的大数据用户,不仅包括企业内部的用户,还包括了企业外部所有相关的人员的用户。

第七个方面,我们考察因为数据的产生和数据使用的相分离。

学术界把数据质量归结为,精确性 ,一致性,完整性和时效性四个方面。四个方面来度量一个数据集的数据质量是一个非常复杂的工作,也是大数据的一个重要挑战。

第八个方面,即大数据的价值

数据的规模很大,但它相对的价值比较稀疏

1.4 大数据技术体系

大数据技术体系根据中国计算机协会大数据专委会2013年发布的中国大数据技术与产业发展白皮书,将大数据技术体系分为六个方面:数据采集与集成,存储与管理,分析与挖掘,可视化,计算范型,隐私与安全

ETL主要包括:抽取 ,转换 ,加载。其中还包括关于数据的解析,模式分析等环节。但是由于大数据环境中数据生成和使用主体相互分离,加之数据多元 ,异构,实时, 不确定等特性,在分布式环境中如何保障全局数据的一致性,精确性 ,完整性,面临着巨大挑战。

在大数据当中需要解决的主要问题可以概括为三个方面:监控动态的流数据跟踪变化的趋势。第二个方面就是和数据科学家,要和领域科学家一起来进行大数据的分析。最后还要将大数据的分析工具集成到业务的各个环节。

可视化是人类实现数据洞察的关键的交互通道,在大数据时代起着重要的技术支撑作用。

计算平台是推动数据管理发展的核心动力之一。

绝对保证大数据安全与隐私似乎是不现实的。

大数据的技术发展与应用一方面要尽力而为地保证安全与隐私,但是也不能因噎废食影响大数据技术的发展。

1.5 大数据生态系统

当今Spark具有两个主要优势:一,把各种大数据应用纳入统一的开发框架,用户学习的成本低,配置的速度快开发者省时省力。基于Spark开发分布式应用,往往可以节省90%的代码量。二, Spark生态系统的运算速度快。

伯克利自主创立的弹性数据结构简称RDD,将所有的数据均缓存在内存中,且在内存崩溃的时候,能够利用文件系统可靠地恢复。因此,伯克利大数据的软件站继承了内存处理的高速读写特性,因此它的运算速度比传统的Mapreduce的计算速度高一到两个数量级。

1.6 大数据技术挑战

大数据还在泥泞中前行。

来自不同数据源的不同类型,不同语义的数据集合,其深度融合和综合的问题远远没有解决。同时物联网 ,传感网,穿戴设备等机器数据的快速到达,对数据处理的时效性提出了更大的挑战。

除此之外,数据隐私与可用性的问题更是挑战巨大。


回复:

还没有人发言哦,来抢沙发吧~

请先登录

说点什么吧~

学堂公告

各位MOOCer大家好 (^-^)V

欢迎来到学堂在线广场~

在这里你可以玩活动,看资讯,晒笔记。

还可以交学友、发心情、聊人生。

在学堂的每一天,就从这里开始吧!

点击 广场指南 了解更多

推荐活动

我要举报
提交