讨论区讨论详情

(暑期班)大数据系统基础
2016-07-21 22:22:14

第一讲绪论

0.png

大数据的定义
Big datais an all-encompassing term for any  collection of data sets so large and complex that it becomes difficult to process using traditional data processing applications.

大是相对的
100MB的数据量并不大,但要在 1 毫秒之内对 100MB 数据完成复杂的数据挖掘分析,可
能超越目前常用设备的数据处理能力
100MB,本身在30年前也曾经是大数据
计算学科的永恒话题
 给定有限的计算资源c,或成本
以及问题输入x
在一定时间t内
计算出结果f(x)
当输入数据x大到超出了一定的计算能力c或可容忍的时间t,即成为大数据问题
最火的试验室
在大数据的背景下,紧密结合算法(Algorithms)、分布式系统(Machines)和大量用户(People)的研究
主要成员:Michael Franklin 教授 (数据库方向)、Michael Jordan 教授(机器学习)、Ion Stoica 教授 (操作系统方向)
“危险边缘”获胜
和14年前的“深蓝”(战胜加里·卡斯帕罗夫)相比,“沃森”除具有超群的计算能力外(90台IBM Power 750服务器2880个核),更拥有超大规模的数据以及数据处理能力(4TB磁盘,包含200万页结构化和非结构化的信息)
大数据的故事
沃尔玛“啤酒加尿布”经典案例,1993年
塔吉特百货孕妇营销分析,2002年
谷歌预测流感,2009年
奥巴马大选连任成功,2012年
微软大数据成功预测奥斯卡21项大奖,2013年
林彪也玩大数据,1948年
大数据的意义与价值
• 2010年时代杂志刊载的医学界年度十大突破中,医疗科技公司CardioDX通过对1亿个基因样本的分析,
– 最终识别出能够预测冠心病的23个主要基因
• 2009年Google的研究人员通过对每日超过3O亿次搜索请求和网页数据的挖掘分析,
– 在HIN1流感爆发几周就预测出流感传播
• 2007年以来eBay通过数据分析技术可以精确计算出广告中的每一个关键字为
公司带来的回报。通过对广告投放的优化,
– eBay产品销售的广告费降低了99%,而顶级卖家占总销售额的百分比却上升至32%

感知数据规模
环游数字世界 4 万年
• 2009年数据总量约为0.8 ZB*,大约0.8 万亿GB
• 2009年固态硬盘SSD最大读取速度712 MB/s,其读取速度大约0.00002 万亿GB/年

多样的数据类型
结构化数据(关系):先有模式,后有数据
半结构化数据(XML):先有部分模式
非结构化数据(文本):先有数据,后有模式
大数据深度加工
数据 Raw data
信息 Information
知识 Knowledge
智慧 Insight

大数据处理方式
批量 Batch
在线 Online
实时 Real-time
大数据的质量:精确性:数据是否精确表述一个事实
一致性:不同数据实体间关系是否一致
完整性:是否所有必要的数据都已经呈现
时效性:数据及其起源是否能够及时获取
数据质量-无法回避的挑战
传统数据质量仅通过ETL方式执行
– 即抽取、转换、加载,包括解析、模式分析等
– 没有完全覆盖数据质量的基本性质
挑战– 分布式环境中,如何保障全局数据的一致性、精确性、完整性
– 流处理环境中,如何保证时效性
• 例如,时序一致性
在大数据中保证绝对的数据质量并不现实
– 高维、异质、模糊、海量、多变
某些(核心)转变: Hash 大于 扫描
单副本 转向 多副本
单阶段 转为 多阶段
压缩 不再 解压
BDAS的优势
综合性的解决方案:在统一的框架内开发大数据应用
高效的解决方案:BDAS的目标是快速处理大量数据


回复:

还没有人发言哦,来抢沙发吧~

请先登录

说点什么吧~

学堂公告

各位MOOCer大家好 (^-^)V

欢迎来到学堂在线广场~

在这里你可以玩活动,看资讯,晒笔记。

还可以交学友、发心情、聊人生。

在学堂的每一天,就从这里开始吧!

点击 广场指南 了解更多

推荐活动

我要举报
提交