说点什么吧~
第一讲绪论
大数据的定义
Big data- is an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using traditional data processing applications.
大是相对的
100MB的数据量并不大,但要在 1 毫秒之内对 100MB 数据完成复杂的数据挖掘分析,可
能超越目前常用设备的数据处理能力
100MB,本身在30年前也曾经是大数据
计算学科的永恒话题
给定有限的计算资源c,或成本
以及问题输入x
在一定时间t内
计算出结果f(x)
当输入数据x大到超出了一定的计算能力c或可容忍的时间t,即成为大数据问题
最火的试验室
在大数据的背景下,紧密结合算法(Algorithms)、分布式系统(Machines)和大量用户(People)的研究
主要成员:Michael Franklin 教授 (数据库方向)、Michael Jordan 教授(机器学习)、Ion Stoica 教授 (操作系统方向)
“危险边缘”获胜
和14年前的“深蓝”(战胜加里·卡斯帕罗夫)相比,“沃森”除具有超群的计算能力外(90台IBM Power 750服务器2880个核),更拥有超大规模的数据以及数据处理能力(4TB磁盘,包含200万页结构化和非结构化的信息)
大数据的故事
沃尔玛“啤酒加尿布”经典案例,1993年
塔吉特百货孕妇营销分析,2002年
谷歌预测流感,2009年
奥巴马大选连任成功,2012年
微软大数据成功预测奥斯卡21项大奖,2013年
林彪也玩大数据,1948年
大数据的意义与价值
• 2010年时代杂志刊载的医学界年度十大突破中,医疗科技公司CardioDX通过对1亿个基因样本的分析,
– 最终识别出能够预测冠心病的23个主要基因
• 2009年Google的研究人员通过对每日超过3O亿次搜索请求和网页数据的挖掘分析,
– 在HIN1流感爆发几周就预测出流感传播
• 2007年以来eBay通过数据分析技术可以精确计算出广告中的每一个关键字为
公司带来的回报。通过对广告投放的优化,
– eBay产品销售的广告费降低了99%,而顶级卖家占总销售额的百分比却上升至32%
感知数据规模
环游数字世界 4 万年
• 2009年数据总量约为0.8 ZB*,大约0.8 万亿GB
• 2009年固态硬盘SSD最大读取速度712 MB/s,其读取速度大约0.00002 万亿GB/年
说点什么吧~
欢迎来到学堂在线广场~
在这里你可以玩活动,看资讯,晒笔记。
还可以交学友、发心情、聊人生。
在学堂的每一天,就从这里开始吧!
点击 广场指南 了解更多