大数据的特点:
大量、高速和多样化
关注:发现、分析、洞见和决策制定-----创新
价格波动
语义网、物联网
原始数据->信号
组合数据:组合日程、电子邮件、个人联系人信息
大数据:多样性、组合和精炼
万物数字化
数据的不可思议的有效性
数据8V:
大体量、实时性、多样性、真实性、完整性、动态性、易失性、可见性
大数据分析需要:
Hadoop、Apache Hadoop栈
云计算基础设施
异构的多供应服务整合
数据仓库
安全和隐私--签名、加密
数据挖掘和实时流分析
数据可视化
基础设施图:

Hadoop和YARN++(管理所有资源)
传统关系型数据库、数据仓库
结构化数据和非结构化数据
NoSQL==not only sql
Hive
Storm
Sqoop
Zookeeper
Pig脚本语言
分析引擎
统计分析--SAS文本分析
搜索引擎
机器学习:
第一范式--实证科学
第二范式--理论科学
第三范式--计算科学
第四范式--大数据
可视化很重要!!!
大数据与传统商业智能的区别:
过去:诊断、描述性的;现在:预测
在非结构化的数据上添加结构--再可视化
监控、挖掘、管理模式,快速闭合反馈环路
可用数据的回报--投资回报