

“大数据”的经典定义是可以归纳为5个V:海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)、Veracity(真实性)。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。



可以用两种方式来看基础设施。可以从非常非常底层来看, 需要一些可以监控的东西。 需要能够流畅地运行任何云计算。 自动配置是指谁能看到数据,谁会真正运行程序。 这是基本管理层。在基本管理层之上,需要建立安全和隐私层。 然后需要考虑认证、用户账号、数据账号。 资源管理是指对所有计算资源的管理。对想要提供组件和工具的人来进行大数据分析,以及对应用开发者,知道会在哪一层也很重要。所在的层越高,编程环境就越容易。
就像理论物理总是需要实验物理来验证, 然后得出最终的规则来描述世界。 在科学世界,这就像创造一个世界的模型, 做实验或者进行观察来获得数据。 然后验证模型的正确性,将模型应用到新的场景中。
四个范式, 第一范式,实证科学,通过观察。
第二范式,理论科学, 使用理论和概括。
第三范式,计算科学,做很多模拟,甚至使用计算来研究数学和物理这类现象。
第四个范式实际上是由吉姆·格雷提出来的。他预见了这个大数据时代,在所有的科学领域使用数据。
数据收集,你们如何做摄取、抽取、转换和加载、加载到大数据存储管理平台,结构化的和非结构化的。现在,天气预报、PM 2.5预报, 不管是什么,在某种意义上都是大数据应用。
我们的企业必须学会养数据,数据不会自己从天而降,不主动养数据谈什么数据?不养数据的企业将死在大数据路上。养数据必须被企业的管理层和业务单位重视起来,作为数据单位有义不容辞的责任去控制数据质量和内容。只有数据质量和数量提升了,企业才可以谈什么数据驱动,DT时代。

除非在数据源头安全得到保障