讨论区讨论详情

【自主模式】微软亚洲研究院大数据系列讲座
2016-12-26 22:41:38


“大数据”的经典定义是可以归纳为5个V:海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)、Veracity(真实性)。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。

傲游截图20161226213858.png


可以用两种方式来看基础设施。可以从非常非常底层来看, 需要一些可以监控的东西。 需要能够流畅地运行任何云计算。 自动配置是指谁能看到数据,谁会真正运行程序。 这是基本管理层。在基本管理层之上,需要建立安全和隐私层。 然后需要考虑认证、用户账号、数据账号。 资源管理是指对所有计算资源的管理。对想要提供组件和工具的人来进行大数据分析,以及对应用开发者,知道会在哪一层也很重要。所在的层越高,编程环境就越容易。
就像理论物理总是需要实验物理来验证, 然后得出最终的规则来描述世界。 在科学世界,这就像创造一个世界的模型, 做实验或者进行观察来获得数据。 然后验证模型的正确性,将模型应用到新的场景中。 
四个范式, 第一范式,实证科学,通过观察。
第二范式,理论科学, 使用理论和概括。
第三范式,计算科学,做很多模拟,甚至使用计算来研究数学和物理这类现象。 
第四个范式实际上是由吉姆·格雷提出来的。他预见了这个大数据时代,在所有的科学领域使用数据。 
数据收集,你们如何做摄取、抽取、转换和加载、加载到大数据存储管理平台,结构化的和非结构化的。现在,天气预报、PM 2.5预报, 不管是什么,在某种意义上都是大数据应用。 

我们的企业必须学会养数据,数据不会自己从天而降,不主动养数据谈什么数据?不养数据的企业将死在大数据路上。养数据必须被企业的管理层和业务单位重视起来,作为数据单位有义不容辞的责任去控制数据质量和内容。只有数据质量和数量提升了,企业才可以谈什么数据驱动,DT时代。

傲游截图20161226223125.png

除非在数据源头安全得到保障


回复:

还没有人发言哦,来抢沙发吧~

请先登录

说点什么吧~

学堂公告

各位MOOCer大家好 (^-^)V

欢迎来到学堂在线广场~

在这里你可以玩活动,看资讯,晒笔记。

还可以交学友、发心情、聊人生。

在学堂的每一天,就从这里开始吧!

点击 广场指南 了解更多

推荐活动

我要举报
提交