讨论区讨论详情

【暑期班】《计算机文化基础》(7-11)
2016-08-08 21:09:46


因为学堂在线的笔记体帖子的字数规定在5000字,不能把笔记全部放到帖子里,于是我就把完整版放到了网易云笔记里面了,这是链接http://note.youdao.com/yws/public/redirect/share?id=b7a2f463a86810290c530ffc1cca44bb&type=false

第7课 +互联网

从网络组织来描述计算机网络--计算机网络的定义、通讯线路和设备、 网络软件
一.计算机网络:利用通信设备和线路将地理位置不用的、功能独立的多个计算机系统连接起来,以功能完善的网络软件来实现网络的硬件、软件及资源共享和信息传递的系统。
二.计算机网络的四要素
三.从网络组织来描述计算机网络
多个计算机系统:1.不可移动设备(计算机(服务器、客户机))、家用电器
2.移动设备:手机、移动交通工具上的嵌入设备
四.通信设备
通信设备:为计算机转发数据
类别:网络适配器(转换数据格式)、调制解调器(转换数字信号和模拟信号)、中继器(增加信号传输距离)、路由器(为数据包选择最佳转发路径)
五.通信线路
通信线路:联通通信设备的传输介质
传输介质:有线、无线
无线通信线路:传输电磁波、没有其他线路引导它们的传播方向
六.传输能力
传输介质需要关注的参数:传输容量、传输质量、损耗、中继距离
传输能力:有介质的物理性质决定、有带宽(bandwidth)描述
带宽:即数据传输速率,指单位时间能在线路上传送的数据量。单位一般是bps(bits per second)
七.家庭网络接入(举例)光进铜退
ADSL(Asymmetric Digital Subscriber Line)非对称数字用户线路
FTTH(Fiber To Home)光纤到户
八.网络拓扑:把网络中的计算机和通信设备抽象为点(节点),把传输介质抽象为线(链路),由点和线组成的几何图形就是计算机网络的拓扑结构。
网络拓扑:构成网络的成员间特定的排列方式(物理的/逻辑的)
全球海底电缆分布   www.cablemap.info/
九.网络软件
网络软件:支持数据通信和各种网络活动;通信、服务、应用、管理;软件的开发基于网络协议
网络协议(protocol):规则和约定、讲什么(语义)、如何讲(语法)、应答关系(时序)
从功能角度来认识计算机网络--网络体系结构、ipv4、ipv6、查看IP地址/DNS
一.网络体系结构
网络由多个互连的节点组成,节点之间交换数据和控制信息,节点必须遵守一整套结构化管理体系,采用功能分层来实现。
二.Internet体系结构
TCP/IP体系结构
由IETF确认的系列标准RFC;TCP和IP;TCP/IP协议族
三.网页是从哪里来的
万维网(world wide web)应用:采用客户机-服务器模式;以HTML语言和http协议为基础;提供以超链接方式组织页面的信息浏览系统。
四.路由器凭什么认识我
IP地址: TCP/IP族中的核心之一;使用IP地址在主机之间确认源和目的来传递信息;使用二进制来表示,用于标识在一个网络中特定的主机。
五.ipv4路由表如何查找到你
IP地址的功能:全局唯一的标识,定位所在网络
无类别编址(classless inter-domain routing):采用网络前缀prefix表示,用网络掩码来判断IP地址的网络号和主机号
网络掩码:即子网掩码。子网掩码由32位组成。可分为两部分,前半部分全是1,后半部分全是0。子网掩码中的1表示网络位置,0表示主机位置。
网络掩码:在IP地址中区分网络号与主机号,提取:位与运算
六.保留和专用IP地址
特殊的ipv4地址
127.x.x.x 本机地址(自己,用于测试)
255.255.255.255 同一广播域的所有主机
169.254.x.x 不能获得DHCP服务时自动分配的地址(上不了网)
10.x.x.x  172.16.x.x--172.31.x.x  192.168.x.x IP地址中专门保留的三个私有地址区域,只能进行内部通信
七.IP地址分配不均
八.拥有一个唯一身份IP地址
ipv6地址
ipv6协议地址长128bit,采用“冒号分十六进制表示法”xxxx:xxxx:xxxx:xxxx:xxxx:xxxx:xxxx:xxxx
简化标记:连续的0可省略为“::”,但只能出现一次(RFC2373)
用前缀表示网络地址空间
九.为什么需要ipv6
巨大的地址空间
ipv6:3.4*10^38 vs  ipv4:43亿
实现无处不在的网络,网络规模可无限扩展
连接所有可能的装置和设备
唯一的网络地址,实现网络用户的识别
改善了路由性能
减少了大量的地址转换
路由聚合减少了路由表的表项
简化的IP头减少了路由器的处理负载
(查看IP)
十.哪些配置时必需的
IP地址、子网掩码、默认网关、DNS服务器
DNS(domain name system )域名系统:采用层次结构(点分隔表示);每台主机都可以有一实际含义的域名;域名比IP地址方便记忆
小结
作业:
1.网络协议栈包括以下哪些网络层次?
网络层, 传输层, 物理层, 应用层,
2.计算机网络在定义中包含了哪些要素?
-通信设备 通信线路 计算机系统 网络软件 资源共享 信息传递
3.ARP是地址解析协议,在以太网接口上,每一次发送网络数据时,都要查询ARP地址表。
第8课 如何在大数据中精准生活
走进大数据
探秘腾讯大数据平台
生活中的大数据
作业:
1.大数据有多大?据统计,到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。而2012年全球互联网每天增加的数据在____EB____数量级。
2.腾讯QQ生态圈辐射出来的大数据有哪些?社交类数据 游戏类数据 媒体类数据
3.大数据的特征有哪些?数据量特别大 数据类型多样 数据产生和处理速度很快 数据商业价值高
4.微软推出的Howold.net应用涉及到人像识别 机器学习 大数据即时分析技术
5.中国互联网络信息中心CNNIC从___1997_____年开始,每年发布两次中国互联网络发展状况统计报告
第9课 从信息为王到选择为王
认识搜索引擎--这就是搜索引擎、著名的搜索引擎公司、搜索引擎技术的发展搜索引擎的目标与广告
一.为什么关注搜索引擎
我国81.4%受访者感觉很多人患上了“搜索依赖症”;89.8%的人承认自己有“搜索依赖症”
巴西网民29.8%的上网时间和印度网民28.9%的上网时间都用于使用谷歌及其相关服务
二.搜索引擎的产生
三.这就是搜索引擎(互联网网站、应用的入口、行业制高点)
搜索引擎(search engines):指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。
四.著名的搜索引擎公司
1.Yahoo(曾经全球提供因特网导航服务最著名的网站)
2.Google(整合全球信息,使人人皆可访问并从中受益)
3.Baidu(让人们最平等、快捷地获取信息,找到所求)
五.搜索引擎的发展
1.分类目录--导航时代
纯手工方式组织,无高深技术手段
通过分级目录层层递进,在收录的网站中查找
2.文本检索
关键字布尔运算
未使用网页之间丰富的链接关系甄别网页质量
3.链接分析
利用网页之间丰富的链接关系甄别网页质量,比如竞价排名等
未考虑用户的个性化要求
4.用户中心
正确理解用户发出的某个查询词背后包含的真正需求
六.搜索引擎的目标
更全:可以通过提高网络爬虫相关技术来达到此目的
更快:贯穿于搜索引擎的大多数技术方向。比如:索引相关技术、缓存技术等
更准:最为关键的目标。无论排序技术还是链接分析技术,用户研究技术最终都是为了是搜索结果更加准确。
对于一个搜索引擎来说,达到更全、更快可以使其不落后于同类产品。但如果能做到更准,则能够构建核心竞争能能力
七.搜索引擎广告投放
信息检索背后的关键技术--海量数据的获取、建立快速有效的索引、搜索结果排名
一.搜索引擎技术架构
搜索引擎由许多技术模块构成,各自负责整体功能的一部分,相互配合形成了完善的整体架构。
二.1.信息采集--图的遍历
图论-图的遍历算法如何通过弧访问图的各个节点
互联网--一张大图
每一个网页当做一个节点,把那些超链接(hyperlinkes)当做连接网页的弧
2.信息采集--网络爬虫(网络爬虫:完成网页自动下载功能的程序叫做网络爬虫或机器人)
spider是如何自动下载互联网网页的呢
spider借助超链接,从任何一个网页出发,用图的遍历算法,自动地访问到每一个网页并把它们保存起来.
实例:aminer-分布式论文数据采集
aminer-Google scholar page 爬虫
3.信息采集-网页去重
完全重复、内容重复、部分重复
三.建立快速有效的索引
搜索引擎的索引表--一张超大的表
根据网页序号将索引分成很多份,分别存储在不同的服务器中,服务器并行处理,结果送回主服务器进行合并处理,返回给用户。
单词词典:由文档集合中出现过的所有单词构成的字符串集合,其中每条索引项记载单词本身的一些信息及指向倒排列表的指针
倒排索引:就是实现单词-文档矩阵的具体存储形式。通常使用倒排索引可以根据单词快速获取包含这个单词的文档列表。
谷歌数据中心
硬件:Google自家设计的低功耗服务器
OS:Google服务器使用的是Linux操作系统
软件:Google开发自有核心软件,开发语言是Java和c++
数据中心选址标准:大量廉价电力;绿色能源,更注重可再生能源;靠近河流或湖泊(设备冷却需要大量水源);用地广阔(隐秘性和安全性);和其他数据中心的距离(数据中心间的快速链接);税收优惠。
四.用户查询意图分析
每个查询词可能都隐含了其深层次的查询意图,用户查询意图分析目前是搜索引擎研究的焦点领域,只有了解搜索用户到底想要什么,才能提供满意的服务。
五.排名技术--
1.网页与查询的相关性
判断方法:包含关键词较多的网页应该比包含较少的网页相关
云计算的应用
2.网页质量的衡量标准
网页质量-pagerank(网页排名)
pagerank的计算机基于两个假设:
数量假设:在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。
质量假设:网页排名高的那些网页的链接更可靠,于是要给这些链接以更大的权重。
这就是搜索引擎
搜索引擎的未来--情境感知的搜索、社会化搜索、智能搜索
一.情境感知:感知用户何时、何地需要何种东西,将虚拟在线世界和现实世界连接起来。
大数据在情境感知技术中扮演着至关重要的角色;需要打造能够更精准感知周围环境的设备;各种移动设备通过先进的感应器来“理解”空间和运动,从而带来一种全新的用户体验。
aminer-情境感知搜索:移动端应用-学术报告推送;根据用户地点,推送相关学术报告;通过群体智慧手机报告消息。
二.社会搜索
社会化搜索或者社会化搜索引擎是搜索结果考虑用户的交互性和贡献的一种网站搜索方法
随着大数据时代的到来 ,视频、微博等用户的行为数据将会得到准确分析,从而给用户提供更加准确的信息内容。未来搜索依然是来自于不同层面的数据收集、整合和分析,最终提供给用户的都是用户最想要的或是更加容易解决问题的答案。
aminer-社会化搜索:利用群体智慧,“为研究者的研究兴趣投票”“views”和“follow”反映研究者的受欢迎程度。
同时查询两个研究者,显示二者之间的社交网络结构,帮助用户了解从一个研究者联系到另一个研究者的可能路径。
三.智能搜索
结合了人工智能技术的新一代搜索引擎。能提供用户角色登记,用户兴趣自动识别,内容的语义理解,智能信息化过滤和推送等功能。
智能搜索引擎设计追求的目标是根据用户的请求,从可以获得的网络资源中检索出对用户最有价值的信息。
aminer-智能搜索:搜索研究者的同时对查询词进行知识链接,链接到现有知识图谱的相关词条和向下位概念,包括维基百科,百度百科等
作业:
1.关于索引型搜索引擎的采集和索引机制,以下哪些说法是正确的
采用网络爬虫robot,循着超链接采集访问到的页面;自动提取网页中的关键词建立索引; 网页的更新有一定的周期,有时候存储的网页信息已经过时
2.链接分析技术, 确定查询与网页的相关性技术在搜索引擎搜索结果排序中起到非常重要的作用
3.爬虫抓取的对象是各种类型的网站,网站拥有者采用爬虫禁抓协议指明网站中哪些目录下的所有网页和内容是不允许爬虫抓取的
4.网络爬虫将海量的网页数据传送到本地,在本地形成互联网网页的镜像备份


回复:

还没有人发言哦,来抢沙发吧~

请先登录

说点什么吧~

学堂公告

各位MOOCer大家好 (^-^)V

欢迎来到学堂在线广场~

在这里你可以玩活动,看资讯,晒笔记。

还可以交学友、发心情、聊人生。

在学堂的每一天,就从这里开始吧!

点击 广场指南 了解更多

推荐活动

我要举报
提交