1. URL

1.1 定义

统一资源定位符(URL,英语 Uniform / Universal Resource Locator 的缩写)是用于完整地描述Internet上网页和其他资源的地址的一种标识方法。

1.2 基本格式

  • schema://host[:port#]/path/.../[?query-string][#anchor]
  • schema 协议(例如:http, https, ftp)
  • host 服务器的IP地址或者域名
  • port# 服务器的端口(如果是走协议默认端口,可省略)
  • path 访问资源的路径
  • query-string 参数,发送给http服务器的数据
  • anchor- 锚(跳转到网页的指定锚点位置)

1.3 URL请求过程

  • 当你在浏览器输入URL http://www.website.com 的时候,浏览器发送一个Request去获取 http://www. website.com的html. 服务器把Response发送回给浏览器.
  • 浏览器分析Response中的 HTML,发现其中引用了很多其他文件,比如图片,CSS文件,JS文件。
  • 浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件。
  • 当所有的文件都下载成功后, 网页就被显示出来了。

2.Http

2.1 定义

超文本传输协议 (HTTP-Hypertext transfer protocol) 是一种详细规定了浏览器和万维网服务器之间互相通信的规则,通过因特网传送万维网文档的数据传送协议。HTTP工作在TCP/IP协议体系中的TCP协议上

2.2 特点

  • 简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。

  • 灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。

  • 无状态:HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传。

2.3 HTTP传输过程

  1. 建立TCP连接
  2. Web浏览器向Web服务器发送请求命令
  3. Web浏览器发送请求头信息
  4. Web服务器应答
  5. Web服务器发送应答头信息
  6. Web服务器向浏览器发送数据
  7. Web服务器关闭TCP连接/或者保持连接

步骤上的2-7其实类似三次握手

2.4 HTTP 消息结构

http请求消息结构

HTTP 请求消息(HTTP Request),由三部分组成:

第1部分叫Request line

第2部分叫Request header

第3部分是body(header和body之间有个空行)。

  • METHOD :表示请求方法,比如POST、GET和PUT等;
  • path-to-resoure :表示请求的资源。
  • Http/version-number :表示HTTP协议的版本号,如HTTP/1.1
  • Request消息常用方法 :Http定义了与服务器交互的不同方法,最基本的方法有4种,分别是GET,POST,PUT,DELETE,对应着对资源的查、改、增和删 4个操作。一般GET用于获取/查询资源信息,POST一般用于更新资源信息;这应该是GET和POST的本质区别;

Request消息之GET/POST示例:

GET实例:

GET /test/?id=11101&name=Professional HTTP/1.1 
Host: www.test.com 
User-Agent: Mozilla/5.0 (Windows; U;) Firefox/1.0.1 
Connection: Keep-Alive

POST 实例:

POST / HTTP/1.1 
Host: www.test.com  
User-Agent: Mozilla/5.0 (Windows; U) Firefox/1.0.1 
Content-Type: application/x-www-form-urlencoded 
Content-Length: 40 
Connection: Keep-Alive 
(…… 此处空一行 ……) 
name=Professional&id=11101

其他知识要点:

  • GET提交,请求的数据会附在URL之后(就是据放置在HTTP协议头中),以“?”分割URL 传输数据,多个参数用“&”连接;例如: login.action?name=tom&password=securiyPOST提交:把提交的数据放置在是HTTP包的正文中。上文示例中name=Professional&id=11101就是实际的传输数据;
  • 数据长度:HTTP协议没有对传输的数据和URL长度进行限制, 但特定浏览器和服务器对URL长度有限制, 因此对于GET提交时,传输数据就会受到URL长度的限制; 由于POST操作不是通过URL传值,理论上数据长度不受限;
  • 安全性:POST的安全性要比GET的安全性高,通过GET提交数据,用户名和密码将明文出现在URL上,容易被他人看到,URL信息也可能会被记录到历史纪录中;

http响应消息结构

第1部分叫Response line

第2部分叫Response header

第3部分是body(header和body之间有个空行)


HTTP响应消息示意图详细说明如下:

  • HTTP/version-number:HTTP协议的版本号;
  • status-code :状态码
1XX 提示信息 - 表示请求已被成功接收,继续处理 
2XX 成功 - 表示请求已被成功接收,理解,接受 
3XX 重定向 - 要完成请求必须进行更进一步的处理 
4XX 客户端错误 - 请求有语法错误或请求无法实现 
5XX 服务器端错误 - 服务器未能实现合法的请求
  • message:状态消息
  • 请求行最常用的状态码:
200 (OK): 找到了该资源,并且一切正常。 
304 (NOT MODIFIED): 该资源在上次请求之后没有任何修改。这通常用于浏览器的缓存机制。 
401 (UNAUTHORIZED): 客户端无权访问该资源。这通常会使得浏览器要求用户输入用户名和密码,以登录到服务器。 
403 (FORBIDDEN): 客户端未能获得授权。这通常是在401之后输入了不正确的用户名或密码。 
404 (NOT FOUND): 在指定的位置不存在所申请的资源。

3. https

3.1 定义

HTTPS 是 HTTP 协议的一个版本,在浏览器和服务器之间提供安全的数据传输。HTTP是不加密的,而HTTPS采用SSL协议加密。因此HTTPS意味着HTTP+SSL。SSL使用非对称秘钥机制。安全套接字层(SSL)作为HTTP应用层的子层。

SSL是Netscape公司所提出的安全保密协议,在浏览器(如Internet Explorer、Netscape Navigator)和Web服务器(如Netscape的Netscape Enterprise Server、ColdFusion Server等等)之间构造安全通道来进行数据传输,SSL运行在TCP/IP层之上、应用层之下,为应用程序提供加密数据通道,它采用了RC4、MD5 以及RSA等加密算法,使用40 位的密钥,适用于商业信息的加密。同时,Netscape公司相应开发了HTTPS协议并内置于其浏览器中,HTTPS实际上就是SSL over HTTP,它使用默认端口443,而不是像HTTP那样使用端口80来和TCP/IP进行通信。

3.2 客户端和服务器采用HTTPS的通信过程

当浏览器用 HTTPS 协议请求一个页面时,下面的过程也会发生:

基本过程

  1. 浏览器向 server 发出 https 请求,server 监听 443 端口,这个端口是 web server 用来监听使用了 HTTPS 协议的请求。

2.一旦 web 浏览器与 web 服务器之间成功建立连接,SSL 握手流程就开始了。

SSL握手流程

在握手流程中,浏览器和服务器会针对数据的加密算法进行协商并答成一致。过程如下:

  1. 浏览器向服务器发送一些自身的信息(例如其支持的SSL版本);

  2. 服务器响应类似信息,例如通信过程中将要使用的SSL版本;

  3. 服务器会向浏览器发送证书,证书中包含了加密数据的公钥,发布者信息,有效期以及服务端唯一标识;

  4. 浏览器核实该证书,并发送信息通知服务器证书已验证完成;

  5. 浏览器向服务器发送“ Change cipher spec ”指令:浏览器将对数据进行加密;

  6. 服务器向浏览器发送“ Change cipher spec ”指令,服务端将要对待发送的数据进行加密。

4. http和https比较

  • http的效率比https更高
  • https的安全性比http更好

总结:不是所有网页的获取都要使用https,在注重安全的地方使用即可,这样可以提高整体效率。

参考资料:
http://www.chinaz.com/web/2015/0707/420248.shtml
http://www.linuxidc.com/Linux/2015-06/118484.htm