asp网站连不上数据库,无锡网页网站制作公司,什么是网络销售,科技资讯题外话#xff1a;
《Pi Network 免费挖矿国外热门项目 一个π币大约值3元到10元》相信过去BTC的人#xff0c;信不信未来的PI#xff0c;了解一下#xff0c;唯一一个高度与之持平的项目
HTTP 工作原理
超文本传输协议(Hypertext Transfer Protocol#xff0c;简称HTT…题外话
《Pi Network 免费挖矿国外热门项目 一个π币大约值3元到10元》相信过去BTC的人信不信未来的PI了解一下唯一一个高度与之持平的项目
HTTP 工作原理
超文本传输协议(Hypertext Transfer Protocol简称HTTP)是应用层协议。HTTP 是一种请求/响应式的协议即一个客户端与服务器建立连接后向服务器发送一个请求;服务器接到请求后给予相应的响应信息。
HTTP 协议采用请求/响应模型。客户端向服务器发送一个请求报文服务器以一个状态作为响应。 以下是 HTTP 请求/响应的流程
客户端连接到web服务器HTTP 客户端与web服务器建立一个 TCP 连接;客户端向服务器发起 HTTP 请求通过已建立的TCP 连接客户端向服务器发送一个请求报文;服务器接收 HTTP 请求并返回 HTTP 响应服务器解析请求定位请求资源服务器将资源副本写到 TCP 连接由客户端读取;释放 TCP 连接若connection 模式为close则服务器主动关闭TCP 连接客户端被动关闭连接释放TCP 连接;若connection 模式为keepalive则该连接会保持一段时间在该时间内可以继续接收请求;客户端浏览器解析HTML内容客户端将服务器响应的 html 文本解析并显示;例如在浏览器地址栏键入URL按下回车之后会经历以下流程 1、浏览器向 DNS 服务器请求解析该 URL 中的域名所对应的 IP 地址; 2、解析出 IP 地址后根据该 IP 地址和默认端口 80和服务器建立 TCP 连接; 3、浏览器发出读取文件(URL 中域名后面部分对应的文件)的HTTP 请求该请求报文作为 TCP 三次握手的第三个报文的数据发送给服务器; 4、服务器对浏览器请求作出响应并把对应的 html 文本发送给浏览器; 5、释放 TCP 连接; 6、浏览器将该 html 文本并显示内容; HTTP 无状态性 HTTP 协议是无状态的(stateless)。也就是说同一个客户端第二次访问同一个服务器上的页面时服务器无法知道这个客户端曾经访问过服务器也无法分辨不同的客户端。HTTP 的无状态特性简化了服务器的设计使服务器更容易支持大量并发的HTTP 请求。 HTTP 持久连接 HTTP1.0 使用的是非持久连接主要缺点是客户端必须为每一个待请求的对象建立并维护一个新的连接即每请求一个文档就要有两倍RTT 的开销。因为同一个页面可能存在多个对象所以非持久连接可能使一个页面的下载变得十分缓慢而且这种短连接增加了网络传输的负担。HTTP1.1 使用持久连接keepalive所谓持久连接就是服务器在发送响应后仍然在一段时间内保持这条连接允许在同一个连接中存在多次数据请求和响应即在持久连接情况下服务器在发送完响应后并不关闭TCP 连接而客户端可以通过这个连接继续请求其他对象。 HTTP/1.1 协议的持久连接有两种方式 ● 非流水线方式客户在收到前一个响应后才能发出下一个请求; ● 流水线方式客户在收到 HTTP 的响应报文之前就能接着发送新的请求报文; 请求报文的具体例子 Remote Address:116.57.254.104:80 Request URL:http://hr.tencent.com/ Request Method:GET Status Code:200 OK Request Headers GET / HTTP/1.1 Host: hr.tencent.com Connection: keep-alive Accept: text/html,application/xhtmlxml,application/xml;q0.9,image/webp,*/*;q0.8 User-Agent: Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.114 Safari/537.36 Accept-Encoding: gzip,deflate,sdch Accept-Language: en-US,en;q0.8,zh-CN;q0.6,zh;q0.4 Cookie: pgv_pvi2098703360; PHPSESSIDbc7onl0dojbsatscsfv79pds77; pgv_infossids1454606128; pgv_pvid926725350; ts_uid4084753309 Response Header HTTP/1.1 200 OK Server: nginx Date: Mon, 26 Jan 2015 01:09:10 GMT Content-Type: text/html;charsetutf-8 Content-Length: 3631 Connection: keep-alive X-Powered-By: PHP/5.3.10 Expires: Thu, 19 Nov 1981 08:52:00 GMT Cache-Control: no-store, no-cache, must-revalidate, post-check0, pre-check0 Pragma: no-cache Vary: Accept-Encoding Content-Encoding: gzip 格式化上面的请求报文方便阅读
Remote Address:116.57.254.104:80Request URL:http://hr.tencent.com/Request Method:GETStatus Code:200 OKRequest HeadersGET / HTTP/1.1Host: hr.tencent.comConnection: keep-aliveAccept: text/html,application/xhtmlxml,application/xml;q0.9,image/webp,*/*;q0.8User-Agent: Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.114 Safari/537.36Accept-Encoding: gzip,deflate,sdchAccept-Language: en-US,en;q0.8,zh-CN;q0.6,zh;q0.4Cookie: pgv_pvi2098703360; PHPSESSIDbc7onl0dojbsatscsfv79pds77; pgv_infossids1454606128; pgv_pvid926725350; ts_uid4084753309Response HeaderHTTP/1.1 200 OKServer: nginxDate: Mon, 26 Jan 2015 01:09:10 GMTContent-Type: text/html;charsetutf-8 Content-Length: 3631Connection: keep-aliveX-Powered-By: PHP/5.3.10Expires: Thu, 19 Nov 1981 08:52:00 GMTCache-Control: no-store, no-cache, must-revalidate, post-check0, pre-check0Pragma: no-cacheVary: Accept-EncodingContent-Encoding: gzip
也就是我们谷歌浏览器F12常看到的信息格式 从这些报文可以清楚知道请求报文Request Headers发送了什么响应报文Response Headers回应了什么东西
例如 GET / HTTP/1.1 请求方法 GET 表示一个读取请求将从服务器获得网页数据/表示URL 的路径URL 总是以/开头/就表示首页最后的HTTP/1.1 指示采用的 HTTP 协议版本是 1.1;请求域名如下所示 Host: hr.tencent.com 响应报文如下 HTTP/1.1 200 OK
响应头部可能包括的内容如下扩展 Cache-Control
指定了服务器和客户端在交互时遵循的缓存机制即是否要留下缓存页面数据。 一般在使用浏览器访问时都会在计算机本地留下缓存页面相当于是浏览器中的页面保存和下载选项。但是爬虫就是为了从网络上爬取数据所以几乎不会从缓存中读取数据。所以在设置的时候要侧重从服务器请求数据而非加载缓存。 no-cache客户端告诉服务器自己不要读取缓存要向服务器发起请求。 no-store同时也是响应头的参数请求和响应都禁⽌止缓存即不存储。 max-age0表示当访问过此网页后的多少秒内再次访问只加载缓存而不去服务器请求在爬虫时一般就写0秒 。 一般爬虫就使用以上几个参数其他的参数都是接受缓存的所以就不列出了。
User-Agent
中文名用户代理服务器从此处知道客户端的操作系统类型和版本电脑CPU类型浏览器 种类版本浏览器渲染引擎等等。这是爬虫当中最最重要的一个请求头参数所以一定要伪造甚⾄至多个。如果不进行伪造而直接使用各种爬虫框架中自定义的user-agent很容易被封禁。
Accept
指定客户端可以接受的内容类型比如文本图片应用等等内容的先后排序表示客户端接收的先后次序每种类型之间用逗号隔开。 其中对于每一种内容类型分号 ; 后⾯面会加一个 q0.6 这样的 q 值表示该种类型被客户端喜欢接受的程度如果没有表示 q1数值越高客户端越喜欢这种类型。 爬虫的时候一般会伪造若干将想要找的文字图片放在前面其他的放在后面最后一定 加上/;q0.8。
Accept-Language
客户端可以接受的语⾔言类型参数值规范和 accept的很像。一般就接收中文和英文有其他语言需求自行添加。
Accept-Encoding
客户端接收编码类型一些网络压缩格式Accept-Encoding: gzip, deflate, sdch。相对来说deflate是一种过时的压缩格式现在常用的是gzip
Accept-Charset
指的是规定好服务器处理表单数据所接受的字符集也就是说客户端浏览器告诉服务器自己的表单数据的字符集类型,用以正确接收。若没有定义则默认值为unknown。如果服务器没有包含此种字符集就无法正确接收。一般情况下在爬虫时不定义该属性如果定义例子如下 Accept-Charsetgb2312,gbk;q0.7,utf-8;q0.7,*;q0.7
Referer
浏览器上次访问的网页urluri。由于http协议的无记忆性服务器可从这里了解到客户端访问的前后路径并做一些判断如果⼀一次访问的 url 不能从前一次访问的页面上跳转获得 在一定程度上说明了请求头有可能伪造。
DNT
是 do not track 的缩写告诉服务器浏览器客户端是否禁止第三方网站追踪。这一条主要是用来保护浏览器用户隐私的通过此功能用户可以检测到跨站跟踪、cookie跟踪等等。 在爬虫时一般都是禁止的。数字1代表禁止追踪0代表接收追踪null代表空置没有规定。
Connection
请求头的 header字段指的是当 client 浏览器和 server 通信时对于长链接如何处理。由于http请求是无记忆性的长连接指的是在 client 和server 之间建立一个通道方便两者之间进行多次数据传输而不用来回传输数据。有 closekeep-alive 等几种赋值close表示不想建立长连接在操作完成后关闭链接而keep-alive 表示希望保持畅通来回传输数据。 爬虫时一般都建立一个长链接。
Proxy-Connection
当使用代理服务器的时候这个就指明了代理服务器是否使用长链接。但是数据在从client 到代理服务器和从代理服务器到被请求的服务器之间如果存在信息差异的话会造成信息请 求不到但是在大多数情况下都还是能够成立的。
Pragma
防止页面被缓存, 和 cache-control类似的一个字段一般爬虫都写成 no-cache。
Cookie
同样是一个比较关键的字段Cookie是 client 请求服务器时服务器会返回一个键值对样的数据给浏览器下一次浏览器再访问这个域名下的网页时就需要携带这些键值对数据在 Cookie中用来跟踪浏览器用户的访问前后路径。 在爬虫时根据前次访问得到 cookie数据然后添加到下⼀一次的访问请求头中。
Host
访问的服务器器主机名比如百度的 www.baidu.com。这个值在爬虫时可以从 访问的 URI 中获 得。
If-Modified-Since
只有当所请求的内容在指定的日期之后又经过修改才返回它否则返回304。其目的是为了提高访问效率。但是在爬虫时不设置这个值而在增量爬取时才设置一个这样的值用以更新信息。
Authorization
当客户端接收到来自WEB服务器的 WWW-Authenticate 响应时该头部来回应自己的身份验证信息给WEB服务器。主要是授权验证确定符合服务器的要求。这个在爬虫时按需而定。 整理总结报文格式
HTTP 请求报文格式 HTTP 请求报文由请求行、请求头部、空行 和 请求包体 4 个部分组成如下图所示 下面对请求报文格式进行简单的分析
请求行
请求行由方法字段、URL 字段 和HTTP 协议版本字段 3 个部分组成他们之间使用空格隔开。常用的 HTTP 请求方法有 GET、POST、HEAD、PUT、DELETE、OPTIONS、TRACE、CONNECT; ● GET当客户端要从服务器中读取某个资源时使用GET 方法。GET 方法要求服务器将URL 定位的资源放在响应报文的数据部分回送给客户端即向服务器请求某个资源。使用GET 方法时请求参数和对应的值附加在 URL 后面利用一个问号(“?”)代表URL 的结尾与请求参数的开始传递参数长度受限制。例如/index.jsp?id100opbind。 ● POST当客户端给服务器提供信息较多时可以使用POST 方法POST 方法向服务器提交数据比如完成表单数据的提交将数据提交给服务器处理。GET 一般用于获取/查询资源信息POST 会附带用户数据一般用于更新资源信息。POST 方法将请求参数封装在HTTP 请求数据中以名称/值的形式出现可以传输大量数据;
请求头部
请求头部由关键字/值对组成每行一对关键字和值用英文冒号“:”分隔。请求头部通知服务器有关于客户端请求的信息典型的请求头有 ● User-Agent产生请求的浏览器类型; ● Accept客户端可识别的响应内容类型列表;星号 “ * ” 用于按范围将类型分组用 “ */* ” 指示可接受全部类型用“ type/* ”指示可接受 type 类型的所有子类型; ● Accept-Language客户端可接受的自然语言; ● Accept-Encoding客户端可接受的编码压缩格式; ● Accept-Charset可接受的应答的字符集; ● Host请求的主机名允许多个域名同处一个IP 地址即虚拟主机; ● connection连接方式(close 或 keepalive); ● Cookie存储于客户端扩展字段向同一域名的服务端发送属于该域的cookie;
空行
最后一个请求头之后是一个空行发送回车符和换行符通知服务器以下不再有请求头;
请求包体
请求包体不在 GET 方法中使用而是在POST 方法中使用。POST 方法适用于需要客户填写表单的场合。与请求包体相关的最常使用的是包体类型 Content-Type 和包体长度 Content-Length;HTTP 响应报文格式 HTTP 响应报文由状态行、响应头部、空行 和 响应包体 4 个部分组成如下图所示 下面对响应报文格式进行简单的分析
状态行
状态行由 HTTP 协议版本字段、状态码和状态码的描述文本 3 个部分组成他们之间使用空格隔开;
状态码由三位数字组成第一位数字表示响应的类型常用的状态码有五大类如下所示
1xx表示服务器已接收了客户端请求客户端可继续发送请求;2xx表示服务器已成功接收到请求并进行处理;3xx表示服务器要求客户端重定向;4xx表示客户端的请求有非法内容;5xx表示服务器未能正常处理客户端的请求而出现意外错误;
状态码描述文本有如下取值
200 OK表示客户端请求成功;400 Bad Request表示客户端请求有语法错误不能被服务器所理解;401 Unauthonzed表示请求未经授权该状态代码必须与 WWW-Authenticate 报头域一起使用;403 Forbidden表示服务器收到请求但是拒绝提供服务通常会在响应正文中给出不提供服务的原因;404 Not Found请求的资源不存在例如输入了错误的URL;500 Internal Server Error表示服务器发生不可预期的错误导致无法完成客户端的请求;503 Service Unavailable表示服务器当前不能够处理客户端的请求在一段时间之后服务器可能会恢复正常;
响应头部
响应头可能包括 LocationLocation响应报头域用于重定向接受者到一个新的位置。例如客户端所请求的页面已不存在原先的位置为了让客户端重定向到这个页面新的位置服务器端可以发回Location响应报头后使用重定向语句让客户端去访问新的域名所对应的服务器上的资源; ServerServer 响应报头域包含了服务器用来处理请求的软件信息及其版本。它和 User-Agent 请求报头域是相对应的前者发送服务器端软件的信息后者发送客户端软件(浏览器)和操作系统的信息。 Vary指示不可缓存的请求头列表; Connection连接方式; 对于请求来说close(告诉 WEB 服务器或者代理服务器在完成本次请求的响应后断开连接不等待本次连接的后续请求了)。keepalive(告诉WEB服务器或者代理服务器在完成本次请求的响应后保持连接等待本次连接的后续请求); 对于响应来说close(连接已经关闭); keepalive(连接保持着在等待本次连接的后续请求); Keep-Alive如果浏览器请求保持连接则该头部表明希望WEB 服务器保持连接多长时间(秒);例如Keep-Alive300; WWW-AuthenticateWWW-Authenticate响应报头域必须被包含在401 (未授权的)响应消息中这个报头域和前面讲到的Authorization 请求报头域是相关的当客户端收到 401 响应消息就要决定是否请求服务器对其进行验证。如果要求服务器对其进行验证就可以发送一个包含了Authorization 报头域的请求;
空行
最后一个响应头部之后是一个空行发送回车符和换行符通知服务器以下不再有响应头部。
响应包体
服务器返回给客户端的文本信息; HTTP 工作原理 HTTP 协议采用请求/响应模型。客户端向服务器发送一个请求报文服务器以一个状态作为响应。 以下是 HTTP 请求/响应的步骤 ● 客户端连接到web服务器HTTP 客户端与web服务器建立一个 TCP 连接; ● 客户端向服务器发起 HTTP 请求通过已建立的TCP 连接客户端向服务器发送一个请求报文; ● 服务器接收 HTTP 请求并返回 HTTP 响应服务器解析请求定位请求资源服务器将资源副本写到 TCP 连接由客户端读取; ● 释放 TCP 连接若connection 模式为close则服务器主动关闭TCP 连接客户端被动关闭连接释放TCP 连接;若connection 模式为keepalive则该连接会保持一段时间在该时间内可以继续接收请求; ● 客户端浏览器解析HTML内容客户端将服务器响应的 html 文本解析并显示;