当前位置: 首页 > news >正文

盖州网站建设专利申请

盖州网站建设,专利申请,网页小游戏推荐,哪里有做网站系统网络爬虫#xff08;又被称为网页蜘蛛#xff0c;网络机器人#xff09;就是模拟客户端发送网络请求#xff0c;接收请求响应#xff0c;一种按照一定的规则#xff0c;自动地抓取互联网信息的程序。 只要是浏览器能做的事情#xff0c;原则上#xff0c;爬虫都能够做…网络爬虫又被称为网页蜘蛛网络机器人就是模拟客户端发送网络请求接收请求响应一种按照一定的规则自动地抓取互联网信息的程序。 只要是浏览器能做的事情原则上爬虫都能够做 先来看一下最简单的网络爬虫百度Logo图片提取 import requestsr requests.get(https://www.baidu.com/img/bd_logo1.png)with open(baidu.png,wb) as f:f.write(r.content)接下来按照爬虫基本工作流程提取内涵社区网站文本内容 1.获取url urlhttp://neihanshequ.com/ headers {User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36} 2.发送请求接受响应 r requests.get(url,headersheaders) html_str r.content.decode() 3.提取数据 h1 classtitlep公交车上一小伙对着手机打公放点微信语音“臭小子你是不是一点也不想你老娘都不知道陪我聊聊天回家来看看我...”每点开这段语音小伙都自言自语说道“别唠叨啦我每天都陪你聊天好不好想你了老妈...”一大爷看不下去了说道“小伙子你能不能不循环播这段语音你要是想你妈了能不能给她打个电话”小伙说道“上个月她走了就只剩下这段语音了...”/p/h1 t re.findall(rh1 class\title\.*?p(.*?)/p.*?/h1,html_str,re.S) 4.保存数据 with open(neihan.txt,w,encodingutf-8) as f:for i in t:f.write(i)f.write(\n)这是最简单的面向过程网站爬取最终代码如下 import re import requests def Neihanurlhttp://neihanshequ.com/headers {User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36}r requests.get(url,headersheaders)html_str r.content.decode()h1 classtitlep公交车上一小伙对着手机打公放点微信语音“臭小子你是不是一点也不想你老娘都不知道陪我聊聊天回家来看看我...”每点开这段语音小伙都自言自语说道“别唠叨啦我每天都陪你聊天好不好想你了老妈...”一大爷看不下去了说道“小伙子你能不能不循环播这段语音你要是想你妈了能不能给她打个电话”小伙说道“上个月她走了就只剩下这段语音了...”/p/h1t re.findall(rh1 class\title\.*?p(.*?)/p.*?/h1,html_str,re.S)with open(neihan.txt,w,encodingutf-8) as f:for i in t:f.write(i)f.write(\n) Neihan按照面向对象爬取内涵社区网站文本爬虫工作流程代码如下 # codingutf-8 import requests import re import jsonclass Neihan:def __init__(self):self.start_url http://neihanshequ.com/self.headers {User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36}self.next_url_temp http://neihanshequ.com/joke/?is_json1app_nameneihanshequ_webmax_time{}def parse_url(self,url): #发送url地址的请求获取响应r requests.get(url,headersself.headers)return r.content.decode()def get_first_page_content_list(self,html_str):t re.findall(rh1 class\title\.*?p(.*?)/p.*?/h1, html_str, re.S)#获取max——timemax_time re.findall(max_time: (.*?),html_str,re.S)[0]return t,max_timedef save_content_list(self,content_list): #保存for content in content_list:print(content)def get_content_list(self,html_str):dict_response json.loads(html_str)content_list [i[group][text] for i in dict_response[data][data]]max_time dict_response[data][max_time]#获取has_morehas_more dict_response[data][has_more]return content_list,max_time,has_moredef run(self):#实现主要逻辑#1.start_url#2.发送请求获取响应html_str self.parse_url(self.start_url)#3.提取数据content_list,max_time self.get_first_page_content_list(html_str)#4.保存self.save_content_list(content_list)#5.获取第二页的urlhas_moreTruewhile has_more:next_url self.next_url_temp.format(max_time)html_str self.parse_url(next_url) #发送下一页的请求content_list,max_time,has_more self.get_content_list(html_str)#获取json中的段子和max——timeself.save_content_list(content_list)if __name__ __main__:neihan Neihan()neihan.run()
http://www.huolong8.cn/news/20401/

相关文章:

  • 佛山网站建设网络推广做关于植物的网站
  • 网站对于企业的作用公司网站建设多少费用哪儿济南兴田德润联系电话
  • 吉林新农村建设网站附近装修公司联系方式
  • 网站建设学习网公司有哪些住房和城乡建设部网站证书查询
  • 上海网站营销网络设计课程培训
  • 高端大气的网站制作申请域名建立网站
  • 建设与管理局网站设置网站的默认页面
  • 色一把做最好网站定制高端网站建设公司
  • 中英文网站如何建设济南做网络安全的公司
  • C 网站开发招聘邵阳棋牌软件开发
  • 富阳设计网站网页在线制作图片
  • 制作公司网站 优帮云上海网站建设怎么弄
  • asp网站生成泰安网站制作公司电话
  • 用网站做平台电商网站构建预算方案
  • 育才网站建设关于未备案网站
  • 网站被抄袭WordPress博客主题免费
  • 网站建设包括沈阳网络科技公司有哪些
  • 学网站开发的软件怎么免费弄网站
  • 江苏省建设厅网站公示重庆专业网站推广时间
  • 平顶山哪里做网站刚刚封城最新消息2021
  • 惠城区城乡规划建设局网站域名查询 阿里云
  • 门户网站的推广方案中国风网站建设
  • 浙江五联建设有限公司网站wordpress最新主题下载地址
  • 宁波网站建设开发门户网站建设参考文献
  • 免费公司网站制作如何成立网站
  • 北京市住房和城乡建设厅网站wordpress5.2.2怎么改中文
  • 仿58网站怎么做设备报价单模板
  • 哈尔滨网站建站模板简单学校网站模板免费下载
  • 用新浪微博做网站看课学校网站建设
  • 宜州做网站需要多少钱修改wordpress ftp端口