当前位置: 首页 > news >正文

网站建设设计广州PHP网站开发程序员招聘

网站建设设计广州,PHP网站开发程序员招聘,php 网站版面素材,建设集团有限公司网站爬取笑话集网页 目标网址为#xff1a;http://www.jokeji.cn/list.html 感觉这个网站挺简单#xff0c;不用登陆#xff0c;没有复杂的功能#xff0c;好爬~ 可以现在浏览器中访问这个链接看一下效果#xff0c;你会发现这个页面是个目录#xff0c;有很多笑话页面的链接…爬取笑话集网页 目标网址为http://www.jokeji.cn/list.html  感觉这个网站挺简单不用登陆没有复杂的功能好爬~ 可以现在浏览器中访问这个链接看一下效果你会发现这个页面是个目录有很多笑话页面的链接。 还是先使用简单的代码试试有没有效果 由于爬取的内容发现乱码所以加上encoding import requests # 导入requests库 jokePage requests.get(http://www.jokeji.cn/list.htm) jokePage.encoding gbk print(jokePage.text)爬取每个笑话页面的连接 刚刚我们爬的那个页面是所有笑话的目录每个目录是一个链接打开链接才能看到笑话的内容所以我们要从刚刚爬取的页面中提取所有的笑话页面链接。 * 网页就是文本我们要从一个网页中爬取我们想要的内容就是处理字符串 *。所以分析刚刚爬取的页面找到其中所有的笑话页面链接地址。 可以简单的认为一个笑话页面的链接都是如下结构的/jokehtml/***/****.htm,不信你可以去刚刚爬到的网页源码里面看看 知道了笑话页面链接的结构就可以从网页源码里把所有的链接提取出来啦当然要使用正则表达式  import requests # 导入requests库 import re # 导入正则表达式库 jokePage requests.get(http://www.jokeji.cn/list.htm) jokePage.encoding gbk jokeList re.findall(/jokehtml/[\w]/[0-9].htm,jokePage.text) # 使用正则表达式找到所有笑话页面的链接 print(jokeList) 利用爬到的笑话网页链接去访问笑话页面 简单点先访问我们获取到的第一个链接既 http://www.jokeji.cn jokeList[0] 这个页面访问的方法一样是用requests.get()方法代码如下 import requests # 导入requests库 import re # 导入正则表达式库 jokePage requests.get(http://www.jokeji.cn/list.htm) jokePage.encoding gbk jokeList re.findall(/jokehtml/[\w]/[0-9].htm,jokePage.text) # 使用正则表达式找到所有笑话页面的链接 jokeContent requests.get(http://www.jokeji.cn/jokeList[1]) # 访问第一个链接 jokeContent.encoding gbk print(jokeContent.text)            比如我就发现所有的笑话都在p/p标签中而且p后面都跟了一个数字代表这个笑话的序号而其他非笑话的 p标签后就没有数字所以可以用p[0-9].*/p这个简单的正则匹配到所有笑话把上面代码修改最后两句 import requests # 导入requests库 import re # 导入正则表达式库 jokePage requests.get(http://www.jokeji.cn/list.htm) jokePage.encoding gbk jokeList re.findall(/jokehtml/[\w]/[0-9].htm,jokePage.text) # 使用正则表达式找到所有笑话页面的链接 jokeContent requests.get(http://www.jokeji.cn/jokeList[0]) # 访问第一个链接 jokeContent.encoding gbk jokes re.findall(P[0-9].*/P, jokeContent.text) # 利用正则找到页面中的所有笑话 print(jokes) 完整代码如下 import requests import re jokePage requests.get(http://www.jokeji.cn/list.htm) #取到笑话集完整网址 jokePage.encoding gbk # print(jokePage.text) #打印html页面 jokeList re.findall(/jokehtml/[\w]/[0-9].htm,jokePage.text) #匹配到所有的链接 print(jokeList) for jokeLink in jokeList: #取到每一个链接jokeContent requests.get(http://www.jokeji.cn/ jokeLink) # 访问第一个链接jokeContent.encoding gbkjokes re.findall(P[0-9].*/P, jokeContent.text)for joke in jokes: # 循环打印笑话print(joke)print()     最后还是别忘了这篇文章主要目的是练习使用requests库别只顾看笑话了想想爬笑话过程中用到了requests的什么功能。实际上学会了用代码去访问网页转载于:https://www.cnblogs.com/moning/p/8299037.html
http://www.huolong8.cn/news/383757/

相关文章:

  • 企业网站需要多少钱网站字体只能用
  • 深圳网站设计价格贵州三大交通建设企业
  • 网站建设课程设计内容个人证书查询网入口免费
  • php 网站缓存百度应用宝
  • 机械英语网站企业网站的维护
  • 网站开发与设计实训心得网页设计html代码大全桂林
  • 怎么用百度云做网站空间wordpress多语好利弊
  • 小程序就是做网站做网站大公司还是小公司
  • 上饶有哪些做网站的公司企业网站美工设计
  • seo对网站的重要性东莞市seo网络推广报价
  • 手机新手学做网站网站建设有什么证
  • 网站建设网站维护万网域名安装wordpress
  • 阜新市项目建设网站wordpress 技术主题
  • 博客论坛网站开发做网站怎么上词
  • 团购网站怎么做网站文章发布
  • 怎么管理购物网站设计通网站建设
  • 苏州姑苏区网站建设公司形象vi设计
  • No酒店网站建设如何做网站对话框
  • 英文网站seo 谷歌英文网页设计欣赏
  • 现在建网站做推广能赚钱吗免费ppt制作
  • 济南多语言网站建设网站静态页模板
  • 广州专业网站建设公司建筑工程网首页
  • 做中介最好用的网站江阴网站制作
  • “设计网站”备案的网站每年都要备案么
  • 网站建设就业方向搜索引擎优化策略不包括
  • 济宁网站建设 悍诺苏州网络推广优化
  • 平顶山哪里有做网站的公司番禺微网站建设
  • 做网站需要哪些知识网页浏览器主要通过什么协议
  • html5 国外网站html网页设计模板免费下载
  • 企业网站建设合同方案wordpress博文模板