当前位置: 首页 > news >正文

个人网站建设教程视频静态网站 价格

个人网站建设教程视频,静态网站 价格,购物网站怎么做代码,江苏联运建设有限公司网站python爬虫代码示例的方法#xff1a;首先获取浏览器信息#xff0c;并使用urlencode生成post数据#xff1b;然后安装pymysql#xff0c;并存储数据到MySQL即可。python爬虫代码示例的方法#xff1a;1、urllib和BeautifuSoup获取浏览器信息from urllib import requestre…python爬虫代码示例的方法首先获取浏览器信息并使用urlencode生成post数据然后安装pymysql并存储数据到MySQL即可。python爬虫代码示例的方法1、urllib和BeautifuSoup获取浏览器信息from urllib import requestreq request.urlopen(http://www.baidu.com)print(req.read().decode(utf-8))模拟真实浏览器携带user-Agent头(目的是不让服务器认为是爬虫若不带此浏览器信息则可能会报错)req request.Request(url) #此处url为某个网址req.add_header(key,value) #key即user-Agentvalue即浏览器的版本信息resp request.urlopen(req)print(resp.read().decode(utf-8))相关学习推荐python视频教程使用POST导入urllib库下面的parsefrom urllib import parse使用urlencode生成post数据postData parse.urlencode([(key1,val1),(key2,val2),(keyn,valn)])使用postrequest.urlopen(req,datapostData.encode(utf-8)) #使用postData发送post请求resp.status #得到请求状态resp.reason #得到服务器的类型完整代码示例(以爬取维基百科首页链接为例)#-*- coding:utf-8 -*-from bs4 import BeautifulSoup as bsfrom urllib.request import urlopenimport reimport ssl#获取维基百科词条信息ssl._create_default_https_context ssl._create_unverified_context #全局取消证书验证#请求URL并把结果用utf-8编码req urlopen(https://en.wikipedia.org/wiki/Main page).read().decode(utf-8)#使用beautifulsoup去解析soup bs(req,html.parser)# print(soup)#获取所有href属性以“/wiki/Special”开头的a标签urllist soup.findAll(a,hrefre.compile(^/wiki/Special))for url in urllist:#去除以.jpg或.JPG结尾的链接if not re.search(\.(jpg|JPG)$,url[href]):#get_test()输出标签下的所有内容包括子标签的内容#string只输出一个内容若该标签有子标签则输出“noneprint(url.get_text()-----url[href])# print(url)2、存储数据到MySQL安装pymysql通过pip安装$ pip install pymysql或者通过安装文件$ python setup.py install使用#引入开发包import pymysql.cursors#获取数据库链接connection pymysql.connect(hostlocalhost,user root,password 123456,db wikiurl,charset utf8mb4)try:#获取会话指针with connection.cursor() as cursor#创建sql语句sql insert into tableName(urlname,urlhref) values(%s,%s)#执行SQL语句cursor.execute(sql,(url.get_text(),https://en.wikipedia.orgurl[href]))#提交connection.commit()finally:#关闭connection.close()3、爬虫注意事项Robots协议(机器人协议也称爬虫协议)全称是“网络爬虫排除协议”网站通过Robots协议告诉搜索引擎哪些页面可以抓取哪些页面不可以抓取。一般在主页面下如https://en.wikipedia.org/robots.txtDisallow不允许访问allow允许访问相关推荐编程视频课程
http://www.yutouwan.com/news/234742/

相关文章:

  • 网站布局结构主要分为江苏城乡建设局网站
  • 宁陵网站建设汕头潮阳网站建设
  • 四站合一网站建设公司网上购物哪个平台能买到正品
  • 陕西省住房建设厅官方网站中小企业网站建设多少钱
  • 网站备案是给什么进行备案系统小说
  • 深圳网站建设 龙华信科免费软件下载网站哪个好
  • 内部链接网站大全网站按钮设计成什么颜色原因
  • 傻瓜式网站全网关键词指数查询
  • 网站备案 强制宝塔和WordPress一样吗
  • 做网站和编程在郑州建设网站这么做
  • 数码网站建设论文做电子商务平台网站需要多少钱
  • 朝城做网站公司平面设计画图软件
  • 呼伦贝尔网站建设做淘宝网站用什么软件
  • 深圳企业模板网站建设微商可以做网站推广吗
  • wcm 可以做网站吗衡阳县专业做淘宝网站
  • 建设搜索引擎友好的网站推广普通话手抄报简单漂亮
  • 网站备案查询接口帮忙做公司网站
  • 杭州企业网站定制html网页制作简单范例
  • 百度网站怎么建设的家具公司网站模板下载
  • 专业制作广告字潍坊网站建设seo
  • 网站变成灰色wordpress文章分多列排
  • 花都区建设工程造价管理网站常德网站建设产品
  • 网络营销网站建设与策划分析做暧暧前戏视频网站
  • 如何制作网站app上海网页制作步骤
  • 做网站项目流程空白网站怎么做
  • 大连做网站建设傻瓜式建站软件
  • 百度给做网站收费多少钱招商网站建设费用价格
  • 中山开发公司seo最好的网站
  • 怎么找网站的根目录小程序可以自己开发吗
  • 手机网站制作方法wordpress会员上限