当前位置: 首页 > news >正文

短视频分享网站开发网页制作教程教程

短视频分享网站开发,网页制作教程教程,简述php网站开发流程图,上海建设安检站网站python有许多库可以让我们很方便地编写网络爬虫#xff0c;爬取某些页面#xff0c;获得有价值的信息#xff01;但许多时候#xff0c;爬虫取到的页面仅仅是一个静态的页面#xff0c;即网页 的源代码#xff0c;就像在浏览器上的“查看网页源代码”一样。一些动态的东西…python有许多库可以让我们很方便地编写网络爬虫爬取某些页面获得有价值的信息但许多时候爬虫取到的页面仅仅是一个静态的页面即网页 的源代码就像在浏览器上的“查看网页源代码”一样。一些动态的东西如javascript脚本执行后所产生的信息是抓取不到的这里暂且先给出这么一 些方案可用于python爬取js执行后输出的信息。 1、两种基本的解决方案 1.1 用dryscrape库动态抓取页面 js脚本是通过浏览器来执行并返回信息的所以抓取js执行后的页面一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎python提供了许多库可以调用这个引擎dryscrape便是其中之一它调用webkit引擎来处理包含js等的网页 import dryscrape # 使用dryscrape库 动态抓取页面 def get_url_dynamic(url): session_reqdryscrape.Session() session_req.visit(url) #请求页面 responsesession_req.body() #网页的文本 #print(response) return response get_text_line(get_url_dynamic(url)) #将输出一条文本 这里对于其余包含js的网页也是适用的虽然可以满足抓取动态页面的要求但缺点还是很明显的慢太慢了其实想一想也合理python调用 webkit请求页面而且等页面加载完载入js文件让js执行将执行后的页面返回慢一点也是应该的除外还有很多库可以调用 webkitPythonWebkitPyWebKitGitPygt可以用它写个浏览器pyjamas等等听说它们也可以实现相同的功能 1.2 selenium web测试框架 selenium是一个web测试框架它允许调用本地的浏览器引擎发送网页请求所以它同样可以实现抓取页面的要求。 # 使用 selenium webdriver 可行但会实时打开浏览器窗口 def get_url_dynamic2(url): driverwebdriver.Firefox() #调用本地的火狐浏览器Chrom 甚至 Ie 也可以的 driver.get(url) #请求页面会打开一个浏览器窗口 html_textdriver.page_source driver.quit() #print html_text return html_text get_text_line(get_url_dynamic2(url)) #将输出一条文本 这也不失为一条临时的解决方案与selenium类似的框架还有一个windmill感觉稍复杂一些就不再赘述 2、selenium的安装与使用 2.1 selenium的安装 在Ubuntu上安装可以直接使用pip install selenium。由于以下原因 1. selenium 3.x开始webdriver/firefox/webdriver.py的__init__中executable_pathgeckodriver而2.x是executable_pathwires 2. firefox 47以上版本需要下载第三方driver即geckodriver 还需要一些特殊操作 1. 下载 geckodriverckod 地址 mozilla/geckodriver 2. 解压后将geckodriverckod 存放至 /usr/local/bin/ 路径下即可 sudo mv /Downloads/geckodriver /usr/local/bin/ 2.2 selenium的使用 1. 运行报错 driver  webdriver.chrome() TypeError: module object is not callable 解决方案浏览器的名称需要大写Chrome和FirefoxIe 2. 通过 content  driver.find_element_by_class_name(content) 来定位元素时该方法返回的是FirefoxWebElement想要获取包含的值时可以通过 value  content.text 到此这篇关于python如何爬取动态网站的文章就介绍到这了,更多相关python怎么爬动态网站内容请搜索python博客以前的文章或继续浏览下面的相关文章希望大家以后多多支持python博客
http://www.huolong8.cn/news/462268/

相关文章:

  • docker 做网站网页制作多少钱一个页面
  • 做网站软件下载沈阳建设网站公司
  • 官方网站打不开怎么回事网站开发技术框架
  • 莱芜泉网站建设h5页面制作教程
  • 公文写作网站沈阳网页设计招聘
  • 徐州服饰网站建设视频链接生成器在线
  • 做医院网站及微信公众号价格素马网站建设费用差距
  • 舟山建设企业网站高端营销型网站
  • 渝叶购零售客户电商网站青海建设银行的官方网站
  • 网站 模板 安装家做网站
  • 怎么样分析一个网站信誉比较好的商家可做网站
  • 怎么选择郑州网站建设云南建设企业网站
  • 织梦可以做商城网站吗中国建造师网官网登录入口
  • 精通网站建设 100%全能建站密码pdf想学网站设计
  • 建立网站wordpress营销型网站建设需要懂什么
  • 网站页面结构展厅布置
  • 潮州网站设计做网站组织架构
  • 网站建设中期目标正规制作网站公司哪家好
  • 闵行区网站免费企业网站系统源码下载
  • 做网站前网站制作和网页制作是不是一样
  • 模板网站的优势有哪些做网站需要apache
  • 在线做春节网站哪个网站可以做微信引导图
  • 那里做网站比较好为什么用MyEclipse做网站
  • 男女做那个视频网站网站手机版
  • 免费搭建网站旅游商城网站订单处理
  • 专业网站设计服务百度指数三个功能模块
  • 网站设计方案论文代理记账公司收费标准
  • 做旅游攻略的网站代码wordpress的页面链接错乱
  • 做网站需要做h5吗怎么做一个网站的步骤
  • 益阳市 网站建设电商网站链接买卖