当前位置: 首页 > news >正文

友情链接的检查方法合肥网站关键词优化

友情链接的检查方法,合肥网站关键词优化,网站开发最新书籍,免费发布的空间scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。 该爬虫框架适合于那种静态页面#xff0c; js 加载的话#xff0c;如果你无法模拟它的 API 请求#xff0c;可能就需要使用 selenium 这种使用无头浏览器的方式来完成你的需求了 入门 imp…scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。 该爬虫框架适合于那种静态页面 js 加载的话如果你无法模拟它的 API 请求可能就需要使用 selenium 这种使用无头浏览器的方式来完成你的需求了 入门 import scrapyclass BlogSpider(scrapy.Spider):name blogspiderstart_urls [https://www.zyte.com/blog/]def parse(self, response):for title in response.css(.oxy-post-title):# 返回对象yield {title: title.css(::text).get()}for next_page in response.css(a.next):# 返回一个连接爬虫框架会继续请求这个连接得到响应后再回调 parse 方法yield response.follow(next_page, self.parse)运行 scrapy runspider myspider.py代码中通过 main 方式运行调试 # _*_ coding: utf-8 _*_ import os, sys, pprint from scrapy.cmdline import executedef build_base_config():current_dir_path os.path.dirname(os.path.abspath(__file__))# sys.path.append(current_dir_name) # 入口文件 与模块查找路径、import 相对路径导入有影响print(\n当前路径 PATH:, current_dir_path)# pprint.pprint(sys.path)filepath, file_name os.path.split(current_dir_path)spiders_name file_namespiders_name bestbuy_new_careturn current_dir_path, spiders_namedef run_product_review():运行产品评论current_dir_path, spiders_name build_base_config()# 结果输出到本地 json 文件execute([scrapy, crawl, spiders_name -products_review,f-o{current_dir_path}/temp/product-review.json,-LDEBUG,f-apath{current_dir_path}/temp/review-links.json,-acollect_exist1])if __name__ __main__:run_product_review()pass简单说使用了 scrapy.cmdline 提供的工具执行的命令和在命令行中的一致只是这种方式可以在 idea 工具中进行 debug 调试 入门和实际开发的不同之处 开发上 a.入门例子相对简单工程结构也不怎么注重 b.生产相对复杂在核心开发上差不多也是如何去解析 html 结构工程结构上为了调度和复用可能会更复杂一点调度平台 a.有使用一些开源的调度平台因为是通用 b.还有的可能会再开源的调度平台上再包装一层自己的调度平台仅用来展示符合产品经理的设计 官方对于动态内容的引导 https://docs.scrapy.org/en/latest/topics/dynamic-content.html 个人感觉这里提供的知识点还是非常具有参考价值的简单总结 使用 scrapy shell 工具定位数据源 $ scrapy shell quotes.toscrape.com/scroll (...)view(response)使用 scrapy fetch 工具获取响应到文件这类似与查看网页源代码 scrapy fetch --nolog https://example.com response.html复制请求在浏览器中可以将请求复制为 curl 格式然后可以使用 form_curl() 来使用 from scrapy import Requestrequest Request.from_curl(curl https://quotes.toscrape.com/api/quotes?page1 -H User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:67.0) Gecko/20100101 Firefox/67.0 -H Accept: */* -H Accept-Language: ca,en-US;q0.7,en;q0.3 --compressed -H X-Requested-With: XMLHttpRequest -H Proxy-Authorization: Basic QFRLLTAzMzEwZTAxLTk5MWUtNDFiNC1iZWRmLTJjNGI4M2ZiNDBmNDpAVEstMDMzMTBlMDEtOTkxZS00MWI0LWJlZGYtMmM0YjgzZmI0MGY0 -H Connection: keep-alive -H Referer: http://quotes.toscrape.com/scroll -H Cache-Control: max-age0)解析 JavaScript 代码html 中有些网站会出现 script中间是大段的 json 数据有可能是变量也有可能是初始化数据之类的/script就可以使用 比如是 var data {field: value};可以使用如下的方式匹配 pattern r\bvar\sdata\s*\s*(\{.*?\})\s*;\s*\n json_data response.css(script::text).re_first(pattern) json.loads(json_data) {field: value}
http://www.yutouwan.com/news/272111/

相关文章:

  • 永州市网站建设网站设计与开发未来发展方向
  • 天蓝色美容网站高校思政网站建设意义
  • 做机械方面外贸最大的网站wordpress lens 模板币
  • 杭州科技公司网站建设阿里巴巴国际贸易网
  • 网盘做网站服务器黄石网站设计公司
  • 河北众成建设有限公司网站做网站需要什么系统
  • 网站后台显示连接已重置wordpress跳转
  • 廊坊网站建站网站公司建网站有免费的吗
  • 企业网站必须做可信网站认证新工商名录企业应用平台
  • 模板网站 优帮云专做西餐的网站
  • 网站技术的解决方案如何做淘客网站
  • 个人网站备案都需要什么网站如何添加认证联盟
  • 怎样增加网站流量wordpress 如果存在则
  • 网站建设哪些字体没有版权平台的重要性
  • 最新网站源码下载做网站公司怎么备案客户网站
  • 苏州的建筑公司网站网站建设有哪些文件
  • wordpress 淘宝客网站模板官方网站建立
  • 企业网站源码带后台管理辽宁省建设厅网站更新
  • 机房建设 网站找工程项目信息哪个app好用
  • 织梦网站专题模板装饰公司设计用什么软件
  • 郑州企业建网站制作做的网站
  • 网站的备案all网络营销第二板斧是什么
  • 济源网站建设佛山网站建设报价
  • 手机app制作流程宁波seo推广如何收费
  • 制作销售网站查看网站被恶意镜像
  • 有没有网站建设的教程承德做网站
  • 高端网站建设多少钱湖北省建设厅网站上岗证查询
  • 个人网站做什么类型好重庆建网站cqiezscom
  • 公司网站及微信公众号建设意义好用的外贸网站
  • 网站开发公司盈利wordpress下载链接