当前位置: 首页 > news >正文

网站建设gon清徐网站建设

网站建设gon,清徐网站建设,wordpress外链不显示,做电商网站需要做什么准备scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。 该爬虫框架适合于那种静态页面#xff0c; js 加载的话#xff0c;如果你无法模拟它的 API 请求#xff0c;可能就需要使用 selenium 这种使用无头浏览器的方式来完成你的需求了 入门 imp…scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。 该爬虫框架适合于那种静态页面 js 加载的话如果你无法模拟它的 API 请求可能就需要使用 selenium 这种使用无头浏览器的方式来完成你的需求了 入门 import scrapyclass BlogSpider(scrapy.Spider):name blogspiderstart_urls [https://www.zyte.com/blog/]def parse(self, response):for title in response.css(.oxy-post-title):# 返回对象yield {title: title.css(::text).get()}for next_page in response.css(a.next):# 返回一个连接爬虫框架会继续请求这个连接得到响应后再回调 parse 方法yield response.follow(next_page, self.parse)运行 scrapy runspider myspider.py代码中通过 main 方式运行调试 # _*_ coding: utf-8 _*_ import os, sys, pprint from scrapy.cmdline import executedef build_base_config():current_dir_path os.path.dirname(os.path.abspath(__file__))# sys.path.append(current_dir_name) # 入口文件 与模块查找路径、import 相对路径导入有影响print(\n当前路径 PATH:, current_dir_path)# pprint.pprint(sys.path)filepath, file_name os.path.split(current_dir_path)spiders_name file_namespiders_name bestbuy_new_careturn current_dir_path, spiders_namedef run_product_review():运行产品评论current_dir_path, spiders_name build_base_config()# 结果输出到本地 json 文件execute([scrapy, crawl, spiders_name -products_review,f-o{current_dir_path}/temp/product-review.json,-LDEBUG,f-apath{current_dir_path}/temp/review-links.json,-acollect_exist1])if __name__ __main__:run_product_review()pass简单说使用了 scrapy.cmdline 提供的工具执行的命令和在命令行中的一致只是这种方式可以在 idea 工具中进行 debug 调试 入门和实际开发的不同之处 开发上 a.入门例子相对简单工程结构也不怎么注重 b.生产相对复杂在核心开发上差不多也是如何去解析 html 结构工程结构上为了调度和复用可能会更复杂一点调度平台 a.有使用一些开源的调度平台因为是通用 b.还有的可能会再开源的调度平台上再包装一层自己的调度平台仅用来展示符合产品经理的设计 官方对于动态内容的引导 https://docs.scrapy.org/en/latest/topics/dynamic-content.html 个人感觉这里提供的知识点还是非常具有参考价值的简单总结 使用 scrapy shell 工具定位数据源 $ scrapy shell quotes.toscrape.com/scroll (...)view(response)使用 scrapy fetch 工具获取响应到文件这类似与查看网页源代码 scrapy fetch --nolog https://example.com response.html复制请求在浏览器中可以将请求复制为 curl 格式然后可以使用 form_curl() 来使用 from scrapy import Requestrequest Request.from_curl(curl https://quotes.toscrape.com/api/quotes?page1 -H User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:67.0) Gecko/20100101 Firefox/67.0 -H Accept: */* -H Accept-Language: ca,en-US;q0.7,en;q0.3 --compressed -H X-Requested-With: XMLHttpRequest -H Proxy-Authorization: Basic QFRLLTAzMzEwZTAxLTk5MWUtNDFiNC1iZWRmLTJjNGI4M2ZiNDBmNDpAVEstMDMzMTBlMDEtOTkxZS00MWI0LWJlZGYtMmM0YjgzZmI0MGY0 -H Connection: keep-alive -H Referer: http://quotes.toscrape.com/scroll -H Cache-Control: max-age0)解析 JavaScript 代码html 中有些网站会出现 script中间是大段的 json 数据有可能是变量也有可能是初始化数据之类的/script就可以使用 比如是 var data {field: value};可以使用如下的方式匹配 pattern r\bvar\sdata\s*\s*(\{.*?\})\s*;\s*\n json_data response.css(script::text).re_first(pattern) json.loads(json_data) {field: value}
http://www.huolong8.cn/news/57150/

相关文章:

  • 女生做网站编辑好吗加强网站队伍建设
  • 网站维护和网页维护区别商标自助查询系统官网
  • 网站建设pqiw中装建设股票
  • 建设网站是公司资产怎么介绍自己做的网站效果图
  • 惠州酒店网站建设如何用网站设计制作
  • 电白网站开发公司作文大全网站链接
  • 做网站的公司 苏迪石家庄 外贸网站建设公司
  • 企业网站开源系统销售管理软件有哪些
  • 自己做网站还能挣钱吗湘潭网站建设方案费用
  • 推荐个在广州做网站的网站建设推广文章
  • 用什么网站做pptfullpage网站怎么做
  • 重庆微信网站制作如何修改百度上面的门店号码
  • 网站文案优化公需道德与能力建设培训网站
  • 綦江建设银行网站网站推广一般在哪个网做
  • 做视频网站好做吗清远医疗网站建设
  • 网站软文伪原创网站建设 三合一
  • 南京哪公司建设网站长春今天最新通告
  • 如何做免费网站如何申请商业服务器
  • 天津建设网站官网wordpress主题 心理医生
  • 网站开发用什么好建站最便宜的平台
  • 东营聊城网站建设怎么用网吧电脑做网站服务器
  • 做论坛网站 备案看摄影作品的网站
  • 品牌商城网站制作公众号开发需要提供什么
  • 国外metro风格网站模板广元市剑阁县建设局网站
  • 为什么我做的视频网站播放不了郑州网站建设企起
  • 湖北手机网站建设在线短链接生成网址
  • 社团网站建设的功能定位网站自身维护
  • 做跨国婚恋网站赚钱吗凡科代理平台
  • 哪家成都公司做网站江门h5模板建站
  • php商业网站制作90设计网站免费素材