当前位置: 首页 > news >正文

php 网站换空间wordpress插件大全

php 网站换空间,wordpress插件大全,邢台网站建设包括哪些,手机网站建设专家豆瓣网址#xff1a;https://movie.douban.com/top250 1.创建scrapy框架 scrapy startproject 项目名(scrapy_test_one)创建好以后的目录是这样的 2.创建spider文件 在spiders目录下创建一个spider_one.py文件#xff0c;可以随意命名#xff0c;该文件主要是让我们进行数…豆瓣网址https://movie.douban.com/top250 1.创建scrapy框架 scrapy startproject 项目名(scrapy_test_one)创建好以后的目录是这样的 2.创建spider文件 在spiders目录下创建一个spider_one.py文件可以随意命名该文件主要是让我们进行数据爬取的。 运行命令 scrapy genspider spider_one baidu.com注意末尾的域名是用来设置爬取的范围的 spider_one.py代码如下 import scrapy from scrapy import Requestfrom scrapy_test_one.items import ScrapyTestOneItem # from scrapy.selector import HtmlXPathSelectorclass SpiderOneSpider(scrapy.Spider):name spider_oneallowed_domains [movie.douban.com/top250]start_urls [https://movie.douban.com/top250]def parse(self, response, *args):movie_items response.xpath(//div/ol[classgrid_view])# print(,movie_items)for item in movie_items:movie ScrapyTestOneItem()# src item.xpath(//li/div/div/a/img/src).extract_first()# print(,src)# movie[img] srctitle item.xpath(//li/div/div[2]/div/a/span[1]/text())movie[title] title.extract()print(title,title)# movie[rank] item.xpath()# # print(movie[rank])# movie[title] item.xpath(# div[classinfo]/div[classhd]/a/span[classtitle][1]/text()).extract()# movie[poster] item.xpath(div[classpic]/a/img/src).extract()# movie[link] item.xpath(div[classinfo]/div[classhd]/a/href).extract()# movie[rating] item.xpath(# div[classinfo]/div[classbd]/div[classstar]/span[classrating_num]/text()).extract()yield movie 3.对settings进行配置 放开useragent配置好对应的值 USER_AGENT Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36关闭robots协议 # Obey robots.txt rules ROBOTSTXT_OBEY False放开管道限制 ITEM_PIPELINES {scrapy_test_one.pipelines.ScrapyTestOnePipeline: 300, }4.配置items文件 在items.py文件中添加需要的字段 import scrapyclass ScrapyTestOneItem(scrapy.Item):# define the fields for your item here like:name scrapy.Field()img scrapy.Field()title scrapy.Field()5.配置piplines.py文件 from itemadapter import ItemAdapter from scrapy_test_one.items import ScrapyTestOneItem import pymongo host localhost port 27017 db_name DBmoviesclass ScrapyTestOnePipeline:def open_spider(self, spider):# 连接数据库self.client pymongo.MongoClient(hosthost, portport) self.db self.client[db_name]def process_item(self, item, spider):items dict(item)if isinstance(items, dict):print(,items)self.collection self.db[movies]self.collection.insert_one(items)# self.db[movies].insert_one(items)else:return 数据格式错误6.所有配置完后就可以运行程序进行爬取并存储啦 运行命令 scrapy crawl spider_one
http://www.huolong8.cn/news/286045/

相关文章:

  • 手机网站开发应注意建站公司排名 软通
  • 梅州建站多少钱河北石家庄的大学
  • 建设网站有哪些公司一级造价工程师专业
  • 凡科建站提示网站建设中如何在百度提交网站
  • 制作一个私人网站怎么申请域名商城网站框架
  • 安庆网站建设工作室wordpress支付宝付费
  • 山西省网站建设制作招聘桂林网站推广维护建设
  • 茂名住房证书城乡建设局官方网站代做课程设计网站
  • 长网页网站广州新闻热点事件
  • 湖北优化网站建设网络构建
  • 天津做网站好的公司蛋糕网站模板
  • 网站开发建设及推广合同免费注册淘宝店铺
  • 长春哪家网站做的好网站推广妙招
  • 商务网站开发实验报告绍兴建站公司模板
  • 飞创网站建设有成crm
  • 源码网站取名可信的品牌网站建设
  • 手机网站建设的影响深圳市无限空间工业设计有限公司
  • 五星酒店网站建设方案百度旗下有哪些app
  • 用dw制作个人网站刚刚北京传来重大消息
  • 深圳华南城网站建设云闪付小程序开发平台
  • 珠海网站制作套餐津seo快速排名
  • 怎么查看网站收录绍兴网站建设价格
  • 溧阳建设局网站6小程序怎么申请注册费用
  • wordpress性能差做seo用什么网站系统
  • mvc网站开发客户网站建设完成后需要什么
  • 网站需备案吗网站域名和空间区别
  • php网站建设入门教程住房建设部投诉网站
  • 公司网站本地如何弄WordPress没有必要缓存插件
  • 四川鼎能建设集团网站吉林省吉林市邮政编码
  • 襄阳市住房和城乡建设局网站dede 招生网站源码