当前位置: 首页 > news >正文

网站做多久流量百度文库个人登录入口

网站做多久流量,百度文库个人登录入口,保健品手机网站模板,网站空间怎么申请Hello#xff0c;大家好#xff01;停更了这么久#xff0c;中间发生了很多事情#xff0c;我的心情也发生了很大的变化#xff0c;看着每天在增长的粉丝#xff0c;实在不想就这么放弃了#xff0c;所以以后我会尽量保持在一周一篇的进度#xff0c;与大家分享我的学习…Hello大家好停更了这么久中间发生了很多事情我的心情也发生了很大的变化看着每天在增长的粉丝实在不想就这么放弃了所以以后我会尽量保持在一周一篇的进度与大家分享我的学习点滴希望大家可以继续支持我我会努力滴selenium是一个前端的自动化测试工具一般不推荐作为爬虫工具但是为啥我还要给大家说用来做爬虫呢因为他确实可以用来爬虫并且思路很直观原理比较清晰。1. 安装selenium安装比较简单直接用pip就可以安装打开cmd输入pip install selenium就好了2.  安装chromedriverchromedriver是谷歌浏览器的驱动程序因为我平时用chrome所以这里只介绍chromedriver。下载地址http://chromedriver.storage.googleapis.com/index.html这里需要注意的是chromedriver的版本需要是你安装的Chrome的版本对应起来Chrome的版本可以在浏览器的右上角找到帮助-关于Google Chrome 查看浏览器的版本。具体的对应规则如下chromedriver版本支持的Chrome版本v2.40v66-68v2.39v66-68v2.38v65-67v2.37v64-66v2.36v63-65v2.35v62-64v2.34v61-63v2.33v60-62v2.32v59-61v2.31v58-60v2.30v58-60v2.29v56-58v2.28v55-57v2.27v54-56v2.26v53-55v2.25v53-55v2.24v52-54v2.23v51-53v2.22v49-52安装完之后把驱动的安装目录添加到系统Path中就好了如果不添加在运行程序的时候就会报错提示你没有添加到Path中。3. 开始爬虫今天要爬取的网址是https://www.upbit.com/service_center/notice然后点击翻页按钮发现url并没有变化通过F12查看请求的地址变化可以发现https://www.upbit.com/service_center/notice?id1这里主要变化的就是后面的id1,2,3。。。依次类推。用selenium爬虫开始前需要定义好下面内容# 设置谷歌浏览器的选项opt webdriver.ChromeOptions()# 将浏览器设置为无头浏览器即先爬虫时没有显示的浏览器opt.set_headless()# 浏览器设置为谷歌浏览器并设置为上面设置的选项browser webdriver.Chrome(optionsopt)save []home https://www.upbit.com/home# 创建好浏览器对象后通过get()方法可以向浏览器发送网址# 获取网址信息browser.get(home)time.sleep(15)然后是如何定位html的元素在selenium中定位元素的方法有find_element_by_id(self, id_)find_element_by_name(self, name)find_element_by_class_name(self, name)find_element_by_tag_name(self, name)find_element_by_link_text(self, link_text)find_element_by_partial_link_text(self, link_text)find_element_by_xpath(self, xpath)find_element_by_css_selector(self, css_selector)其中的idname等都可以通过浏览器获得定位元素的目的是为了获取我们想要的信息然后解析出来保存通过调用tex方法可以获得元素的文本信息。下面把整个爬虫的代码贴出来供大家参考fromselenium importwebdriverimporttimefromtqdm importtrangefromcollections importOrderedDictimportpandas aspddefstringpro(inputs):inputs str(inputs)returninputs.strip().replace(\n,).replace(\t,).lstrip().rstrip()opt webdriver.ChromeOptions()opt.set_headless()browser webdriver.Chrome(optionsopt)save []home https://www.upbit.com/homebrowser.get(home)time.sleep(15)forpage intrange(500):try:rows OrderedDict()url https://www.upbit.com/\service_center/notice?id{}.format(page)browser.get(url)content browser.find_element_by_class_name(nametxtB).texttitle_class browser.find_element_by_class_name(nametitB)title title_class.find_element_by_tag_name(strong).texttimes_str title_class.find_element_by_tag_name(span).texttimes times_str.split(|)[0].split( )[1:]num times_str.split(|)[1].split( )[1]rows[title] titlerows[times] .join(times)rows[num] numrows[content] stringpro(content)save.append(rows)print({},{}.format(page,rows))exceptExceptionase:continuedf pd.DataFrame(save)df.to_csv(./datasets/www_upbit_com.csv,indexNone)有问题可以与我交流~
http://www.yutouwan.com/news/62714/

相关文章:

  • 有没有好的网站义乌前十跨境电商公司
  • 江苏恒健建设集团有限公司网站如何添加wordpress主题
  • 长沙网页制作网站自媒体网络营销是什么
  • 专业网站设计制作服务下列 是计算机网页制作工具
  • 锤子网站cms版本天猫网页版
  • 网站用html模拟图片无极县招聘信息最新招聘
  • 广宁县住房建设局网站学校的网站的代码模板下载
  • 普通网站一年要多少钱莆田网站关键词优化
  • 淄博市网站云平台wordpress 中文乱码
  • 佛山网站搭建公司网站怎么做效果更好
  • 资质升级业绩备案在哪个网站做网站建设平台开发
  • 珠海建网站多少钱郴州百度seo
  • 网站seo检测南京每月做社保明细在哪个网站查
  • 哪个网站做超链接网站做百度收录的意义
  • 乡镇网站建设方案百图汇免费素材图库
  • 做网站公司做网站公司有哪些做陶瓷的公司网站
  • 网站建设服务范围优化方案电子版
  • 速橙科技有限公司网站建设开发工具怎么使用
  • 网站建设需要多少时间怎么找拉新推广平台
  • 石家庄做网站哪家公司好网站cms模板
  • 郑州企业网站设计微信推广怎么做
  • 上传文件到网站wordpress媒体库 替换
  • 常熟市维摩剑门绿茶网站建设目标百度seo自然优化
  • 一个月做网站学编程的人以后都干嘛呢
  • 黑龙江省住房和城乡建设网站网站建设太金手指六六六
  • 嘉定网站建设哪里便宜三维动画设计制作公司
  • 运动网站模板wordpress 画展主题
  • 番禺响应式网站开发上海网页设计公司哪儿济南兴田德润有活动吗
  • 做盗版电影网站犯法不企业常用的网络营销方法
  • 四川网站建设广元分公司河南项目信息网