当前位置: 首页 > news >正文

网站做多久流量百度文库个人登录入口

网站做多久流量,百度文库个人登录入口,保健品手机网站模板,网站空间怎么申请Hello#xff0c;大家好#xff01;停更了这么久#xff0c;中间发生了很多事情#xff0c;我的心情也发生了很大的变化#xff0c;看着每天在增长的粉丝#xff0c;实在不想就这么放弃了#xff0c;所以以后我会尽量保持在一周一篇的进度#xff0c;与大家分享我的学习…Hello大家好停更了这么久中间发生了很多事情我的心情也发生了很大的变化看着每天在增长的粉丝实在不想就这么放弃了所以以后我会尽量保持在一周一篇的进度与大家分享我的学习点滴希望大家可以继续支持我我会努力滴selenium是一个前端的自动化测试工具一般不推荐作为爬虫工具但是为啥我还要给大家说用来做爬虫呢因为他确实可以用来爬虫并且思路很直观原理比较清晰。1. 安装selenium安装比较简单直接用pip就可以安装打开cmd输入pip install selenium就好了2.  安装chromedriverchromedriver是谷歌浏览器的驱动程序因为我平时用chrome所以这里只介绍chromedriver。下载地址http://chromedriver.storage.googleapis.com/index.html这里需要注意的是chromedriver的版本需要是你安装的Chrome的版本对应起来Chrome的版本可以在浏览器的右上角找到帮助-关于Google Chrome 查看浏览器的版本。具体的对应规则如下chromedriver版本支持的Chrome版本v2.40v66-68v2.39v66-68v2.38v65-67v2.37v64-66v2.36v63-65v2.35v62-64v2.34v61-63v2.33v60-62v2.32v59-61v2.31v58-60v2.30v58-60v2.29v56-58v2.28v55-57v2.27v54-56v2.26v53-55v2.25v53-55v2.24v52-54v2.23v51-53v2.22v49-52安装完之后把驱动的安装目录添加到系统Path中就好了如果不添加在运行程序的时候就会报错提示你没有添加到Path中。3. 开始爬虫今天要爬取的网址是https://www.upbit.com/service_center/notice然后点击翻页按钮发现url并没有变化通过F12查看请求的地址变化可以发现https://www.upbit.com/service_center/notice?id1这里主要变化的就是后面的id1,2,3。。。依次类推。用selenium爬虫开始前需要定义好下面内容# 设置谷歌浏览器的选项opt webdriver.ChromeOptions()# 将浏览器设置为无头浏览器即先爬虫时没有显示的浏览器opt.set_headless()# 浏览器设置为谷歌浏览器并设置为上面设置的选项browser webdriver.Chrome(optionsopt)save []home https://www.upbit.com/home# 创建好浏览器对象后通过get()方法可以向浏览器发送网址# 获取网址信息browser.get(home)time.sleep(15)然后是如何定位html的元素在selenium中定位元素的方法有find_element_by_id(self, id_)find_element_by_name(self, name)find_element_by_class_name(self, name)find_element_by_tag_name(self, name)find_element_by_link_text(self, link_text)find_element_by_partial_link_text(self, link_text)find_element_by_xpath(self, xpath)find_element_by_css_selector(self, css_selector)其中的idname等都可以通过浏览器获得定位元素的目的是为了获取我们想要的信息然后解析出来保存通过调用tex方法可以获得元素的文本信息。下面把整个爬虫的代码贴出来供大家参考fromselenium importwebdriverimporttimefromtqdm importtrangefromcollections importOrderedDictimportpandas aspddefstringpro(inputs):inputs str(inputs)returninputs.strip().replace(\n,).replace(\t,).lstrip().rstrip()opt webdriver.ChromeOptions()opt.set_headless()browser webdriver.Chrome(optionsopt)save []home https://www.upbit.com/homebrowser.get(home)time.sleep(15)forpage intrange(500):try:rows OrderedDict()url https://www.upbit.com/\service_center/notice?id{}.format(page)browser.get(url)content browser.find_element_by_class_name(nametxtB).texttitle_class browser.find_element_by_class_name(nametitB)title title_class.find_element_by_tag_name(strong).texttimes_str title_class.find_element_by_tag_name(span).texttimes times_str.split(|)[0].split( )[1:]num times_str.split(|)[1].split( )[1]rows[title] titlerows[times] .join(times)rows[num] numrows[content] stringpro(content)save.append(rows)print({},{}.format(page,rows))exceptExceptionase:continuedf pd.DataFrame(save)df.to_csv(./datasets/www_upbit_com.csv,indexNone)有问题可以与我交流~
http://www.huolong8.cn/news/62714/

相关文章:

  • 外贸网站推广方式cad协同设计平台
  • 章丘做网站单位哪家好进行公司网站建设方案
  • 买房网站排名高校校园网站建设的要求
  • 网站设计与实现毕业设计上海在建工程查询
  • 一个人做网站好累网站忘了怎么办
  • 四模网站叫别人做网站后怎么更改密码
  • 网站合同 下载如何获取网站访客qq
  • 珠海网站有没有什么推荐的网站
  • seo网站沙盒期WordPress主题加密方式
  • 怎样做像绿色和平组织类似的网站福州建设工程招投标信息网
  • 成都网站建设高端企业logo设计的建议
  • 永泰县网站集约化建设易语言做网站教程
  • zencart 官方网站做会计网站的流程
  • 免费做网站怎么做网站吗2wpf可以应用于网站开发吗
  • 食品网站建设书丽水市网站建设
  • 网站开发网站设计网站建设资料清单
  • 网站对应的ip三网合一网站
  • 坑人网站怎么做国内互联网推广
  • asp.net网站 兼容广州微网站建设价位
  • 明星网站策划书查网站权重
  • 郑州网站推广优化公司淮南网站建设淮南
  • 商城网站 后台后台管理网站模板
  • 建站公司主要做那些业务南宁网站推广优化
  • 旅游网站开发的意义哪个网站推荐做挖机事的
  • 眼镜网站 wordpress模板申请小程序需要什么
  • 玉溪定制网站建设医美行业网站建设
  • 天津做优化的网站有多少家暑假旅游最适合的城市
  • 网站制作哪里好薇株洲市建设局官方网站
  • 免费职业技能培训网站主机屋 wordpress
  • 电子商务网站建设与管理期末试题wordpress承载压力