当前位置：首页 > news >正文

网站做多久流量百度文库个人登录入口

news 2026/1/13 17:17:42

网站做多久流量,百度文库个人登录入口,保健品手机网站模板,网站空间怎么申请Hello#xff0c;大家好#xff01;停更了这么久#xff0c;中间发生了很多事情#xff0c;我的心情也发生了很大的变化#xff0c;看着每天在增长的粉丝#xff0c;实在不想就这么放弃了#xff0c;所以以后我会尽量保持在一周一篇的进度#xff0c;与大家分享我的学习…Hello大家好停更了这么久中间发生了很多事情我的心情也发生了很大的变化看着每天在增长的粉丝实在不想就这么放弃了所以以后我会尽量保持在一周一篇的进度与大家分享我的学习点滴希望大家可以继续支持我我会努力滴selenium是一个前端的自动化测试工具一般不推荐作为爬虫工具但是为啥我还要给大家说用来做爬虫呢因为他确实可以用来爬虫并且思路很直观原理比较清晰。1. 安装selenium安装比较简单直接用pip就可以安装打开cmd输入pip install selenium就好了2. 安装chromedriverchromedriver是谷歌浏览器的驱动程序因为我平时用chrome所以这里只介绍chromedriver。下载地址http://chromedriver.storage.googleapis.com/index.html这里需要注意的是chromedriver的版本需要是你安装的Chrome的版本对应起来Chrome的版本可以在浏览器的右上角找到帮助-关于Google Chrome 查看浏览器的版本。具体的对应规则如下chromedriver版本支持的Chrome版本v2.40v66-68v2.39v66-68v2.38v65-67v2.37v64-66v2.36v63-65v2.35v62-64v2.34v61-63v2.33v60-62v2.32v59-61v2.31v58-60v2.30v58-60v2.29v56-58v2.28v55-57v2.27v54-56v2.26v53-55v2.25v53-55v2.24v52-54v2.23v51-53v2.22v49-52安装完之后把驱动的安装目录添加到系统Path中就好了如果不添加在运行程序的时候就会报错提示你没有添加到Path中。3. 开始爬虫今天要爬取的网址是https://www.upbit.com/service_center/notice然后点击翻页按钮发现url并没有变化通过F12查看请求的地址变化可以发现https://www.upbit.com/service_center/notice?id1这里主要变化的就是后面的id1,2,3。。。依次类推。用selenium爬虫开始前需要定义好下面内容# 设置谷歌浏览器的选项opt webdriver.ChromeOptions()# 将浏览器设置为无头浏览器即先爬虫时没有显示的浏览器opt.set_headless()# 浏览器设置为谷歌浏览器并设置为上面设置的选项browser webdriver.Chrome(optionsopt)save []home https://www.upbit.com/home# 创建好浏览器对象后通过get()方法可以向浏览器发送网址# 获取网址信息browser.get(home)time.sleep(15)然后是如何定位html的元素在selenium中定位元素的方法有find_element_by_id(self, id_)find_element_by_name(self, name)find_element_by_class_name(self, name)find_element_by_tag_name(self, name)find_element_by_link_text(self, link_text)find_element_by_partial_link_text(self, link_text)find_element_by_xpath(self, xpath)find_element_by_css_selector(self, css_selector)其中的idname等都可以通过浏览器获得定位元素的目的是为了获取我们想要的信息然后解析出来保存通过调用tex方法可以获得元素的文本信息。下面把整个爬虫的代码贴出来供大家参考fromselenium importwebdriverimporttimefromtqdm importtrangefromcollections importOrderedDictimportpandas aspddefstringpro(inputs):inputs str(inputs)returninputs.strip().replace(\n,).replace(\t,).lstrip().rstrip()opt webdriver.ChromeOptions()opt.set_headless()browser webdriver.Chrome(optionsopt)save []home https://www.upbit.com/homebrowser.get(home)time.sleep(15)forpage intrange(500):try:rows OrderedDict()url https://www.upbit.com/\service_center/notice?id{}.format(page)browser.get(url)content browser.find_element_by_class_name(nametxtB).texttitle_class browser.find_element_by_class_name(nametitB)title title_class.find_element_by_tag_name(strong).texttimes_str title_class.find_element_by_tag_name(span).texttimes times_str.split(|)[0].split( )[1:]num times_str.split(|)[1].split( )[1]rows[title] titlerows[times] .join(times)rows[num] numrows[content] stringpro(content)save.append(rows)print({},{}.format(page,rows))exceptExceptionase:continuedf pd.DataFrame(save)df.to_csv(./datasets/www_upbit_com.csv,indexNone)有问题可以与我交流~

查看全文

http://www.yutouwan.com/news/62714/