哪种语言做网站好,免费房屋建设图纸网站有哪些,wordpress网代码显示,建设银行移动门户网站大家可能平时都有在百度文库下载文档的经历#xff0c;费尽心思好不容易在文库找了一份可以用的资料#xff0c;一看需要用下载券下载#xff0c;搞的人很烦。
有的人为了节省时间#xff0c;就任性办理了个文库VIP#xff0c;再也不用纠结怎么下文档了。如果你是一个百度…大家可能平时都有在百度文库下载文档的经历费尽心思好不容易在文库找了一份可以用的资料一看需要用下载券下载搞的人很烦。
有的人为了节省时间就任性办理了个文库VIP再也不用纠结怎么下文档了。如果你是一个百度文库的重度用户这样做当然没问题了。
但有些学生党、上班族他们可能只是为了交个作业做一个产品汇报的PPT等等对这部分人群再去办理VIP我觉得没必要毕竟挣钱也不容易咱能省就省。
有的人会说我会选择去某宝买下载券需要用的时候用卖家给的账户和密码下载就可以了这个方法我也用过不过随着百度文库不断修复漏洞一些卖家的账户和密码很快就会失效这也不是一个长久之计。
当然除了我上面说的这些方法外还有一些其他的神操作比如自己一点点去复杂粘贴、放到手机版的百度文库APP里再另存为文章、或者用众所周知的“冰点文库”……
在我看来这些都不是最优的解决方案我今天就和大家分享一个我自己用Python写的百度文库免下载券的小项目。当然这个项目主要是用来学习Python爬虫的如果有任何侵权嫌疑请联系我删除1.优点
不仅可以下载word文档而且能下载PPT
可以下载一个完整的文档
不需要用一些某宝卖家的漏洞网址。
2.准备工作
1本次程序主要用到了火狐浏览器的selenium大家可以在下面网址下载自己火狐浏览器对应的驱动geckodriver。下载地址https://github.com/mozilla/geckodriver/releases/
下载解压后将geckodriver.exe安装在Python的安装目录Scripts里面之后就可以正常使用了。
2因为本次项目还涉及到了PPT文档的下载所以如果你没安装pptx模块需要在命令行输入pip3 installpython-pptx提前安装好。
3.PPT文档下载
首先我们随便找一个需要下载券的PPT文档本文以https://wenku.baidu.com/view/a132c661eef9aef8941ea76e58fafab069dc443d.html?rec_flagdefaultsxts1570202117357为例打开开发者工具对文档中图片进行分析如下图所示图片保存在标签为div里面所以写代码时首先需要找到这个标签然后再把图片的url提取出来同时提取url时还要注意有的属性是“src”有的是“data-src”不然就会出现文档丢失。主要代码如下4.下载图片
提取到图片的url后就可以下载所有的图片并以pictures命名保存在指定的路径下。代码如下5.组合成PPT
此时需要将上面下载好的图片利用编写的函数重新合成ppt这里就要用到刚才提前准备好的生成PPT需要的包此外为了保证程序顺利运行还需要一个ppt模板这个模板里面只有一个图片的占位主要是为了让所有图片安装模板来创建成新的幻灯片。代码如下6.word文档下载
关于文档下载本文以https://wenku.baidu.com/view/1b5ee5dbad51f01dc281f13e.html?sxts1570243034873为例。
主要难点是当页数过多时会出现“继续阅读”的字样此时需要selenium模拟人去自动点击所以需要提取找到“继续阅读”的按钮另外还要获取文档的下载总页码最后还需要对提取的文本进行分段整理。
1、寻找“继续阅读”位置
本文主要用到了正则表达式以及js语法。首先要找到继续阅读的位置如下图所示2、获取总页数
要获取整个文档首先要找到文档的总页数在下图中找到保存总页数的标签。还要分析文档中的文字保存在哪个标签如下图所示可以看到文字主要保存在p标签里我们找到相应的p标签然后遍历每一页提取文字。最后还要设置一个判断变量因为提取的文字会有很多行有的是一个段的有的不是一段的文字这里需要处理一下主要代码如下7.写入文档
将下载好的文档以特定的名字写入新的文档这里没什么难度代码如下8.结果展示
1、PPT下载2、word下载总结
今天分享的这个用百度文库免下载券的实战项目主要用自动化测试工具selenium可以帮助大家获取一些付费的学习资料大家不用再去某宝买下载券或者办VIP了如果有感兴趣的小伙伴后台回复「文库」即可获得项目源代码。
最后再次声明本次项目主要用来学习Python爬虫不能拿来商用本人概不承担所有法律责任如果有侵权请联系作者我马上删除。