定远县建设小学网站,外贸建设网站,啥也不懂怎么建设网站,建网站域名怎么买由于最近正在放暑假#xff0c;所以就自己开始学习python中有关爬虫的技术#xff0c;因为发现其中需要安装许多库与软件所以就在这里记录一下以避免大家在安装时遇到一些不必要的坑。一. 相关软件的安装#xff1a;1. homebrew:homebrew 是mac os系统下的包管理器由于功能齐…由于最近正在放暑假所以就自己开始学习python中有关爬虫的技术因为发现其中需要安装许多库与软件所以就在这里记录一下以避免大家在安装时遇到一些不必要的坑。一. 相关软件的安装1. homebrew:homebrew 是mac os系统下的包管理器由于功能齐全所以在这里比较推荐大家安装安装及使用教程在我的另一篇博客中在此附上链接 homebrew的安装。2.anacondaanaconda是python下的包管理器支持创建虚拟环境等功能个人认为比自带的pip好用安装anaconda可以前往其官网链接如下二. 请求库的安装requests由于requests是第三方库所以需要手动安装安装过程如下。1 .相关链接Githubhttps://github.com/requests/requestsPyPihttps://pypi.python.org/pypi/requests官方文档http://www.python-requests.org中文文档http://docs.python-requests.org/zh_CN/latest2. 安装库我们使用conda指令进行安装在终端中输入如下指令即可成功安装requests库conda install requestsSelenium是一个自动化的测试工具利用它可以驱动浏览器执行特定的动作如过页面的数据通过JavaScript动态加载则需要使用到它其安装过程如下。1. 相关链接官方网站http://www.selenium.orgGithubhttps://github.com/seleniumHQ/selenium/tree/master/pyPyPihttps://pypi.python.org/pypi/selenium官方文档http://selenium-python.readthdocs.io中文文档http://selenium-python-zh.readthedocs.io2. 安装库我们同样使用 conda指令进行安装在终端中输入如下指令即可安装selenium库conda install seleniumChromeDriver应为selenium需要浏览器配合使用那么如果默认使用的是chrome浏览器则需要安装chromeDrvier驱动(版本需要与你使用的chrome的版本兼容)其安装过程如下。1. 相关链接官方网站http://sites.google.com/a/chromium.org/chromedriver下载地址: http://chromedriver.storage.googleapis.com/index.html2. 安装chromedriver由于我们安装了homebrew包管理器我们就可以直接使用brew指令进行安装在终端中输入下列代码即可进行安装chromedriver了brew cask install chromedriver3. 安装好后我们可以在程序中进行测试代码如下from selenium importwebdriverbrowser webdriver.Chrome()若能正确弹出空白的chrome浏览器则证明配置没有问题啦三. 解析库安装lxml是python的一个解析库用于解析html和xml并且对xpath表达式提供了支持是一个很基础的解析库安装方式如下。1. 相关链接官方网站http://lxml.deGithubhttps://github.com/lxml/lxmlPyPIhttps://pypi.python.org/pypi/lxml2.我们使用conda指令进行安装只需在终端中输入以下代码安装即可conda install lxmlBeautifulSoup你没看错它叫美丽汤它可以解析html和xml并支持多种方式操作网页中的标签和属性非常强大的解析库并且官方文档也很友好安装方式如下。1. 相关链接官方文档https://www.cremmy.com/software/BeautifulSoup/bs4/doc中文文档https://www.cremmy.com/software/BeautifulSoup/bs4/doc.zh2. 我们依旧使用conda指令进行安装在终端中输入如下代码安装即可conda install beautifulsoup43. 安装好后我们可以在程序中测试它的解析功能代码如下from urllib.request importurlopenfrom bs4 importBeautifulSoupif __name__ __main__:html urlopen(http://www.cnblogs.com) #urlopen 获取html页面bs_objBeautifulSoup(html) #BeauitfulSoup解析后返回print(bs_obj.get_text) #返回除标签外的纯文本PyQuery也是解析工具提供与jquery(几年前非常火热的JavaScript框架)类似的语法解析html同样也支持css选择器安装方式如下。1. 相关链接Githubhttps://github.com/gawel/pyqueryPyPIhttps://pypi.python.org/pypi/pyquery官方文档http://pyquery.readthedocs.io2. 我们仍然使用conda指令安装但同时也可以使用pip3指令安装在终端输入如下代码中的一个安装即可#使用 conda安装condainstallpyquery#使用 pip3安装pip3install pyquerytesserocr可以用来识别验证码或者图片的OCR(光学字符识别)解析库它是对python API的封装所以安装它需要先安装tesseract它们的安装方式如下1. 相关链接tesserocr Githubhttps://github.com/sirfz/tesserocrtesserocr PyPIhttps://pypi.python.org/pypi/tesserocrtesseract 下载地址http://digi.bib.uni-mannheim.de/tesserocrtesseract Githubhttps://github.com/tesseract-ocr/tesseracttesseract 语言包https://github.com/tesseract-oct/tessdatatesseract 文档https://github.com/tesseract-ocr/tesseract/wiki/Documentation2. 我们现需要使用brew指令安装ImageMagick和tesseract库然后再使用conda指令安装tesserocr库在终端中按次序输入以下代码即可# 安装ImageMagickbrewinstallimagemagick# 安装 tesseractbrewinstall tesseract --all-languages# 安装 tesserocrcondainstall tesserocr3. 安装好后我们可以在程序中测试它是否能正确运行代码如下importtesserocrfrom PTL importImageimage Image.open(example.jpeg)print(tesserocr.image_to_text(image)) #将图片中的文字转换为字符串好了至此与python爬虫相关的基础库已经安装完成了本文中并未涉及scrapy库的安装。因为个人认为还是先不要使用框架自己编写爬虫更能提升自己的编码能力谢谢大家的阅读