当前位置: 首页 > news >正文

信息公开和网站建设工作总结网站建设pc指什么

信息公开和网站建设工作总结,网站建设pc指什么,票付通app下载,免费招聘网“受尽苦难而不厌#xff0c;此乃修罗之路”本文技术含量过低#xff0c;请谨慎观看之前用R语言的Rcurl包做过爬虫#xff0c;给自己的第一感觉是比较费劲#xff0c;看着看着发际线就愈加亮眼#xff0c;最后果断丢之。不过好的是和python爬取原理基本一致#xff0c;且… “受尽苦难而不厌此乃修罗之路”本文技术含量过低请谨慎观看    之前用R语言的Rcurl包做过爬虫给自己的第一感觉是比较费劲看着看着发际线就愈加亮眼最后果断丢之。不过好的是和python爬取原理基本一致且听说python拥有大量网页解析库结合MongoDB等存储数据库爬虫效率大大调高所以按捺不住心中之寂寞故爬之。    在学习了几天基础知识后今天就做了第一次python爬虫尝试目标是大多数菜鸟入门必爬的猫眼电影Top榜单数据。可能大家爬得多了猫眼的反爬机制在大伙的锤炼下渐渐成熟我知道的一些方法比如使用代理、伪造headers或者是用selenium驱动浏览器都进不去。查了一些资料目前只发现了使用登录网站后的cookies才能进去只是这样猫眼会知道是你小子在爬它。    好的下面进入正题1. 网页分析    Top100榜单每一页显示10个不同网页的规律是网址末尾offset 0,10,20,30……90。查看源码发现每部电影都是在一个dd标签里。介绍一个在线转cookies为python格式的工具https://curl.trillworks.com/2. 请求单页内容import requestsfrom requests.exceptions import RequestException #异常处理import re #正则表达式import json #将字典转为字符串from multiprocessing import Pool #从multiprocessing引入进程池def get_one_page(url):try: headers {User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36}        cookies  {……}#此处复制自己的cookies        response  requests.get(url,headersheaders,cookiescookies)if response.status_code 200: #状态码为200表示请求成功return response.text #获取源码return Noneexcept RequestException: #这里我们只定义了父类异常你也可以再详细一点return None3. 解析html本例用正则表达式的方法def parse_one_page(html): #解析html代码 pattern re.compile(.*?board-index.*?(\d).*?src(.*?).*?name.*?(.*?)(.*?)(.*?).*?integer(.*?).*?fraction(.*?).*?,re.S) items re.findall(pattern,html)#print(items) #此时以列表形式存储每个元素是一个元组for item in items: #变为好看的字典形式yield{ #变成一个生成器并且理解为一个returnindex: item[0],image: item[1],title: item[2],actor: item[3].strip()[3:],#去掉换行符且不要“主演”time: item[4].strip()[5:], #去掉换行符且从第5个位置输出score: item[5]item[6] #评分是将两个部分拼接 }4. 写入文件def write_to_file(content): #content是一个字典的形式with open(result.txt,a,encoding utf-8) as f: #a表示往后追加 f.write(json.dumps(content, ensure_asciiFalse)\n) #json.dumps将其转为字符串的形式字典的中括号也会成为字符串 f.close()5. 主函数def main(offset): url http://maoyan.com/board/4?offsetstr(offset) html get_one_page(url) #获取源码#print(html) #打印源码for item in parse_one_page(html):#print(item) #输出10个字典 write_to_file(item) #写入文件6. 开启循环及多线程if __name__ __main__: #这个__main__和上面定义的main函数没有关系 #for i in range(10): # main(i*10) #map(main,[i*10 for i in range(10)]) #不理解为什么这句没有得到结果 pool Pool() pool.map(main, [i*10 for i in range(10)])7. 总结Top100电影数据
http://www.yutouwan.com/news/16468/

相关文章:

  • 网站空间500m是什么注册一家科技公司需要多少钱
  • 英语网站建设策划书初学者自己做网站
  • 在线h5免费制作网站广州网站制作公司排名
  • 学校网站建设目标wordpress菜单设计
  • 佛山网站建设哪个深圳电子商城网站建设
  • 云南网站建设哪家便宜做网站能挣钱不
  • 有了网站 域名然后么做网页设计常见模块
  • 网站建设全程揭秘 光盘文件免费商用图片的网站
  • 手机网站一键生成appwordpress文章只显示标题
  • 河北通信网站建设本科自考是什么意思
  • 电子商务网站建设需要开发哪些模块广州海珠发布
  • 广东省住房城乡建设厅门户网站连锁加盟
  • 网站网站是怎么建设的我为什么卸载不了wordpress
  • 网站开发手机号能在页面上显示吗酒店的内网评价和外网评价
  • 自己做企业网站的步骤住建局人员名单
  • 海南旅游网站的建设理念自己做个网站
  • 自助建网站系统当涂 微网站开发公司
  • 药品网站建设企业如何在网站做认证
  • 北京做的比较好的网站公司吗聚搜济南网站建设公司
  • 花茶网站模板有api对接文档怎么做网站
  • 海南住房和城乡建设厅网站首页各大招聘网站收费标准
  • 专业网站开发哪里有泉州网站制作企业
  • 营销型网站需要备案吗无代码做网站
  • 网站修改域名淄博logo设计公司
  • 网站源码php中国移动手机支付网站
  • 设计类电子书网站网站开发员
  • 做pc端网站资讯上海虹口网站建设公司
  • 网站建设服务器对比青岛浩瀚网络技术有限公司
  • 前端网站建设插件那些公司做网站比较厉害
  • 网站制作者素材视频 素材库