当前位置: 首页 > news >正文

蓝奏云注册网站石家庄做网站的公司有哪些

蓝奏云注册网站,石家庄做网站的公司有哪些,网站新闻中心模版,天津seo托管分析url的网页源代码#xff0c;在源代码里有我们想要的评论数据#xff0c;我们可以用正则(在这里正则还是比较好用的)把我们想要的信息弄下来开启循环#xff0c;批量抓取保存数据至文本和数据库defparse_one_page(html):pattern2 re.compile( m_type:…分析url的网页源代码在源代码里有我们想要的评论数据我们可以用正则(在这里正则还是比较好用的)把我们想要的信息弄下来开启循环批量抓取保存数据至文本和数据库defparse_one_page(html):pattern2 re.compile( m_type:0,(.*?),username, re.S)itemsre.findall(pattern2,html)foritem initems:item { item }itemjson.loads(item)write_to_file(item)print(item)save_to_mongo(item)#皮皮哥告诉了我他的独家正则匹配方法可以匹配出来这样的确获得的item没有编码问题defparse_one_page(html):pattern content:.*?itemsre.findall(pattern,html)foritem initems:item eval(item.split( :, 1)[ 1])write_to_file(item)print(item)save_to_mongo(item)#对一般正则写法获得的item进行的方法这是从皮皮哥那里得知的亲测有效defparse_one_page(html):pattern re.compile( rsion_name.*?content:(.*?),username, re.S)itemsre.findall(pattern,html)#print(items)foritem initems:item item.encode( utf-8).decode( unicode_escape)write_to_file(item)print(item)save_to_mongo(item)三、代码#config.pyMONGO_URL localhostMONGO_DB meituanMONGO_TABLE meituanimportrequestsfromrequests.exceptions importRequestExceptionimportjsonimportrefromday31.config import*importpymongoclientpymongo.MongoClient(MONGO_URL)dbclient[MONGO_DB]base_url http://comment.mobilem.360.cn/comment/getComments?callbackjQuery17209056727722758744_1502991196139baike%E7%BE%8E%E5%9B%A2%E5%A4%96%E5%8D%96Android_com.sankuai.meituan.takeoutnewstartdefthe_url(url):try:response requests.get(url)ifresponse.status_code 200:response.encoding utf-8returnresponse.textreturnNoneexceptRequestException:print( 请求出错)returnNonedefthe_total():htmlthe_url(base_url)pattern1 re.compile( total:(.*?),messages, re.S)Total re.findall(pattern1, html)Totalint( :.join(Total))#print(type(Total))show 总计评论%d条%Totalprint(show)write_to_file(show)returnTotaldefparse_one_page(html):pattern2 re.compile( m_type:0,(.*?),username, re.S)itemsre.findall(pattern2,html)foritem initems:item { item }itemjson.loads(item)write_to_file(item)print(item)save_to_mongo(item)defsave_to_mongo(result):try:ifdb[MONGO_TABLE].insert(result):print( 储存到MongoDB成功,result)exceptException:print( 储存到MongoDB失败,result)defwrite_to_file(content):withopen( meituan_result.text, a,encoding utf-8) asf:f.write(json.dumps(content,ensure_ascii False) n)f.close()defmain():Totalthe_total()Totalint(Total/ 10) 2fori inrange(Total):url base_url str(i* 10)ifthe_url(url)! None:htmlthe_url(url)parse_one_page(html)else:print( 输完啦)ps PS因为有些评论空所以实际评论比抓取的少#这是我瞎猜的write_to_file(ps)print(ps)if__name__ __main__:main()四、最后得到的数据视图和文件五、总结1.程序报错很正常不要一报错就问别人先自己思考、百度2.在数据类型处理方面的知识还要加强3.感谢皮皮哥、感谢姚文峰前辈作者1想得美链接http://www.jianshu.com/p/25c8b4cfda1a作者1想得美链接http://www.jianshu.com/p/25c8b4cfda1a
http://www.huolong8.cn/news/232632/

相关文章:

  • 企业营销型网站建设规划开发平台软件要多少钱
  • 深圳建站公司哪个济南兴田德润简介站长工具查询网
  • wordpress增加主题配置百度seo排名优化系统
  • 学做网站游戏教程网站没有备案怎么做淘宝客
  • 做网站做的宁波建设局网站
  • 网站做外链的技巧wordpress 安装后梅花
  • 设计外贸商城网站建设浙江省建设质量工程协会网站
  • 北京房产网站大全无锡抖音代运营公司
  • 惠州网站seo2023全国企业公司大黄页
  • 企业网站flash如何引流客源最快的方法
  • 网站建设项目数网站的内链怎么做
  • 微信网站怎么做的好处苏州搜狗关键词优化
  • 华安网站建设wordpress社交分享非插件
  • 怀柔石家庄网站建设百度问答怎么赚钱
  • 成都产品网站建设国外好的网站空间
  • 手机棋牌网站大全抖音短视频推广
  • 深圳做网站排名赣州
  • 一个专业做设计的网站网站建设需要照片吗
  • 网站的页面工艺品商城网站建设
  • 网络公司的手机网站wordpress搭建vip下载站
  • 网站建设服务器是什么外链优化
  • 网站备案期间可以访问吗宣传文案模板
  • 九江集团网站建设公司wordpress按照证书
  • 重庆营销型网站建设店铺设计图片素材
  • 外贸网站和企业网站宿迁做网站
  • c 2015 做网站安阳 网站建设
  • 网站开发可行性研究报告运城注册公司
  • 2018做网站前景如何建站平台做的网站google
  • 创业做招商加盟类网站赚钱做网站图片尺寸
  • 精品成品网站源码湖南常德今天最新消息