当前位置: 首页 > news >正文

广州的网站建设公司深圳建设交易工程信息网

广州的网站建设公司,深圳建设交易工程信息网,sql如何建设网站数据库,semseo是什么意思1.从新闻url获取新闻详情#xff1a; 字典,anews 2.从列表页的url获取新闻url#xff1a;列表append(字典) alist 3.生成所页列表页的url并获取全部新闻 #xff1a;列表extend(列表) allnews *每个同学爬学号尾数开始的10个列表页 4.设置合理的爬取间隔 import time import…1.从新闻url获取新闻详情 字典,anews 2.从列表页的url获取新闻url列表append(字典) alist 3.生成所页列表页的url并获取全部新闻 列表extend(列表) allnews *每个同学爬学号尾数开始的10个列表页 4.设置合理的爬取间隔 import time import random time.sleep(random.random()*3) 5.用pandas做简单的数据处理并保存 保存到csv或excel文件  newsdf.to_csv(rF:\duym\爬虫\gzccnews.csv) 保存到数据库 import sqlite3with sqlite3.connect(gzccnewsdb.sqlite) as db:    newsdf.to_sql(gzccnewsdb,db) # -*- coding: utf-8 -*-Created on Thu Apr 11 12:33:03 2019author: Administrator import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas as pd import time import random import sqlite3newsUrl http://news.gzcc.cn/html/2005/xiaoyuanxinwen_0710/4.html listUrl http://news.gzcc.cn/html/xiaoyuanxinwen/def click(url):id re.findall((\d{1,5}), url)[-1]clickUrl http://oa.gzcc.cn/api.php?opcountid{}modelid80.format(id)resClick requests.get(clickUrl)newsClick int(resClick.text.split(.html)[-1].lstrip(().rstrip();))return newsClickdef newsdt(showinfo):newsDate showinfo.split()[0].split(:)[1]newsTime showinfo.split()[1]newsDT newsDate newsTimedt datetime.strptime(newsDT, %Y-%m-%d %H:%M:%S)return dtdef anews(url)newsDetail {}res requests.get(url)res.encoding utf-8soup BeautifulSoup(res.text, html.parser)newsDetail[newsTitle] soup.select(.show-title)[0].textshowinfo soup.select(.show-info)[0].textnewsDetail[newsDT] newsdt(showinfo)newsDetail[newsClick] click(newsUrl)return newsDetaildef alist(url):res requests.get(listUrl)res.encoding utf-8soup BeautifulSoup(res.text, html.parser)newsList []for news in soup.select(li):if len(news.select(.news-list-title)) 0:newsUrl news.select(a)[0][href]newsDesc news.select(.news-list-description)[0].textnewsDict anews(newsUrl)newsDict[description] newsDescnewsList.append(newsDict)return newsListalist(listUrl)alist(newsUrl) res requests.get(http://news.gzcc.cn/html/xiaoyuanxinwen/) res.encoding utf-8 soup BeautifulSoup(res.text, html.parser)for news in soup.select(li):if len(news.select(.news-list-title)) 0:newsUrl news.select(a)[0][href]print(anews(newsUrl))allnews [] for i in range(57, 67):listUrl http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html.format(i)allnews.extend(alist(listUrl))print(allnewsLength{}.format(len(allnews))) print(allnews)res requests.get(http://news.gzcc.cn/html/xiaoyuanxinwen/) res.encoding utf-8 soup BeautifulSoup(res.text, html.parser) for news in soup.select(li):if len(news.select(.news-list-title)) 0:newsUrl news.select(a)[0][href]print(anews(newsUrl))s1 pd.Series([100, 23, bugingcode]) print(s1) pd.Series(anews) newsdf pd.DataFrame(allnews) for i in range(5):print(i)time.sleep(random.random() * 3)print(newsdf)newsdf.to_csv(rD:\py_file\gzcc.csv,encodingutf_8_sig)with sqlite3.connect(rD:\py_file\gzccnewsdb.sqlite) as db:newsdf.to_sql(gzccnewsdb,db)转载于:https://www.cnblogs.com/gswyz/p/10688905.html
http://www.huolong8.cn/news/310101/

相关文章:

  • 网站优化 北京罗湖附近公司做网站建设哪家服务周到
  • 食品网站的功能定位阿里服务器搭建wordpress
  • 网站设计怎么自学济南新闻头条最新事件
  • 推荐一个做淘客网站wordpress企业cms
  • 可以兼职做设计的网站wordpress 密码生成二维码
  • 个人网站模板网络营销方式和工具
  • 泉州网站设计制作php程序员网站开发建设
  • 摄影网站的实验设计方案做名片去哪个网站
  • 公众号的微网站开发专业服务网站开发
  • wordpress怎么加插件下载网站关键字优化软件
  • 兰州网站制作成都海外网新闻
  • 唐山市路桥建设有限公司网站企业网站备案资料样本
  • 网站建设wap站网站建设验收报告
  • 电商网站建设精英wordpress优化网站打开速度
  • 网站建设大建材做网站好吗
  • 外贸 企业网站 建设可口可乐vi设计手册
  • 策划公司网站国外优秀网站建设
  • 网页和网站的概念有什么网站可以做微信支付宝支付宝
  • 一个网站多少钱wordpress首页如何增加模块
  • 境外建设网站贴吧注册推广赚钱一个40元
  • 竞价推广培训课程连云港网站关键字优化市场
  • asp网站搭建工具网站被spider重复抓取
  • 做网站信息上海本地宝
  • 怎样做网站二级页面免费策划方案平台
  • 网站栅格网站线框
  • 找网络公司做网站信誉好的南昌网站建设
  • 软件培训网站网站做城市地图
  • 学做网站培训企业网站开发设计
  • 注册网站获取网易邮箱安全码网站开发 零基础
  • 自有服务器 做网站WordPress QQ 微