电商网站商品属性设计,wordpress 机械模板下载地址,动力无限网站效果好不好,在线3d建模网站pandas是一个数据处理模块#xff0c;前面也已经提到了好些#xff0c;用python写爬虫--4.5pandas存入excel.这次来统一说一说#xff0c;使用感想。pandas主要是Seriers和Dataframe#xff0c;Seriers相当于list#xff0c;dataframe相当于excel表格#xff0c;有行也有…pandas是一个数据处理模块前面也已经提到了好些用python写爬虫--4.5pandas存入excel.这次来统一说一说使用感想。pandas主要是Seriers和DataframeSeriers相当于listdataframe相当于excel表格有行也有列。这回主要还是说爬取下来的信息入库的问题假如是爬取页面上的信息像‘什么值得买’的价格信息啥的这种就得一个个插入数据库。但是像12306返回的是json那就用pandas整理一下入库要方便的多。还是举个例子。这回爬取的格力电器的历史行情。网址http://q.stock.sohu.com/cn/000651/lshq.shtml要观察信息的发送情况在时间上做更改就能看到网站的发送情况。image.png还是F12.image.png接下来就方便多了。import requestsdef getdata(code,start20171009,end20171130):url http://q.stock.sohu.com/hisHq?codecn_{}start{}end{}stat1orderDperioddcallbackhistorySearchHandlerrtjsonpr0.6250979091979310.266277122911587url1 url.format(code,start,end)return requests.get(url1).textprint(getdata(000567))可见返回的是image.png这不太像是一个标准的json格式这只能用正则把有用的信息抓下来然后转成df。import requestsimport pandas as pdimport refrom sqlalchemy import create_enginedef getdata(code,start20171009,end20171130):url http://q.stock.sohu.com/hisHq?codecn_{}start{}end{}stat1orderDperioddcallbackhistorySearchHandlerrtjsonpr0.6250979091979310.266277122911587url1 url.format(code,start,end)res requests.get(url1).textresp re.search({status:0,hq:(.*),code,res).group(1)data eval(resp)df pd.DataFrame(datadata)df.columns[date,open,close,change,changerate,high,low,vol,volnum,hsl]df[code] codecon create_engine(mysql://root:123456localhost:3306/tushare?charsetutf8)pd.io.sql.to_sql(df,tick_data,con,schematushare,if_existsappend)data eval(resp)这是将str转为list爬取下来的信息都是str提取[]里信息data是规整的信息转化为dataframe比较合适。create_engine()数据库类型数据库驱动名称://用户名:口令机器地址:端口号/数据库名存入库中就好了 pd.io.sql.to_sql(df,tick_data,con,schematushare,if_existsappend)df:要存入数据库的dataframe名字tick_datatablenamecon前面的连接数据库信息schematushare数据库名字if_existsappend存在就添加不存在就创建