当前位置: 首页 > news >正文

成都 在线 网站建设上海住房城乡建设网站

成都 在线 网站建设,上海住房城乡建设网站,班级优化大师手机版下载(免费),域名备案查询工信部作为一个安全测试人员来说#xff0c;首先要拿到网站所有url#xff0c;然后根据拿到的url进行渗透测试进行漏洞挖掘。本文给大家介绍的是如何拿到一个网站所有的url。 深度爬取层级控制 现在我也找了很多测试的朋友#xff0c;做了一个分享技术的交流群#xff0c;共享了很…作为一个安全测试人员来说首先要拿到网站所有url然后根据拿到的url进行渗透测试进行漏洞挖掘。本文给大家介绍的是如何拿到一个网站所有的url。 深度爬取层级控制 现在我也找了很多测试的朋友做了一个分享技术的交流群共享了很多我们收集的技术文档和视频教程。 如果你不想再体验自学时找不到资源没人解答问题坚持几天便放弃的感受 可以加入我们一起交流。而且还有很多在自动化性能安全测试开发等等方面有一定建树的技术大牛 分享他们的经验还会分享很多直播讲座和技术沙龙 可以免费学习划重点开源的 qq群号110685036【暗号csdn999】 整体架构图 相信大家对深度控制和架构已经有基本了解剩下的代码大家直接来看。非常易懂不妨来试试。下一次来给大家说一下代理池的创建让你的Spider不被封、 from lxml import html import requests import re import pymysqlfrom search_ip import search_ip ###############代理###########def get_proxy():return requests.get(http://127.0.0.1:5010/get/).contentdef delete_proxy(proxy):requests.get(http://127.0.0.1:5010/delete/?proxy{}.format(proxy))def html_prase(url):r requests.get(url).contentreturn html.fromstring(r)def url_is_correct():使用requests.get方法判断url是否正确,并返回url:return:url https://www.wuage.com #网站入口requests.get(url)return urlurl url_is_correct() #将验证为正确的url地址赋值给urldef url_protocol(url):获取输入的url地址的协议是http、https等print(该站使用的协议是 re.findall(r.*(?://),url)[0])return re.findall(r.*(?://),url)[0]urlprotocol url_protocol(url)def same_url(url):处理输入的url判断是否为同一站点做准备爬取的时候不能爬到其它站#将完整的url中的http://删除url url.replace(urlprotocol ://,)if re.findall(r^www,url) []:sameurl www. urlif sameurl.find(/) ! -1:sameurl re.findall(r(?www.).*?(?/), sameurl)[0]else:sameurl sameurl /sameurl re.findall(r(?www.).*?(?/), sameurl)[0]else:if url.find(/) ! -1:sameurl re.findall(r(?www.).*?(?/), url)[0]else:sameurl url /sameurl re.findall(r(?www.).*?(?/), sameurl)[0]#print(同站域名地址 sameurl)return sameurldomain_url url 处理url的类对已访问过的和未访问过的进行记录待后续使用class linkQuence:def __init__(self):self.visited [] #已访问过的url初始化列表self.unvisited [] #未访问过的url初始化列表def getVisitedUrl(self): #获取已访问过的urlreturn self.visiteddef getUnvisitedUrl(self): #获取未访问过的urlreturn self.unvisiteddef addVisitedUrl(self,url): #添加已访问过的urlreturn self.visited.append(url)def addUnvisitedUrl(self,url): #添加未访问过的urlif url ! and url not in self.visited and url not in self.unvisited:return self.unvisited.insert(0,url)def removeVisited(self,url):return self.visited.remove(url)def popUnvisitedUrl(self): #从未访问过的url中取出一个urltry: #pop动作会报错终止操作所以需要使用try进行异常处理return self.unvisited.pop()except:return Nonedef unvisitedUrlEmpty(self): #判断未访问过列表是不是为空return len(self.unvisited)class Spider():爬取程序def __init__(self,url):self.linkQuence linkQuence() #引入linkQuence类self.linkQuence.addUnvisitedUrl(url) #并将需要爬取的url添加进linkQuence对列中self.current_deepth 1 #设置爬取的深度def getPageLinks(self,url):获取页面中的所有链接sel html_prase(url)pageLinks sel.xpath(//a/href)return pageLinksdef processUrl(self,url):处理相对路径为正确的完整urltrue_url []for l in self.getPageLinks(url):if re.findall(r//,l):if re.findall(https://,l) or re.findall(http://,l):true_url.append(l)elif not re.findall(,l):#true_url.append(urlprotocol :// domain_url l)true_url.append(urlprotocol: l)# for l in true_url:# print(l)return true_urldef sameTargetUrl(self,url):判断是否为同一站点链接防止爬出站外。same_target_url []for l in self.processUrl(url):if re.findall(domain_url,l):same_target_url.append(l)#print(self.same_target_url)return same_target_urldef unrepectUrl(self,url):删除重复url排除指定域名unrepect_url []expect_domain [s.wuage.com,static.wuage.com,shop.wuage.com,img.wuage.com,medici.wuage.com,buyer.wuage.com,item.wuage.com]for l in self.sameTargetUrl(url):if l not in unrepect_url and l.split(//)[1].split(/)[0] not in expect_domain:unrepect_url.append(l)return unrepect_urldef crawler(self,crawl_deepth1):依据深度进行爬取层级控制#while self.current_deepth crawl_deepth:while self.current_deepth crawl_deepth:visitedUrl self.linkQuence.popUnvisitedUrl()if visitedUrl is None or visitedUrl :continueself.getPageLinks(visitedUrl)links self.unrepectUrl(visitedUrl)self.linkQuence.addVisitedUrl(visitedUrl)for link in links:sel_link html_prase(link)print(link)self.linkQuence.addUnvisitedUrl(link)self.current_deepth 1return self.linkQuence.visitedif __name__ __main__:spider Spider(url)spider.crawler(3) 作者胡歌互联网公司运维技术负责人拥有10年的互联网开发和运维经验。一直致力于运维工具的开发和运维专家服务的推进赋能开发提高效能。
http://www.huolong8.cn/news/53019/

相关文章:

  • 免费注册com的网站山东网站推广营销设计
  • 海南省建设局网站搜索wordpress导航固定
  • 网站建设服务费交印花税吗门户网站怎么建设
  • 论文中网站数据则呢做文献参考wordpress eshop 教程
  • 网站树状结构图怎么做网站优化公司哪家便宜
  • 全国工程招标信息网郑州seo网站有优化
  • 竞价培训哪家比较好优化快速排序
  • 凡科建设网站的步骤hreflang wordpress
  • 网站建设没业务wordpress 页面调用
  • 刚开始做网站哪有免费空间个人网站首页怎么做
  • 美食网站开发的目的在网站服务器上建立数据库
  • 淮安网站设计淘宝客做网站
  • 福田企业网站推广哪个好下载一个百度导航
  • 做视频网站怎么对接云盘光纤做网站 移动不能访问电信
  • 专业 旅游网站建设重庆森林经典台词图片
  • 合肥专业网站制apple网站设计
  • 北京西站地铁是几号线做网络营销推广的公司
  • 网站开发线上滨州正规网站建设公司
  • 做企业网站需要资质吗旅游网站建设模板
  • angularjs的网站模板佛山建设局网站
  • 网站大连微信 app 微网站 整合
  • 招远网站建设网络公司实习报告
  • wordpress做招聘网站兰州构建公司
  • 免费做婚礼邀请函的网站做dota2菠菜网站
  • 电商网站图片3gcms企业手机网站整站源码asp
  • 建站软件免费试用网页加速器app
  • 网站后台无上传图片按钮模具培训网站建设
  • 网站规划建设国际大型门户网站
  • php网站如何导入数据库wordpress 常见漏洞
  • 织梦网站建设视频wordpress改变上传目录