当前位置: 首页 > news >正文

朝阳港网站建设方案行业门户网站建设方案书

朝阳港网站建设方案,行业门户网站建设方案书,网站备案完了怎么做,对外贸网站建设的建议因此#xff0c;您想从互联网上收集大量数据吗#xff1f; 有什么比Cassandra更好的存储机制#xff1f; 使用Nutch可以轻松做到这一点。 人们经常在Nutch后面使用Hbase。 这可行#xff0c;但是如果您是#xff08;或想成为#xff09;Cassandra商店#xff0c;则可能… 因此您想从互联网上收集大量数据吗 有什么比Cassandra更好的存储机制 使用Nutch可以轻松做到这一点。 人们经常在Nutch后面使用Hbase。 这可行但是如果您是或想成为Cassandra商店则可能不是理想的解决方案。 幸运的是Nutch 2使用Gora抽象层访问其数据存储机制。 Gora支持Cassandra。 因此对配置进行一些调整后您可以使用Nutch将内容直接收集到Cassandra中。 我们将从Nutch 2.1开始……我想直接从源代码中获取 $ git clone https://github.com/apache/nutch.git -b 2.1 ... $ ant 构建之后您将拥有一个nutch / runtime / local目录其中包含要执行的二进制文件。 现在让我们为Cassandra配置Nutch。 首先我们需要通过将以下xml元素添加到nutch / conf / nutch-site.xml中来向Nutch添加代理 propertynamehttp.agent.name/namevalueMy Nutch Spider/value /property 接下来我们需要告诉Nutch使用Gora Cassandra作为其持久性机制。 为此我们在nutch / conf / nutch-site.xml中添加以下元素 propertynamestorage.data.store.class/namevalueorg.apache.gora.cassandra.store.CassandraStore/valuedescriptionDefault class for storing data/description /property 接下来我们需要向Gora讲述Cassandra。 编辑nutch / conf / gora.properties文件。 注释掉SQL条目并取消注释以下行 gora.cassandrastore.serverslocalhost:9160 此外我们需要为gora-cassandra添加依赖项。 编辑ivy / ivy.xml文件然后取消注释以下行 dependency orgorg.apache.gora namegora-cassandra rev0.2 conf*-default / 最后我们要使用新的配置和附加的依赖项重新生成运行时。 使用以下ant命令执行此操作 ant runtime 现在我们可以运行了 创建一个名为“ urls”的目录其中包含名为seed.txt的文件其中包含以下行 http://nutch.apache.org/ 接下来将conf / regex-urlfilter.txt中的正则表达式url更新为 ^http://([a-z0-9]*\.)*nutch.apache.org/ 现在爬行 bin/nutch crawl urls -dir crawl -depth 3 -topN 5 那将把网页收获到卡桑德拉 让我们再看一下数据模型… 您会注意到创建了一个新的键空间webpage。 该键空间包含三个表fp和sc。 [cqlsh 2.3.0 | Cassandra 1.2.1 | CQL spec 3.0.0 | Thrift protocol 19.35.0] Use HELP for help. cqlsh describe keyspaces; system webpage druid system_auth system_traces cqlsh use webpage; cqlsh:webpage describe tables; f p sc 这些表中的每一个都是纯键值存储。 要了解它们中的每个请查看nutch / conf / gora-cassandra-mapping.xml文件。 我在下面添加了一个代码段 field namebaseUrl familyf qualifierbas/ field namestatus familyf qualifierst/ field nameprevFetchTime familyf qualifierpts/ field namefetchTime familyf qualifierts/ field namefetchInterval familyf qualifierfi/ field nameretriesSinceFetch familyf qualifierrsf/ 从该映射文件中您可以看到它放在表中的内容但是不幸的是该架构并没有真正从CQL提示中进行探索。 我认为这里还有改进的余地如果有一个CQL友好模式会很好但是通过gora可能很难实现。 las这可能是抽象的代价。 因此最简单的方法是使用螺母工具来检索数据。 您可以使用以下命令提取数据 runtime/local/bin/nutch readdb -dump data -content 完成后进入数据目录您将看到用于提取数据的Hadoop作业的输出。 然后我们可以将其用于分析。 我真的希望Nutch为C *使用更好的架构。 如果该数据可立即在C *中使用那将是很棒的。 如果有人进行了增强请告诉我 参考在Brian ONeill的Blog博客上我们的JCG合作伙伴 Brian ONeill 使用Cassandra和Nutch爬网。 翻译自: https://www.javacodegeeks.com/2013/10/crawling-the-web-with-cassandra-and-nutch.html
http://www.yutouwan.com/news/303807/

相关文章:

  • 如何关闭网站泰州住房和城乡建设网站
  • 兰州公司网站制作沈阳网站搭建
  • 公司网站维护好做吗优化推广网站怎么做
  • 福州网站排名提升做网站制作公司
  • 站点创建成功有影响吗烟台网站建设找三硕科技
  • 软件开发网站开发学习服务器租用多少钱
  • 网站建设更新上海做网站高端
  • seo网站平台方太产品站网站建设
  • 高淳区建设局网站网站开发人员的岗位有
  • 国外做机械设计任务的网站网站没有备案是假的吗
  • 网站开发中英文版如何写制作一个网站的成本
  • 广州网站开发工程师百度浏览器下载
  • 威海网站制作如何自己做网站推广淘宝客
  • 山东专业网站seo做图片站 把图片放到其它网站可以吗
  • 飞行时代网站建设长沙智优营家
  • 海南手机网站建设公司wordpress匿名评论
  • 网站怎么做seo北京vi设计企业
  • 站长网站大全wordpress小游戏主题
  • 云脑网络科技网站建设wordpress当前导航菜单
  • 成功的网站建设网站漏洞扫描服务
  • 江苏建设人才考试网官方网站企业网站建设安阳
  • 网站建设中页面设计小鱼儿外贸建站
  • 做网站需要了解哪些知识潍坊建设公司排名
  • 上海最好的网站建设公司网页是干什么的
  • 网站后台乱码企业建设需要的流程
  • shopify建站最全教程东莞市房产管理局官网
  • 深圳市网站推广公司广州企业招聘信息
  • 网站建设背景图片网站建设团队技术介绍
  • 南昌如何做百度的网站wordpress主题首页文件夹
  • 宝安最好的网站建设网站免费正能量软件不良