网站改版合同,五莲网站建设报价,济南网站建设市场,成都网站开发外包Web页面信息采集从FreeCMS 2.1开始支持通过简单配置即可抓取目标网页信息#xff0c;支持增量式采集、关键字替换、定时采集#xff0c;同一采集规则可采集多个页面(静态和动态)#xff0c;可采集多种信息属性#xff0c;可自动审核且静态化信息页面。采集规则管理从左侧管…Web页面信息采集从FreeCMS 2.1开始支持通过简单配置即可抓取目标网页信息支持增量式采集、关键字替换、定时采集同一采集规则可采集多个页面(静态和动态)可采集多种信息属性可自动审核且静态化信息页面。采集规则管理从左侧管理菜单点击采集规则进入。添加采集规则在采集规则列表下方点击添加按钮。填写相关属性后点击保存按钮即可。采集规则属性说明采集规则属性分为基本、设置、采集地址采集属性关键词替换。一般情况下只要在基本选项卡填写相关属性即可完成。如果需要更多高级设置可以使用后面几个选项卡。下面针对主要属性进行解释说明。名称采集规则的名称。采集到栏目采集的信息要添加到那个栏目。页面编码目标网页的页面编码默认为UTF-8。采集地址目标网页的地址。在基本选项卡中只能设置一个想要设置多个可以在采集地址选项卡中设置。采集调度设置定时执行采集操作这个设置非常重要只有设置了采集调度系统才执行采集操作。内容列表开始结束html因为系统是通过对目标网页内容进行关键词截取来提取信息属性的所以设置目标属性的开始结束html就很重要一定要设置为相对比较唯一的开始结束html,这样系统才能正确的截取到目标属性。此属性主要为了截取目标页面信息列表的html.内容地址开始结束html:根据上面的属性获取内容列表html后使用此属性截取各个内容地址。内容标题开始结束html根据上面的属性获取内容地址后系统会抓取此内容地址的网页内容然后根据此属性截取内容标题。内容相关属性的设置跟此属性类似下面不再赘述。状态启用状态下的采集规则系统才会执行。采集图片将信息内容中的图片下载到本地。自动审核通过将采集的信息直接设置为已审核状态。使用采集信息点击量默认采集到的信息的点击量为0设置此属性和内容点击量开始结束html后系统会截取目标信息的点击量设置为采集后信息的点击量。最多采集内容数默认不限制如果设置了此属性系统会从采集记录中统计此采集规则已采集了多少条信息如果超过最多采集内容数系统将不再采集。将首幅图片设为标题图片如果信息内容中有图片则提取第一张做为标题图片并设置信息为图片信息。清除内容中的html标签将信息内容中的html标签清除保留纯文本。当内容为空时是否采集可设置在内容为空时不采集此信息。使用采集信息的添加时间:默认采集到的信息的添加时间为当前时间设置此属性和内容添加时间开始结束html后系统会截取目标信息的添加时间设置为采集后信息的添加时间。采集信息添加时间格式:默认格式为yyyy-MM-dd,如果目标页面的添加时间格式不同需要在这里设置为正确的日期格式。采集开始时间默认为当前时间如果不到采集开始时间系统是不会采集的。采集结束时间默认为永不结束如果超过采集结束时间系统是不会采集的。内容地址补全url:因为有些网页使用的是相对路径或绝对路径可以设置内容地址的前缀。图片地址补全url:因为有些网页使用的是相对路径或绝对路径可以设置图片链接地址的前缀。内容中A标签链接地址补全url:因为有些网页使用的是相对路径或绝对路径可以设置内容中A标签链接地址的前缀。采集地址分为静态和动态地址静态地址为固定的地址动态地址一般指可以分页的地址通过{page}来代表分页变量可以设置从那一页采集到那一页如http://www.freetam.cn/list_{page}.html设置开始页数为1结束页数为10系统会自动提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html所有页面的数据。一般情况下我们只采集信息的标题和内容就可以了系统还提供采集内容描述、点击量、作者、来源、添加时间属性的功能。通过关键词替换功能您可以将采集到的信息里面的关键词替换为自己想要的关键词。编辑采集规则选择需要编辑的采集规则然后点击编辑按钮。注意:同时只能编辑一个采集规则。填写相关属性后点击保存按钮即可。采集选择需要采集的采集规则然后点击采集按钮。注意:同时只能对一个采集规则进行采集操作。删除采集规则选择需要删除的采集规则然后点击删除按钮。提示:同时可以删除多个采集规则。为了防止误操作系统会提示用户是否删除点击确定完成删除操作。查看采集记录从左侧管理菜单点击采集记录进入。在这里可以查看到所有web页面采集记录您可以删除指定的采集记录但并不会删除已采集的信息数据选择需要删除的采集记录然后点击删除按钮。 提示:同时可以删除多个采集记录。为了防止误操作系统会提示用户是否删除点击确定完成删除操作。