找到一个行业内文章较多的大型站点,并保证这个站点的每个栏目的URL有一定规律,这样容易写采集规则
1 登录账户后是这样的界面
2 首先要新建一个分组,这里选择根节点
3 建立一个任务
这样的网站就是有规律的,最后一个数值从发1-96,所以我们建立采集规则的时候就很简单,
采集列表页面网址的规则步骤
>选中已经建立的分组,采集器左上角,文件下面的新建-任务,会弹出编辑任务的chuangk
>点击右侧的添加,在选择批量多页,复制要采集的网址到地址格式里,
>选中URL最后的page=1的数值1,点击URL右侧的星号
>URL下面的等差数列,项数把默认的5改成91(91是原本列表页面的倒数第二页,也可以选择倒数第一的92)
>点击添加,会出现下面的界面,在预览窗口里,会出现对应的1-91的URL排列
到这里就说明列表页的采集规则写好了。但是还没有写文章的URL采集规则,下面开始讲每个列表页面的文章URL采集规则
下图中,起始网址添加是采集列表页的URL规则,多级网址获取添加是列表页的每个文章的URL规则,我们点击下图中带有红色箭头的按钮
在要采集的网页,右键鼠标查看源码,找到文章的URL列表开始和结束的代码
URL列表开始和结束的代码复制到下面的左侧2个小方框里,右侧必须包含写入文章的URL,变化的数值用(*)替代,点击保存
点击小方框右下角的测试网址采集,出现测试结果,可以看到,此时所有列表页面的URL和文章的URL都已正确显示,那到此时,采集的第一步完成了
二:建立文章采集规则
下图为第二部:采集文章内容的规则设置
其中下面的红方框内三个要素可以删除
标题设置,从下图左侧和右侧的设置可以看出来,文章采集中,只需要注意把别人网站的品牌词去掉就行
文章采集内容设置
查看文章页面源码,选取文章前后的代码
文章内容过滤设置:因为采集的内容会包含源代码,所以我们要把源代码去除,可以在采集文章的时候过滤网页标签和代码,
标签过滤全选,去掉段落<p的和换行符的勾选即可
如果段落中出现网址或者其他品牌词,添加的时候用空替换即可
复制采集的网址,放到典型页面,点击右侧的测试,测试写的规则是否正确
1首先要建立同义词库,点击工具—同义词替换管理
同义词库格式如下
2 在采集文章里添加同义词库规则
点击确定后选择对应的已建立好的词库即可
【建立好伪原创词库后,再测试网址试试,即可发现采集的文章内容已经被伪原创了】
四:建立保存到本地电脑规则1 选择任务的第三步,【发布内容设置】
启用左下角【方式二-保存为本地….文件】
下面五个规则分别为
>保存文件格式:txt文件(txt记事本为常用,其他格式文件的文章会有乱码)
>保存位置:自己新建一个文件夹在桌面,点击右侧的…按钮选择新建的文件夹
>文件模板:默认txt模板
>文件名格式:点击右侧小图标选择【标签:标题】
>文件编码:选择utf8(如果要保存为gbk网页使用的,可自己复制默认txt模板.txt,另存为ansi格式的记事本即可)
最后点保存
开始测试采集
需要选中采网址、采内容、发布三个选项
查看自己新建的本地采集文件夹,如果出现以下这种情况,就说明已经采集成功了
欢迎光临 养卡人 (http://www.yangkaren.com/) | Powered by Discuz! X3.4 |