养卡人

标题: 火车头采集器采集 伪原创 下载文章教程 [打印本页]

作者: 信用卡之家    时间: 2018-4-13 12:57
标题: 火车头采集器采集 伪原创 下载文章教程

找到一个行业内文章较多的大型站点,并保证这个站点的每个栏目的URL有一定规律,这样容易写采集规则


一:建立列表网址和文章网址

1 登录账户后是这样的界面


2 首先要新建一个分组,这里选择根节点

3 建立一个任务


这样的网站就是有规律的,最后一个数值从发1-96,所以我们建立采集规则的时候就很简单,

采集列表页面网址的规则步骤

>选中已经建立的分组,采集器左上角,文件下面的新建-任务,会弹出编辑任务的chuangk

>点击右侧的添加,在选择批量多页,复制要采集的网址到地址格式里,

>选中URL最后的page=1的数值1,点击URL右侧的星号

>URL下面的等差数列,项数把默认的5改成91(91是原本列表页面的倒数第二页,也可以选择倒数第一的92)

>点击添加,会出现下面的界面,在预览窗口里,会出现对应的1-91的URL排列


到这里就说明列表页的采集规则写好了。但是还没有写文章的URL采集规则,下面开始讲每个列表页面的文章URL采集规则

下图中,起始网址添加是采集列表页的URL规则,多级网址获取添加是列表页的每个文章的URL规则,我们点击下图中带有红色箭头的按钮


在要采集的网页,右键鼠标查看源码,找到文章的URL列表开始和结束的代码



URL列表开始和结束的代码复制到下面的左侧2个小方框里,右侧必须包含写入文章的URL,变化的数值用(*)替代,点击保存

点击小方框右下角的测试网址采集,出现测试结果,可以看到,此时所有列表页面的URL和文章的URL都已正确显示,那到此时,采集的第一步完成了

二:建立文章采集规则

下图为第二部:采集文章内容的规则设置

其中下面的红方框内三个要素可以删除


标题设置,从下图左侧和右侧的设置可以看出来,文章采集中,只需要注意把别人网站的品牌词去掉就行





文章采集内容设置

查看文章页面源码,选取文章前后的代码


文章内容过滤设置:因为采集的内容会包含源代码,所以我们要把源代码去除,可以在采集文章的时候过滤网页标签和代码,

标签过滤全选,去掉段落<p的和换行符的勾选即可

如果段落中出现网址或者其他品牌词,添加的时候用空替换即可







复制采集的网址,放到典型页面,点击右侧的测试,测试写的规则是否正确


三:建立伪原创规则

1首先要建立同义词库,点击工具—同义词替换管理

同义词库格式如下

2 在采集文章里添加同义词库规则

点击确定后选择对应的已建立好的词库即可



【建立好伪原创词库后,再测试网址试试,即可发现采集的文章内容已经被伪原创了】

四:建立保存到本地电脑规则

1 选择任务的第三步,【发布内容设置】

启用左下角【方式二-保存为本地….文件】

下面五个规则分别为

>保存文件格式:txt文件(txt记事本为常用,其他格式文件的文章会有乱码)

>保存位置:自己新建一个文件夹在桌面,点击右侧的…按钮选择新建的文件夹

>文件模板:默认txt模板

>文件名格式:点击右侧小图标选择【标签:标题】

>文件编码:选择utf8(如果要保存为gbk网页使用的,可自己复制默认txt模板.txt,另存为ansi格式的记事本即可)

最后点保存


开始测试采集


需要选中采网址、采内容、发布三个选项



查看自己新建的本地采集文件夹,如果出现以下这种情况,就说明已经采集成功了







欢迎光临 养卡人 (http://www.yangkaren.com/) Powered by Discuz! X3.4