养卡人

标题: 火车头采集器采集伪原创下载文章教程 [打印本页]

作者: 信用卡之家 时间: 2018-4-13 12:57
标题: 火车头采集器采集伪原创下载文章教程

找到一个行业内文章较多的大型站点，并保证这个站点的每个栏目的URL有一定规律，这样容易写采集规则

一：建立列表网址和文章网址

1 登录账户后是这样的界面

2 首先要新建一个分组，这里选择根节点

3 建立一个任务

这样的网站就是有规律的，最后一个数值从发1-96，所以我们建立采集规则的时候就很简单，

采集列表页面网址的规则步骤

>选中已经建立的分组，采集器左上角，文件下面的新建-任务，会弹出编辑任务的chuangk

>点击右侧的添加，在选择批量多页，复制要采集的网址到地址格式里，

>选中URL最后的page=1的数值1，点击URL右侧的星号

>URL下面的等差数列，项数把默认的5改成91（91是原本列表页面的倒数第二页，也可以选择倒数第一的92）

>点击添加，会出现下面的界面，在预览窗口里，会出现对应的1-91的URL排列

到这里就说明列表页的采集规则写好了。但是还没有写文章的URL采集规则，下面开始讲每个列表页面的文章URL采集规则

下图中，起始网址添加是采集列表页的URL规则，多级网址获取添加是列表页的每个文章的URL规则，我们点击下图中带有红色箭头的按钮

在要采集的网页，右键鼠标查看源码，找到文章的URL列表开始和结束的代码

URL列表开始和结束的代码复制到下面的左侧2个小方框里，右侧必须包含写入文章的URL，变化的数值用（*）替代，点击保存

点击小方框右下角的测试网址采集，出现测试结果，可以看到，此时所有列表页面的URL和文章的URL都已正确显示，那到此时，采集的第一步完成了

二：建立文章采集规则

下图为第二部：采集文章内容的规则设置

其中下面的红方框内三个要素可以删除

标题设置，从下图左侧和右侧的设置可以看出来，文章采集中，只需要注意把别人网站的品牌词去掉就行

文章采集内容设置

查看文章页面源码，选取文章前后的代码

文章内容过滤设置：因为采集的内容会包含源代码，所以我们要把源代码去除，可以在采集文章的时候过滤网页标签和代码，

标签过滤全选，去掉段落<p的和换行符的勾选即可

如果段落中出现网址或者其他品牌词，添加的时候用空替换即可

复制采集的网址，放到典型页面，点击右侧的测试，测试写的规则是否正确

三：建立伪原创规则

1首先要建立同义词库，点击工具—同义词替换管理

同义词库格式如下

2 在采集文章里添加同义词库规则

点击确定后选择对应的已建立好的词库即可

【建立好伪原创词库后，再测试网址试试，即可发现采集的文章内容已经被伪原创了】

四：建立保存到本地电脑规则

1 选择任务的第三步，【发布内容设置】

启用左下角【方式二-保存为本地….文件】

下面五个规则分别为

>保存文件格式：txt文件（txt记事本为常用，其他格式文件的文章会有乱码）

>保存位置：自己新建一个文件夹在桌面，点击右侧的…按钮选择新建的文件夹

>文件模板：默认txt模板

>文件名格式：点击右侧小图标选择【标签:标题】

>文件编码：选择utf8（如果要保存为gbk网页使用的，可自己复制默认txt模板.txt，另存为ansi格式的记事本即可）

最后点保存

开始测试采集

需要选中采网址、采内容、发布三个选项

查看自己新建的本地采集文件夹，如果出现以下这种情况，就说明已经采集成功了

欢迎光临养卡人 (http://www.yangkaren.com/)

Powered by Discuz! X3.4