找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

火车头采集器采集 伪原创 下载文章教程

找到一个行业内文章较多的大型站点,并保证这个站点的每个栏目的URL有一定规律,这样容易写采集规则


一:建立列表网址和文章网址

1 登录账户后是这样的界面


2 首先要新建一个分组,这里选择根节点

3 建立一个任务


这样的网站就是有规律的,最后一个数值从发1-96,所以我们建立采集规则的时候就很简单,

采集列表页面网址的规则步骤

>选中已经建立的分组,采集器左上角,文件下面的新建-任务,会弹出编辑任务的chuangk

>点击右侧的添加,在选择批量多页,复制要采集的网址到地址格式里,

>选中URL最后的page=1的数值1,点击URL右侧的星号

>URL下面的等差数列,项数把默认的5改成91(91是原本列表页面的倒数第二页,也可以选择倒数第一的92)

>点击添加,会出现下面的界面,在预览窗口里,会出现对应的1-91的URL排列


到这里就说明列表页的采集规则写好了。但是还没有写文章的URL采集规则,下面开始讲每个列表页面的文章URL采集规则

下图中,起始网址添加是采集列表页的URL规则,多级网址获取添加是列表页的每个文章的URL规则,我们点击下图中带有红色箭头的按钮


在要采集的网页,右键鼠标查看源码,找到文章的URL列表开始和结束的代码



URL列表开始和结束的代码复制到下面的左侧2个小方框里,右侧必须包含写入文章的URL,变化的数值用(*)替代,点击保存

点击小方框右下角的测试网址采集,出现测试结果,可以看到,此时所有列表页面的URL和文章的URL都已正确显示,那到此时,采集的第一步完成了

二:建立文章采集规则

下图为第二部:采集文章内容的规则设置

其中下面的红方框内三个要素可以删除


标题设置,从下图左侧和右侧的设置可以看出来,文章采集中,只需要注意把别人网站的品牌词去掉就行





文章采集内容设置

查看文章页面源码,选取文章前后的代码


文章内容过滤设置:因为采集的内容会包含源代码,所以我们要把源代码去除,可以在采集文章的时候过滤网页标签和代码,

标签过滤全选,去掉段落<p的和换行符的勾选即可

如果段落中出现网址或者其他品牌词,添加的时候用空替换即可







复制采集的网址,放到典型页面,点击右侧的测试,测试写的规则是否正确


三:建立伪原创规则

1首先要建立同义词库,点击工具—同义词替换管理

同义词库格式如下

2 在采集文章里添加同义词库规则

点击确定后选择对应的已建立好的词库即可



【建立好伪原创词库后,再测试网址试试,即可发现采集的文章内容已经被伪原创了】

四:建立保存到本地电脑规则

1 选择任务的第三步,【发布内容设置】

启用左下角【方式二-保存为本地….文件】

下面五个规则分别为

>保存文件格式:txt文件(txt记事本为常用,其他格式文件的文章会有乱码)

>保存位置:自己新建一个文件夹在桌面,点击右侧的…按钮选择新建的文件夹

>文件模板:默认txt模板

>文件名格式:点击右侧小图标选择【标签:标题】

>文件编码:选择utf8(如果要保存为gbk网页使用的,可自己复制默认txt模板.txt,另存为ansi格式的记事本即可)

最后点保存


开始测试采集


需要选中采网址、采内容、发布三个选项



查看自己新建的本地采集文件夹,如果出现以下这种情况,就说明已经采集成功了


回复

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐

神回复

© 2018 养卡人社区

中国互联网举报中心 # 跟帖评论自律管理承诺书 违法和不良信息举报: 免责声明:本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,如有侵权内容联系发稿人,对此类作品本站仅提供交流平台,不为其版权负责。阅读本站内容因误导等因素而造成的损失本站不承担连带责任。当政府机关依照法定程序要求披露信息时,论坛均得免责。