YGBOOK小说采集规则(图文)教程

释放双眼,带上耳机,听听看~!

前言

最近一直看到有不少人在求规则,索性将如何编写规则告诉大家,如果大家在编写规则时有什么疑问,可以随时留言我

详细编制教程

一、进入后台,创建规则

输入采集点标识,比如nnsc或者域名(不带http://)便于记忆,然后提交保存,别忘了!

二、选择刚才创建的规则,点击编辑,进入详细编写界面。

  • 1.是否突破:选择是。
  • 2.图片本地化:我个人建议选是,避免目标站图片挂了。
  • 3.所属栏目,一般是多栏目。
  • 4.目标站点域名:有https的写https,后面有没有斜杠无所谓
  • 5.网站编码:GBK还是UTF-8。在网站页面右击,看下编码。不过选错了没关系,回头在切换下就可以了。
  • 6.规则列表页面:https://www.dududu.la/sort[cate]/0/[page].htm,例如这个站,其中[cate]代表分类,[page]代表页码,如果页码只有一页可以不用写。分类可以是数字,也可以是字母。这里分类为什么不把前面的sort写进去,是为了防止误采到非列表页,比如主页。
  • 7.下面的cate对应,可以有以下形式,只列出3种作为参考,具体要按目标站来。 

 

  • 8.页码,可以在每个后面写,目标站是多少你就写多少。这种虽然麻烦但是准确。还有一种就是写1|1|1000,其中1000是最大页数,比较懒o(* ̄︶ ̄*)o。
  • 9. 无缩略图标志:一般就写nocover

好了前面的准备好了,我们来打开目标页,来一步一步写采集内容。

列表规则、文章页规则、章节页规则编写

一、列表页规则

  1. 列表页:链接CSS选择器

打开随便一个分类页,我们要获取文章标题和链接,选择文章标题,右键检查元素(或者F12)。

这里首先看css,是a标签,不精确,我们看上面他是在.booklist span.sm 里面,这里我们就写
.booklist span.sm a

PS:一定要是绝对的,如果同一个sm里面有两个a,这样写就采不到链接了,就需要替换规则,替换掉不能用的标签class。
{filter replace=’替换后代码’}需要替换的标签代码{/filter} ,如
{filter replace='<p>’}<a href=”(.*)”>最新章节***</a>/filter} 。新手遇到这种站可以放弃哈。

2.列表页:标题CSS选择器

一般是和上面是一样的,但是这个刚好不一样,多了个<b>标签

我们就写.booklist span.sm b或者.booklist li b或者.booklist li a b

3. 列表页:缩略图CSS选择器

没有图就不用谢,有图就写。方法一样,右键查看,看对应css。这里没有图片不要紧,我们可以在文章页采集。

4.作者:我们选中作者,右键

然后选中zz上面,看到是绝对的,我们写.booklist span.zz a

二、文章页规则

这里有两种方式:两种方式可混合使用!!!

*****************************************************************

一种就是查看源文件,快速填写标签,这种比较好写,绝大多网站都有这种参数;

通用标签meta[property=]|content

  • 书名:meta[property=og:novel:book_namel]|content
  • 作者:meta[property=og:novel:author]|content
  • 内容:meta[property=og:description]|content
  • 分类:meta[property=og:novel:category]|content
  • 图片:meta[property=og:image]|content
  • 完整目录:一般文章页是目录页的不写
  • 完结标识:已完结或者大结局或者完本,或者
    meta[property=og:novel:status]|content

*****************************************************************

一种就是上面的方法选中对应的右键审查元素,一个一个写,比较麻烦。

1.书名:h1

2.作者:
.jieshao .rt .msg em a

这里有两个,我们需要替换掉一个



1
&lt;em&gt;最新章节:&lt;a href="11899692.html"&gt;26、急报&lt;/a&gt;&lt;/em&gt;

文章页:源码预过滤规则里面填下下面的代码



1
{filter replace=''}&lt;em&gt;最新章节:&lt;a href="(.*)"&gt;(.*)&lt;/a&gt;&lt;/em&gt;{/filter}

上面的(.*)是正则代码,小白遇到这种可以放弃,这里需要慢慢调试。

3.内容:
.jieshao .rt .intro

4.分类标签:这里一般不用写,除非单列表规则才写。这个网站没有加这个标签,可以按照上一种方式写。

5.图片:
.jieshao .lf img

三、章节页规则

章节页规则示意图
  1. 章节目录页:区域CSS选择器 我们写:mulu或者.mulu
  2. 章节目录页:采集规则 我们写:


1
2
3
&lt;li&gt;&lt;a href="[link]"&gt;[title]&lt;/a&gt;&lt;/li&gt;
或者&lt;a href="[link]"&gt;[title]&lt;/a&gt;
有些网站是&lt;dd&gt;&lt;a href="[link]"&gt;[title]&lt;/dd&gt;

这里要注意,一般链接地址



1
&lt;a href="11899668.html"&gt;

是这种的不容易采集到,前面要带书号。



1
&lt;a href="/42/42619/11899668.html"&gt;这种就容易采集到。

采不到章节页地址的网站可以放弃,一般这是由于目标站加密的缘故。

四、章节页规则

这个比较简单,我们这里写:.yd_text2

常用的是:
content

这里我们需要的是替换掉目标站的广告哦

比如:一秒记住笔趣阁www.biquge.com等等

好了,规则写好了,我们来测试一下,看有没有问题,然后一项一项在进行修改。直到能看到章节内容就成功了!

YGBOOK小说采集规则视频教程

有什么不懂留言吧,评论可订制规则!

给TA买糖
共{{data.count}}人
人已赞赏
YGBOOK网络资源

YGBOOK小说源码-最新修复版本不卡分类

2019-11-10 14:19:44

YGBOOK

YGBOOK小说采集规则视频教程

2020-3-30 12:21:29

3 条回复 A文章作者 M管理员
  1. […] YGBOOK小说采集规则(图文)教程 […]

  2. 王春

    不错的

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索