关关采集规则(杰奇纯文字小说版)

关关采集规则(杰奇纯文字小说版)
关关采集规则(杰奇纯文字小说版)

RuleV ersion

Match

None

RuleID

3232

Match

None

GetSiteName

相爱小说网

Match

None

GetSiteCharset

gbk

Match

None

GetSiteUrl

https://www.360docs.net/doc/fc16329913.html,

Match

None

NovelSearchUrl

https://www.360docs.net/doc/fc16329913.html,/modules/article/search.php

Match

None

NovelSearchData

searchkey={SearchKey}

Match

None

NovelSearch_GetNovelKey

<td class="odd"><a href="https://www.360docs.net/doc/fc16329913.html,/files/article/info/\d*/(\d*).html">.+?</a></td> Match

None

NovelListUrl

https://www.360docs.net/doc/fc16329913.html,/files/article/toplastupdate/0/1.html

Match

None

NovelList_GetNovelKey

<td class="odd"><a href="https://www.360docs.net/doc/fc16329913.html,/files/article/info/\d*/(\d*).html">.+?</a></td> Match

None

NovelUrl

https://www.360docs.net/doc/fc16329913.html,/modules/article/artic leinfo.php?id={NovelKey}

Match

None

NovelErr

您要找的页面已被移动

Match

None

NovelName

h1 class="articlename" style="display:inline"><a href="https://www.360docs.net/doc/fc16329913.html,/files/article/html/\d*/\d*/index.html">(.+?)</a></h1>

Match

None

NovelAuthor

searchkey=.+?">(.+?)</a></td>\s*<td

width="22%"><strong>管

Match

None

LagerSort

本书类别:</strong>(.+?)</td>\s*<td width="22%"><strong>本书作者

Match

None

SmallSort

本书类别:</strong>(.+?)</td>\s*<td width="22%"><strong>本书作者

Match

None

NovelIntro

内容详细简介介绍:(.+?)<script type="text/javascript">/*460*60 Match

Singleline

电脑站:|手机站:|[\w\sA-Za-z0-9:/]{0,60}(?:\.|.)[\w\sA-Za-z0-9:/][^\s&;<>\u4e00-\u9fa5]{0,60}

NovelKeyword

h1 class="articlename" style="display:inline"><a href="https://www.360docs.net/doc/fc16329913.html,/files/article/html/\d*/\d*/index.html">(.+?)</a></h1>

Match

None

NovelDegree

文章状态:</strong>(.+?)</td>\s*<td><strong>授权级别

Match

None

NovelCover

img class="picborder" src="(.+?)" width="120px" height="150px"

Match

None

NovelDefaultCoverUrl

Match

None

NovelInfo_GetNovelPubKey

<a href="(.+?)"><img src="/themes/Images/dian.gif" border="0" /></a>

Match

None

PubCookies

Match

None

PubIndexUrl

{NovelPubKey}

Match

None

PubIndexErr

这里必须填写

Match

None

PubV olumeContent

Match

None

PubV olumeSplit

<td colspan="4" class="vcss">

Spilt

None

PubV olumeName

<font color="#174973"><strong class="title">(.+?)</strong></font>

Match

None

PubChapterName

<a href="\d*.html">(.+?)</a>

Match

Singleline

PubChapter_GetChapterKey

<a href="(\d*.html)">.+?</a>

Match

Singleline

PubContentUrl

{ChapterKey}

Match

None

PubContentErr

这里必须填写

Match

None

PubContent_GetTextKey

Match

None

PubTextUrl

Match

None

PubContentText

享有更多权利</font></a>(.+?)<font color=#ff00ff>喜欢本篇文章

Match

IgnoreCase Singleline

复制

PubContentReplace

Match

None

PubContentImages

<div class="divimage"><img src="(.+?)" border="0" class="imagecontent"></div>

Match

None

关关最新采集规则3

https://www.360docs.net/doc/fc16329913.html, https://www.360docs.net/doc/fc16329913.html, https://www.360docs.net/doc/fc16329913.html, RuleVersion v1.0 Match None RuleID https://www.360docs.net/doc/fc16329913.html, Match None GetSiteName https://www.360docs.net/doc/fc16329913.html, Match None

GetSiteCharset utf-8 Match None GetSiteUrl https://www.360docs.net/doc/fc16329913.html, Match None NovelSearchUrl Match None NovelSearchData Match None NovelSearch_GetNovelKey

言情小说关关采集规则

Match None 0702 RuleVersion Match None 3789287 RuleID Match None 看啦又看 GetSiteName Match None gbk GetSiteCharset Match None https://www.360docs.net/doc/fc16329913.html, GetSiteUrl Match None NovelSearchUrl

最新关关采集器规则编写教程(图文详解版)

首先介绍一下关关采规则当中需要用到的一些标签 \d* 表示数字 \s* 表示空格+换行 .+? 表示字符(不能为空) .* 表示字符(可以为空) () 表示我们需要的部分 ((.|\n)*) 章节的内容部分,包括了换行。 =====与杰奇后台标签的对应关系===== !!!! 相当于 ([^><]*) ~~~~ 相当于 ([^><'"]*) ^^^^ 相当于 ([^><\d]*) $$$$ 相当于 ([\d]*) **** 相当于 (.*) 第一步: 我们先复制一份原来的规则做模板(规则文件存放在Rules目录下)。比如说我今天演示的采集站点是阅微阁(https://www.360docs.net/doc/fc16329913.html,)这个小说站点 那么我就把我复制的那份做模板的规则命名为:阅微阁.xml 这个主要是便于规则的管理。 第二步:运行采集器里的规则管理工具,打开后载入刚刚我们命名为阅微阁.xml的文件。 第三步:现在可以正式的编写规则了,我们写规则时要找的标志性代码必需是整个页面里唯一的代码,其次我们取用的部份代码越精简越好。

1. GetSiteName(站点名称) 这里我们写阅微阁(在执行任务时会在上方显示) 2. GetSiteCharset(站点编码) 这里我们打开https://www.360docs.net/doc/fc16329913.html,源代码查找 charset= 得到c harset=gbk这个gbk就是我们需要的站点编码 3. GetSiteUrl(站点地址) 写入https://www.360docs.net/doc/fc16329913.html, 4. NovelListUrl(站点最新列表地址) 因为这些每个站点的不同,这个就需要自己去找了阅微阁的是https://www.360docs.net/doc/fc16329913.html,/modules/article/toplist.php?sort=lastupdate 5. NovelList_GetNovelKey(从最新列表中获得小说编号) 此规则中需要同时获得书名,获得书名是在手动模式的时候用到,如果你要用手动模式那么必须获得书名,否则手动模式将会无法使用。我们打开https://www.360docs.net/doc/fc16329913.html,/modules/article/toplist.php?sort=last update 这个地址查看源文件,我们编写这个规则的时候找到想要获得的内容所在的地方, 比如我们打开地址看到想要获得的内容的第一本小说的名字是“赘婿”我们在源文件里面找到“赘婿”复制代码我们编写规则用到的代码其实也不是很多,编写规则的原则是能省则省,也就是说代码越短越好除非万不得已一般精短一些比较好。好了不废话了,在这个规则里面我们需要用到的是《赘婿》复制代码我们将这段改改成:《(.+?)》 复制代码其中 (\d*) 表示编号 (.+?) 表示小说名 .+?表示代替此位置字符,经过测试正确

相关主题
相关文档
最新文档