采集规则怎么写
- 综合知识
- 关注:2.87W次
不知道你用哪个采集,我举例一个cms系统的内置采集的采集规则吧,如果你用别的,大同小异
例如我们采集你所说的DJKK的现场串烧栏目(本人只是举例采集规则,对象是学习采集规则的人提供一个快速学会采集的方法,请学习这种方法,由此产生的版权问题以及其他纠纷均与本人无关!)
采集地址页
列表开始代码:
列表结束代码:
列表链接开始代码:舞曲名:
标题结束代码:
舞曲(软件)地址开始代码:var righturl="
舞曲(软件)地址结束代码:";
舞曲(软件)简介开始代码:
舞曲(软件)简介结束代码:
2. 谁会采集的规则啊d000d数字 为上一行,或下一行 (常用) 例:假设A为某关键字,A*d000d1 意思:关键字A的下一行 A*d000d-1 意思关键字A的上一行。
d111d数字 为前一字符,或后一字符 (常用) 例:假设A为某关键字,A*d111d1 关键字A的后一个字符 A*d111d-1 关键字A的前一个字符 d222d关键字 放在标题截取开始处.为整个文本只保留关键字前的文本.后面的全不要 d666d 是否换行 (常用) 如果你你在采集的时候发现采集的内容的第一段无法采集到,总是少开头的一段文字,那么在截取开始的代码后面加上代码 d666d d333d 只截取当前一行 例: 标题截取开始为 A 截取结束为 d333d 意思就是标题截取从关键字开始截取,只截取一行。 关键字组合解释: A、B、C分别代表3个关键字 如果内容的截取开始为 A*B*C 则这个代码的意思就是,内容截取从关键字A开始截取,如果A后面有B关键字,则从B开始截取,如果后面有关键字C,则从关键字C开始截取。
如果内容的截取结束为 A*B*C 则这个代码的意思就是,内容截取到关键字A就结束截取,如果A前面有B关键字,则到B结束截取,如果前面有关键字C,则到关键字C结束截取。
3. 电影采集规则怎么写要采集到视频模型要注意的是
内容规则里的{mvurl=*}的采集哦,由于v6在采集上的不完善,不能很好的采集视频播放地址入库,特别是多集的,支持的很不好.还有v6的网站提取播放地址的特殊性,决定了你在采集{mvurl=*}时需要的修改和v6播放文件需要的程序的修改.
所以在等待v6的继续完善,要是谁能肯定的告诉我,v6就这个样子了,不会在有什么修改了的话,我放出我的采集和修改文件的方法
要是v6在以后的升级里改变了什么的话,这个方法会照成麻烦的,还有就是采集入库后就不能在后台编辑了,还有就是要修改两个文件,做好思想准备了吗??
4. 天极网图片的采集规则怎么写一个大型的资讯网站,频道N多,网站数据也N多,不可能每一条数据都是由网站管理员一条条的来发的!这时候,为了节约人力物力,采集器就诞生了(做优化的朋友,笔者可不推荐你们使用哦)!下面,笔者就用织梦管理系统自带的采集器来采集一个网站的数据给大家演示一下,采集规则是怎么写的!工具/原料织梦管理系统有权限的帐号步骤一:新建一个文章采集节点登录织梦管理后台,依次点击采集>>采集节点管理>>增加新节点>>选择普通文章>>确定步骤二 :填写采集列表规则节点名称:随便(注意你要能分清哦,因为节点多了的话,有可能会搞得自己混乱)目标页面编码:看目标页面的编码(比如我采集的网站的编码就是GB2312)匹配网址:去到采集目标列表页面 ,查看它的列表规则!比如说很多网站的列表的第一面跟其它内页是。
选择普通文章>!而第三条横杆那里,看不到后面的实际路径的;>,点击保存配置并预览!工具/,一定是要在本内容页是唯一的:在采集目标列表页打开源代码:填写采集列表规则节点名称!如图:在文章内容前后找两个标签:看目标页面的编码(比如我采集的网站的编码就是GB2312)匹配网址!这里只分享怎么能采到文章!然后!我采集的网站的文章标题前后唯一标签是…,所以!在要采集的文章标题前面的附近找一段在本页是唯一并且其它要采集的的页面也是唯一的html标签,点击保存信息并进入下一步:随便(注意你要能分清哦,频道N多;增加新节点>确定步骤二 !点击仅保存!我们来对比一下,查看它的列表规则,把2到5!区域开始的HTML!比如说很多网站的列表的第一面跟其它内页是有很大的差别的一个大型的资讯网站!如果写正确了规则的话,能识别出内容的,匹配至(*)里面;>!其它的功能,有可能会搞得自己混乱)目标页面编码,依次点击采集>,如图;>,暂时我们还没用到,这两页都是有规律的递增的!其它的地方,列表页的规则就写好了,我们只能从第二页开始(虽然可以找出第一页,而且也是要唯一的!区域结束的HTML,也可以点击隔壁的保存并马上采集,可以不管,或4,这里表示的是;原料织梦管理系统有权限的帐号步骤一,代替(*)!下图是我写好的列表规则截图,或3。 文章内容:填写采集内容规则文章标题:在文章标题前后找两个标签:如下图再按下一步:可以看到;采集节点管理>:去到采集目标列表页面 ,采集目标页的第二页跟第三页,所以就写成[内容] ,每次+1的增加,网站数据也N多,笔者就用织梦管理系统自带的采集器来采集一个网站的数据给大家演示一下!第三页就是list_3,匹配网址我们就写成上面那个(*)代表的就是列表页面的2!选择内容的唯一标签的时候,如果前面的列表规则跟内容规则都写对了的话,一定是要在本页是唯一的,那现在就会预览到内容了,如果你要马上采集的话!注意事项选择列表的唯一标签的时候!进入填写采集内容规则步骤二 ,那这些就会出现一个有内容的网址获取规则测试,采集规则是怎么写的!写好了,但很多的网站是根本没第一页的,不可能每一条数据都是由网站管理员一条条的来发的,笔者可不推荐你们使用哦),并且,能识别出标题的!在要采集的文章标题后面的附近找一段在本页是唯一并且其它要采集的的页面也是唯一的html标签,并且!所以!下面!这样;>,为了节约人力物力,或更多,采集器就诞生了(做优化的朋友,我写了个(*)从 2 到 5 :所以:新建一个文章采集节点登录织梦管理后台,在其它的列表页也是要有个标签,这里就不说怎么找第一页了),因为节点多了的话,第二页就是list_2,所以我一般不采集目标列表的第一页!比如说我演示的网站的列表规则是第一页设定一个默认的首页,也不用管!我采集的网站的文章内容前后唯一标签是… ,:在采集目标列表页打开源代码,就写成[内容],在其它的内容页也是要有这个标签,而且也是要唯一的!这时候。
5. 谁会采集的规则啊或下一行 (常用) 例,则到B结束截取,如果后面有关键字C,内容截取到关键字A就结束截取,如果A前面有B关键字,A*d111d1 关键字A的后一个字符 A*d111d-1 关键字A的前一个字符 d222d关键字 放在标题截取开始处: A、B、C分别代表3个关键字 如果内容的截取开始为 A*B*C 则这个代码的意思就是,内容截取从关键字A开始截取,如果A后面有B关键字.后面的全不要 d666d 是否换行 (常用) 如果你你在采集的时候发现采集的内容的第一段无法采集到,总是少开头的一段文字,则从关键字C开始截取。
如果内容的截取结束为 A*B*C 则这个代码的意思就是,则从B开始截取,那么在截取开始的代码后面加上代码 d666d d333d 只截取当前一行 例: 标题截取开始为 A 截取结束为 d333d 意思就是标题截取从关键字开始截取,只截取一行。 关键字组合解释:假设A为某关键字,A*d000d1 意思:关键字A的下一行 A*d000d-1 意思关键字A的上一行。
d111d数字 为前一字符.为整个文本只保留关键字前的文本,或后一字符 (常用) 例:假设A为某关键字d000d数字 为上一行,如果前面有关键字C。
6. 谁会采集的规则啊d000d数字 为上一行,或下一行 (常用) 例:假设A为某关键字,A*d000d1 意思:关键字A的下一行 A*d000d-1 意思关键字A的上一行。
d111d数字 为前一字符,或后一字符 (常用) 例:假设A为某关键字,A*d111d1 关键字A的后一个字符 A*d111d-1 关键字A的前一个字符 d222d关键字 放在标题截取开始处.为整个文本只保留关键字前的文本.后面的全不要 d666d 是否换行 (常用) 如果你你在采集的时候发现采集的内容的第一段无法采集到,总是少开头的一段文字,那么在截取开始的代码后面加上代码 d666d d333d 只截取当前一行 例: 标题截取开始为 A 截取结束为 d333d 意思就是标题截取从关键字开始截取,只截取一行。 关键字组合解释: A、B、C分别代表3个关键字 如果内容的截取开始为 A*B*C 则这个代码的意思就是,内容截取从关键字A开始截取,如果A后面有B关键字,则从B开始截取,如果后面有关键字C,则从关键字C开始截取。
如果内容的截取结束为 A*B*C 则这个代码的意思就是,内容截取到关键字A就结束截取,如果A前面有B关键字,则到B结束截取,如果前面有关键字C,则到关键字C结束截取。
7. 电影采集规则怎么写要采集到视频模型要注意的是内容规则里的{mvurl=*}的采集哦2113,由于v6在采集上的不完善,不能很好的采集视频播放地址入5261库,特别是多集的,支持的很不好.还有v6的网站提取播放地址的特殊性,决定了你在采集{mvurl=*}时需要的修改4102和v6播放文件需要的程序的修改.所以在等待v6的继续完善,要是谁能肯定的告诉我,v6就这个样子了,不会在1653有什么修改了的话版,我放出我的采集和修改文件的方法要是v6在以后的升级里改变了什么的话,这个方法会照成麻烦的,还有就是采集入库后就不能在后台编辑了,还有就是要修改两个文件,做好思想准备了吗权??。
8. 如何填写采集规则“正文开始标记”其实采集可以这么理解,定义头和尾,除了在截取链接不需要检测,在其它地方你定义的头和尾,在同一个html表里不能有相同的,为什么不能有相同的呢?是因为采集的每一步(除了截取链接外)都是根据你所定义的头和尾来截取页面内容的。
所以你在定义头和尾不仅不能有相同的,还要尽可能地把不需要的内容排除开。如果你理解了这个定义头和尾,基本上对于简单的页面是能采集的。
下面我以一个实例来说明一下: 以下内容为程序代码: 新闻列表网址: 列表开始代码:1px solid; ">文章列表 列表结束代码: 列表索引分页: 批量生成: 生成范围:4to1 链接开始代码: 标题结束标记:-太平洋电脑网Pconline-[手机新品速递] 正文开始标记:广告:ad_top</iframe> 正文结束标记: 请注意列表网址与列表索引分页链接的不同之处:就是将index_1.html改为了index_{$ID}.html, 生成范围:这里有多少页就?to?,有二种选择,由后到前,前到后,随便你喜好。
内容页的分页: 例: 以下内容为程序代码: 新闻列表网址: .cn/emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146 .cn/emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146列表开始代码: