火车采集器V9版网址拼接功能 酒店信息采集案例讲解(附规则)

今天为大家讲解网址拼接,我们经常在的时候,发现源码中并没有完全的网址或完全的网站不好制定规则,那就可以使用网址拼接功能,今天以酒店信息采集案例讲解网址拼接功能。

以北京地区酒店信息为例,入口页面:http://www.zhuna.cn/hotellist/e0101/
通过页面点击发现这并不是真实的数据列表页,需要通过抓包软件来抓包,找出真实列表网址(抓包之前说过,今天这里不再细说),通过抓包获得真实网址为:http://www.zhuna.cn/?m=search.ge … =%E5%8C%97%E4%BA%AC
网址中的page=1为列表页分页参数,通过分页规则,采集列表网址,如图:
火车采集器V9版网址拼接功能 酒店信息采集案例讲解(附规则)

下一步获取内容页网址,通过源码分析,发现源码中并没有网址,但可以看到一个ID值,如图:
火车采集器V9版网址拼接功能 酒店信息采集案例讲解(附规则)

通过页面点击内容页发现内容网址为http://www.zhuna.cn/hotel-5396.html网址中的数字很可能就是这个ID值,将源码中的ID值替换到这个网址中,发现就是酒店详细内容页,这样我们只要采集这个ID值即可。这个获取规则也很简单,以{"id":开头,以, 结尾,就可以获取到ID值,但光有ID值不行,这个时候我们要拼接出完整的内容网址,那这样拼接http://www.zhuna.cn/hotel-[参数1].html即可,如图:


火车采集器V9版网址拼接功能 酒店信息采集案例讲解(附规则)

通过网址测试,可以顺利采集到内容网址
火车采集器V9版网址拼接功能 酒店信息采集案例讲解(附规则)

酒店的基本信息在内容页源码中都有,规则也比较简单,在这里就略过,最后来张采集动态图
火车采集器V9版网址拼接功能 酒店信息采集案例讲解(附规则)

很帅吧,赶紧下载规则学习,你也可以的哦!

规则下载:http://bbs.locoy.com/spider-150962-1-1.html


原文地址:http://faq.locoy.com/q-1240.html

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
火车头

火车采集器V9入门之网址采集 实例讲解

2024-1-22 22:20:28

火车头

火车采集器V9入门之内容采集 实例讲解

2024-1-22 22:20:32

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索