robotparser 与 requests 结合使爬虫遵守 robots.txt 协议

2017-06-26 Borg 更多博文 » 博客 » GitHub »

原文链接 https://bigborg.github.io/2017/06/26/robotparser-session/
注：以下为加速网络访问所做的原文缓存，经过重新格式化，可能存在格式方面的问题，或偶有遗漏信息，请以原文为准。

什么是 robots.txt ?

robots.txt 文件放置在网站根目录下，定义了什么样的客户端（web服务器以User-Agent识别客户端）可以访问的资源有哪些，不能访问的资源有哪些。以百度的 robots.txt 为例，如下:

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?

User-agent: *
Disallow: /

截取的两部分，第一部分定义了百度自家的爬虫 Baiduspider 不允许爬取的内容，而第二部分则说明没有 User-Agent 的客户端任何资源都不允许访问。

robotparser

robotparser 是 python 自带的库，能够用于解析 robots.txt 规则，判断要爬取的 url 按照 robots.txt 文件是否合法。 robotparser 官方的文档： robotparser doc. 官方文档内容还是比较少的，经测试发现 RobotFileParser 的几个行为：

set_url 方法并不是只能用于一个站点，而是可以连续添加多个站点，而之前添加的依然有效。
当传递给 set_url 方法的参数并不是一个真实的 robots.txt 文件地址时并不会报错。
1. 对于未添加过 robots.txt 文件的站点，can_fetch 方法默认返回 False。

目标

我们希望在使用 requests 的 Session 实例能够添加 robots.txt 文件，并在使用 get 和 post 方法时如果 robots.txt 规则不允许则抛出异常。

RobotsSession

为了实现上述功能，以下代码继承了 requests.Session ，实现了 add_robot 方法和 allowed 方法。add_robot 方法接受一个 url 参数，提取出站点相应的 robots.txt 地址，再用传给 RobotFileParser 实例进行解析，同时记录添加过的站点。allowed 方法则用于判断当前解析到的 robots.txt 文件规则下爬取参数 url 是否合法。但对于没有添加过 robots.txt 文件的站点，我们希望默认可以爬取，因此在此比对已添加的站点，如果待爬取的站点没有添加 robots.txt 文件，则返回True，只有添加过的站点才按规则解析。

class RobotsSession(Session):

    def __init__(self, *args, **kwargs):
        if kwargs.has_key('follow_robots'):
            self._follow_robots = kwargs.get("follow_robots")
            del kwargs['follow_robots']
        else:
            self._follow_robots = True

        self._robot = RobotFileParser() # host to robotparser obj
        self._robot_hosts = Set()       # hosts added

        super(RobotsSession, self).__init__(*args, **kwargs)

    def add_robot(self, url):
        '''
        any url to be crawled, this method will convert url for robots file
        :param url: 
        :return: 
        '''
        host = RobotsSession.url2schemahost(url)
        robot_path = host + "/robots.txt"
        if not host in self._robot_hosts:
            self._robot_hosts.add(host)
            self._robot.set_url(robot_path)
            self._robot.read()
        return True

    def allowed(self, url):
        '''
        :param url: 
        :return: 
        '''
        if not self._follow_robots:
            return True
        host = RobotsSession.url2schemahost(url)
        if not host in self._robot_hosts:
            return True
        return self._robot.can_fetch(self.headers['User-Agent'], url)

    @staticmethod
    def url2schemahost(url):
        components = urlparse(url)
        return components.scheme + "://" + components.netloc

get， post 方法

使用装饰器，重写 get, post方法，检查 url 是否合法，不合法抛出异常，合法照常爬取。

class RobotsNotAllowError(Exception):
    def __init__(self, *args, **kwargs):
        super(RobotsNotAllowError, self).__init__("This url is not allowed for crawling.", *args, **kwargs)

def follow_robots(func):
    def wrapper(instance, url, *args, **kwargs):
        if instance.allowed(url):
            return func(instance, url, *args, **kwargs)
        raise RobotsNotAllowError()
    return wrapper

class RobotsSession(Session):
    @follow_robots
    def post(self, *args, **kwargs):
        return super(RobotsSession, self).post(*args, **kwargs)

    @follow_robots
    def get(self, *args, **kwargs):
        return super(RobotsSession, self).get(*args, **kwargs)

全部代码、使用及将来可能的改进

全部的代码如下，使用前需要预先添加 robots.txt 文件。因为 robotparser 遇到错误的 robots.txt 路径并不会报错，比较难判断一个站点是否真的有 robots 文件，特别是很多站点没有 robots 返回的状态码还是 200 ，而对这些站点 robotparser 默认不允许爬取，而我们又希望默认可以爬取，所以就先写成预先手动添加站点 robots 路径的形式。如果能明确判断一个站点是否有 robots.txt 文件，则可以改进成无需添加自动解析的形式。

#coding:utf-8

from robotparser import RobotFileParser
from urlparse import urlparse
from requests import Session
from sets import Set

class RobotsNotAllowError(Exception):
    def __init__(self, *args, **kwargs):
        super(RobotsNotAllowError, self).__init__("This url is not allowed for crawling.", *args, **kwargs)

def follow_robots(func):
    def wrapper(instance, url, *args, **kwargs):
        if instance.allowed(url):
            return func(instance, url, *args, **kwargs)
        raise RobotsNotAllowError()
    return wrapper

class RobotsSession(Session):

    def __init__(self, *args, **kwargs):
        if kwargs.has_key('follow_robots'):
            self._follow_robots = kwargs.get("follow_robots")
            del kwargs['follow_robots']
        else:
            self._follow_robots = True

        self._robot = RobotFileParser() # host to robotparser obj
        self._robot_hosts = Set()       # hosts added

        super(RobotsSession, self).__init__(*args, **kwargs)

    def add_robot(self, url):
        '''
        any url to be crawled, this method will convert url for robots file
        :param url: 
        :return: 
        '''
        host = RobotsSession.url2schemahost(url)
        robot_path = host + "/robots.txt"
        if not host in self._robot_hosts:
            self._robot_hosts.add(host)
            self._robot.set_url(robot_path)
            self._robot.read()
        return True

    def allowed(self, url):
        '''
        :param url: 
        :return: 
        '''
        if not self._follow_robots:
            return True
        host = RobotsSession.url2schemahost(url)
        if not host in self._robot_hosts:
            return True
        return self._robot.can_fetch(self.headers['User-Agent'], url)

    @follow_robots
    def post(self, *args, **kwargs):
        return super(RobotsSession, self).post(*args, **kwargs)

    @follow_robots
    def get(self, *args, **kwargs):
        return super(RobotsSession, self).get(*args, **kwargs)

    @staticmethod
    def url2schemahost(url):
        components = urlparse(url)
        return components.scheme + "://" + components.netloc

if __name__ == "__main__":
    session = RobotsSession(follow_robots=True)
    print session.get("http://www.baidu.com").status_code   # proceed

    session.add_robot("http://www.baidu.com")
    try:
        session.get("http://www.baidu.com")  # Should fail
    except RobotsNotAllowError as error:
        print error

    print session.get("http://www.weibo.com").status_code  # proceed

    session.add_robot("http://www.weibo.com")

    try:
        session.get("http://www.weibo.com")  # Should fail
    except RobotsNotAllowError as error:
        print error

    print "Test passed"