抓取瓣所有电影详情页并统计豆瓣收录的电影的数量

豆瓣是中国的imdb，国内最权威的电影信息收录和影评平台之一。豆瓣总共收录了多少部电影呢？以抓取豆瓣所有的电影详情为例，回答这个问题。

豆瓣电影自己已经列出了所有电影的总列表。网址是这个选影视的入口: https://movie.douban.com/tag/

经过分析，可知豆瓣自己给出了所有的电影的列表的获取接口： https://movie.douban.com/j/new_search_subjects?tags=电影&range=0,10&start=0

再经过分析可知这个接口从start=0开始，分页，每页20条，一直往下翻页，但累计翻到start=9980返回数据就为空了。显然是豆瓣故意设置的。这个数并不准确。

经过尝试知道这个url有个关键的range，从0分到10分的评分；也尝试出range支持小数。自然地想到可以通过设置起始同一个数来获取一个评分的分页。如：range=9.0,9.0

经过不完整的尝试，发现每一个评分应该是不超过9980条的。(这里可以通过抓取url数据去真正地判断的。如果不判断，假定不超过，ps：后面经过程序跑，发现暂时每个评分的电影条数都不超过9980，至于以后如果超过了，应该有别的解决方式的。豆瓣应该也是假定了所有电影数量不超过100万条吧，感觉可能是这样所以才设置了翻页数量最多为9960这个数，也可能是别的原因，无所谓，不妨碍接下来的探索。)

到此，已经分析出所有电影列表的所有url。要估算出所有电影的数量，只要遍历跑完所有url的翻页，将数量累加即可知道。

代码实现也并不难。

但还要顺便把每一部的电影详情页的主要信息抓下来，方便以后的查询和分析。

所以在遍历所有url时，顺便把电影详情页的信息也抓了。

用Scrapy实现了以上的想法。

程序跑了一天一夜，终于跑完了。

截图如下：

所有电影的详情信息存入MongoDB，总数如下图所示：

可见，本次抓取，成功完整的保存到MongoDB里面的电影总条数是57188条。绝大多数的抓取是成功的，也保存到了数据库。归功于强大的Scrapy框架。当然，还有ip代理，没有ip代理一下子就被封ip了。

抓取中发现豆瓣电影有一些电影的详情页是404，比如熔炉、杀人回忆、电锯惊魂等等等等，其中有一些隔一段时间又恢复正常，不知道是不是豆瓣的BUG，这个不正常。

综上，排除掉个别404的电影，排除掉个别抓取失败或者存不进去数据库。根据豆瓣自己的电影分类，豆瓣总共收录的电影数量是5万多条，截止2017年12月份。

如果豆瓣的电影分类是准确的，那么这个数字的误差是很小的，可信度相当高。 但，通过不完整的翻查，发现有一些音乐类的分类下面，有一些并不能算是电影，比如演唱会、MV制作，一些短片等等。所以，如果以此来说豆瓣的电影分类并不准确的话，豆瓣电影的数量真实要比这个数字要小一些的，具体小多少，暂时不好估算。对于电影的准确定义和分类相信也不会有一个很严格的标准。所以还是可以认为豆瓣的分类是较为准确的吧。保险的说法是，豆瓣收录的电影数量级是几万级别的。

有了以上这些数据，后面就可以对这些数据做进一步的特定分析了。

豆瓣上有个问题跟这个相关，豆瓣一共收录了多少部电影？。

其中冰糖雪梨的的回答跟以上的思路是一致的。我认为他的回答最为贴切。朱俊的回答也接近，不过并没说具体是怎么得来的。说15万多的估计是有很多其他的分类冗余了，比如电视剧之类的视频。按照豆瓣官方提供的接口来算就是5万多这个数。

最后附上部分实现代码：

import urllib
import re
import json
from random import choice
from scrapy.spiders import Spider
from scrapy.http import FormRequest
from scrapy import Request

from .lib import  lib_parse_movie_detail

class DoubanMovieSubject(Spider):

    def __init__(self, score=2.1,
        fmt_str='https://movie.douban.com/j/new_search_subjects?tags=电影&range=%.1f,%.1f&start=0'):
        self.subject_set = set()
        self.url_list = []
        self.fmt_str = fmt_str
        self.score = score
        while self.score <= 9.8:
            url = self.fmt_str % (self.score, self.score)
            self.url_list.append(url)
            self.score += 0.1

    name = 'movie_subject'

    def start_requests(self):
        self.logger.warning("start_request 请求入口")
        self.logger.warning(self.url_list)
        for url in self.url_list:
            yield Request(url)


    def parse(self, response):
        if response.status == 200:
            url = response.url
            res = json.loads(response.body_as_unicode())
            data = res.get('data')
            if data:
                for d in data:
                    subject_id = d.get('id')
                    self.subject_set.add(subject_id)
                    detail_url = d.get('url')
                    item = {'detail_url': detail_url, 'subject_id': subject_id}
                    yield Request(
                            detail_url,
                            callback=self.parse_movie_detail,
                            meta={'item': item},
                            dont_filter=True)
                # 翻页
                url = url.split('=')
                url[-1] = str(int(url[-1]) + 20)
                url = '='.join(url)
                yield Request(url)
            else:
                self.logger.warning('没有数据：{}'.format(url))
        else:
            self.logger.error(response.url)
            self.logger.error('parse_movie_detail 状态码为：{}'.format(response.status))

    def parse_movie_detail(self, response):
        return lib_parse_movie_detail(self, response)

抓取瓣所有电影详情页并统计豆瓣收录的电影的数量

See Also

最近文章

标签

友情链接