随着粉丝战斗力越来越卓越,每有热门电影和剧集上映,豆瓣总是很容易躺枪。

最近一遭,是《流浪地球》粉丝们对豆瓣 App 发起了 “一分差评运动”,华为应用商店里,豆瓣的评分一度低至 2.5 分,评论区网友们愤怒的火焰直指豆瓣评分机制。围观了全程的 DT 君(ID:DTcaijing)不由纳闷:豆瓣评分真的不够公平吗?评分高低真有这么大的影响吗?

为了找寻答案,DT 君采集了近 5 年国内院线电影的评分、票房等信息,尝试着用数据来解解惑(获取数据可直接拉至文末)。

豆瓣评分足够客观真实吗?

最大争议在于,大家怀疑由于评分机制不合理、受到水军影响等原因,豆瓣评分很容易高估或者低估了一部电影,不能真正反映群众的观影评价。

DT 君找来了美国的主流电影评价网站 IMDb 与豆瓣进行对比,它们同采用十分制,也都来源于大众打分,存在较强的可比性。

同一部电影在两家网站上的表现差异有多大呢?2014 年至 2019 年在中国大陆上映的电影,有 1128 部在两个网站上都获评了有效分数,我们对它们进行了比对。

豆瓣电影评分,公不公平? | DT数说

以豆瓣评分为横坐标,IMDb 评分为纵坐标制图,每个圆点都代表一部电影,大致看去,豆瓣评分越高的电影,IMDb 评分也越高。

我们进一步利用最小二乘法对两组数据进行了相关性检验,相关系数为 0.65,说明同一部电影的豆瓣评分和 IMDb 评分存在 65% 左右的高度相关。

我们查看了那些偏离回归线较远的电影点,发现在豆瓣和 IMDb 上表现差别最大的电影可以分为以下两大类:

• 拥有真爱粉或者真爱黑的烂片。这些烂片尽管在国内也少人问津,但是却有那么几个真爱在更少有人看到的英文网站 IMDb 上为之打出高分或低分。比如一听名字就很有恋爱味道的《708090 之深圳恋歌》,IMDb 评分比豆瓣整整高出 5 分,汇集了林允、张云龙、陈柏霖的电影《假如王子睡着了》的 IMDb 评分高达 8.1,而《脱单告急》在豆瓣评分已经低至 5.6 分的前提下,IMDb 评分比之更低了 3.2 分。

• 存在文化差异或者欣赏差异的电影。该类典型代表比如李安作品《比利·林恩的中场战事》,豆瓣评分 8.4,IMDb 评分却低至及格线;而由胡军主演的《上海王》,豆瓣评分仅为 4.8 分,IMDb 评分却高达 7.9 分。

而大多数电影,在两家网站上的表现比较一致。在 DT 君选取的样本中,IMDb 有 44 部电影评分在 8 分以上,这其中近 7 成在豆瓣也获得了 8 分好评。

放眼全宇宙,好的电影一般都会拿个好分数,各地群众眼睛是一样雪亮的。

豆瓣评分真能跟票房挂钩?

接下来的问题是,粉丝们如此在意豆瓣评分,难道 TA 真的跟电影总票房挂钩吗?

考虑到影响电影票房的因素很多,除了影片的口碑和质量,还有知名度和关注量等。因此,DT 君在计算时,除了把电影豆瓣评分作为影片口碑的指代指标,并且加入了为该部电影评分的人数作为影响力的指代指标。

同时拥有票房和得分的有效数据共有 1533 组,为了所有变量在同一个数量级,我们在计算时电影票房以万元为单位,将其和豆瓣打分人数取自然对数。

假定关系是:In(票房)= 系数 1*豆瓣评分 + 系数 2*In(打分人数)+ 常数 C

当我们用多元线性回归模型对这些数据进行拟合之后,有了 “惊人” 的发现:精确度 R2 说明豆瓣评分和打分人数可以在 72.4% 的程度上解释电影的最终票房,并且三组参数都通过了假设检验,较为可信。但是,为什么豆瓣评分前面的系数为- 0.24 呢?票房和评分负相关,难道代表着电影评分越高,票房反而越低吗?

豆瓣电影评分,公不公平? | DT数说

这显然崩塌了我们的常识。于是 DT 君(ID:DTcaijing)分别对两个因素做回归分析,又有了新发现。

在单独分析时,豆瓣电影评分对于电影总票房有较为明显的正相关关系,并且还有 22.6% 的精确度。而如果引入了热度数据,原本应该是正相关关系的豆瓣电影评分与电影总票房,却变为了负相关(尽管负得不明显)。

也就是说,热度对于票房的影响,显著大于豆瓣评分的作用。当然,一个电影的最终票房还会与包括宣发、排片、票补等多种因素有关,这些因素都会对结果产生干扰。但得承认一点,豆瓣评分高低和最终票房的关系,真的没有人气等其他因素作用那么大。

DT 君简单统计了一下这 1500 多部自 2014 年内地上映的院线电影们,豆瓣平均得分是 5.26 分,明显是个不及格的分数。其中,低于合格分 6 分的电影达 6 成,贡献了超过 3 成的票房。

上映期间的评分变化,会对票房产生什么影响?

虽说评分绝对值对于电影总票房的影响有限,但是上映期间,豆瓣评分的变动是不是会对票房产生影响呢?

为了避免节假日因素的影响,DT 君收集了 2018-2019 年春节档和国庆档的电影豆瓣评分、票房每日变化——样本太少,不太适合进行统计分析,但 DT 君大致总结出了一些趋势。

随着上映,大多数电影的豆瓣评分会呈现一定下滑。这也可以理解,随着参与评价的人数变多,由粉圈走向大众,口碑会出现分化。而电影每日斩获的票房一般也会有一定程度的下降。

豆瓣电影评分,公不公平? | DT数说

有一些没随大流走向的电影,最后在媒体报道中往往都伴随着 “黑马” 这样的关键词。

《无双》、《红海行动》和《流浪地球》是极少数上映几天后日票房能大幅提升的电影。如果仔细比较他们的豆瓣评分,《无双》与《红海行动》的豆瓣评分确实略有上升,而《流浪地球》的豆瓣得分一路下滑,在一众电影中属于下滑幅度较大的——但 TA 也是这三部逆袭电影中,日票房上涨幅度最大的。

这么一番比较,粉丝对于豆瓣评分影响《流浪地球》票房的指摘,多少显得有些过度反应了——至少从节日档期来看,豆瓣得分的下滑,并没有发挥出多大威力。

手痒的 DT 君明知不太适合,还是在此处还尝试着做了个局限性很大、仅提供非常有限参考的分析,就着这 20 余部电影的数据,将豆瓣日评分作为唯一自变量,将日电影票房取对数作为因变量,在回归模型中加入时间固定效应进行分析。结果显示,豆瓣日评分的变动和票房的关系不是很大,日评分变动 1 分,日票房会同向变化 0.759%。如果说日票房是一个亿,那么豆瓣评分掉了 1 分,对票房的影响也就是 75.9 万元(再次强调,仅提供非常有限参考)。

如何识别被水军严重影响的电影?

虽然豆瓣评分的作用没有我们想象的那么大,但是众多日常参照豆瓣的电影爱好者,还是比较关心豆瓣评分到底可以如何参考。

现在最大的干扰项恐怕在于水军和黑子的涌入影响了大家对于评分的正常判断,那五星党/差评党会对电影评分造成多大程度的干扰呢?

DT 君在这里仿照了知乎网友 “数据冰山” 之前的研究方法(特此鸣谢),使用标准差作为衡量一部电影评分争议性的标准:

豆瓣电影评分,公不公平? | DT数说

对豆瓣星级按照 1 星对应 2 分,2 星对应 4 分,5 星对应 10 分的方式进行赋值;

Avg 为该电影豆瓣得分,P2、P4…P10 为评分中 1-5 颗星所占的比例。

根据每部电影的豆瓣评分与评分标准差,我们对 1714 部电影进行了聚类,表现相似的电影在下图中属于同一颜色。

豆瓣电影评分,公不公平? | DT数说

可以发现,低分电影和高分电影口碑分化都挺小,这意味着,对于绝对的好片与绝对的烂片,大家都没有太大争议。而中间段位的电影则是幺蛾子爆发区域,不管是由于水军/黑子/粉丝的影响,还是观众本身对这部电影就有较大的审美偏差,总之,这个分段的电影往往争议性较大,评分的普适参考性就小了些。

也有一些办法来排除掉那些标准差/争议性明显过大的电影。DT 君参照 “数据冰山” 的方法,取各个分段聚类中心点作为该分段的标准分型。

豆瓣电影评分,公不公平? | DT数说

票型就是豆瓣右侧显示的,各星段打分人数占比的条形形状。一般低分电影都趋近 L 或 b 型,分数越高,5 星 4 星打分人数越多,这个形状越趋近于 F 型。正常说来,电影都应该属于以上 5 种评分类型。如果出现 C 或者其他票型的电影,就需要考量下是否靠谱了。

比如这部《幸福中转栈》,2658 个人打分,但是只有 43 条短评和 2 条长评,且绝大多数为 1 星或 2 星,高达 25.9% 的 5 分率,参考意义怎么看都不是特别大。

豆瓣电影评分,公不公平? | DT数说

而引发争议的《流浪地球》,评分票型是 P 型, 1 分的人数占到所有人数的 2.1%,标准差为 1.9,相对适中。水军对《流浪地球》评分的影响,可能还没有 “球粉” 们给豆瓣打一分的影响大。

豆瓣电影评分,公不公平? | DT数说

那么,豆瓣该背锅吗?

但是,豆瓣评分机制就没有缺陷了呢?显然不是。

DT 君整理了豆瓣、IMDb、烂番茄和 Metacritic 的评分机制。其中豆瓣和 IMDb 机制类似,为人熟知。Metacritic 作为专业打分网站,会收集专业影评人分数、由影评内容换算评分,也因此在四个网站中最为严格。烂番茄的最终结果则比较特别,“新鲜度” 并不是评分,而是按评分 3.5 分为界计算出的 “推荐” 和 “不推荐” 的比例,并不能真实说明影片质量。

豆瓣电影评分,公不公平? | DT数说

对比了一圈,DT 君发现,豆瓣评分最大的缺陷在于评分颗粒度。其评分区分度只有 5 档,是以上所有评分网站里区分度最差的。要知道,4 星和 5 星换算成对应的豆瓣 8 分或者 10 分,差异相当巨大。同样 5 星制,烂番茄就有 0.5 星的设置,相对可以更好反映观影者的评价。

而网友们呼吁的提高影票审核机制则有欠考虑,毕竟,电影的观众远不只院线电影上映期间买票入场的那一群。而且不仅仅是豆瓣,包括 Metacritic 在内的四个网站全部采纳了大众用户的评分,且不需要晒出票根。只不过豆瓣和 IMDb 都是普通用户打分,烂番茄和 Metacritic 则将专业影评人的分数和大众打分区别开,成为两个独立的结果。

说了这么多,豆瓣评分这回事,你还较啥真呢?

分数再高也不代表好票房,反而,能出圈的国民人气值,比豆瓣评分重要多了。

本文来自微信公众号 DT 财经(ID:DTcaijing),作者为陈诗雨,编辑为唐也钦,。