ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

2021-04-10 18:02:23  阅读:343  来源: 互联网

标签:最烂 沈腾 Python 电影 爬取 剧情 评论 日不落 猫眼


之前对挺多典型影视作品做过数据解读,有好片也有烂片。

烂片能烂的让人记住的其实也不多,比如《富春山居图》、《上海堡垒》、《爵迹》之类。它们往往头顶着豆瓣2~3的评分,然后引发各种争议讨论,但其目标人群(明星粉丝)还是愿意掏腰包支持的。

图片

大概一年前,我曾经写的【看韩国人如何评价韩国电影《寄生虫》?】一文中,就提到了一个观点。

这与国内的情况也是相似的,同一部电影猫眼淘票票的分数普遍比豆瓣上要高。

毕竟真金白银去看电影的人,肯定会认为它是一部好片子才去看。

只要不像被《爱情公墓》一样诈骗,基本观众的分数不会太低。

3年后,《爱情公寓》大电影终于后继有人。一部打着开心麻花团队旗号的电影,玩起了诈骗式营销,喜获猫眼评分3.2

图片

在我的印象里,大部分电影在豆瓣可能6分左右,在猫眼上8分多。

那猫眼3.2分,究竟是什么概念呢?

这么说吧,毕志飞导演的神作——《逐梦演艺圈》即使在豆瓣上逼近2分!

但猫眼评分还有6.8分呢。

图片

今天小五就带大家扒一扒这部2021最烂院线电影——《日不落酒店》。

爬虫大法好

这次爬虫目标选取了猫眼,原因有二:一是目前豆瓣只能获取500条评论,二是这次最大的争议竟然出现在猫眼评论区

首先,我们来爬取猫眼电影上的评论数据,但网页版只能看到猫眼上的几条评论,所以我们要借助别人抓取的app接口来爬取,我发现小二之前做过类似的爬虫,就参考了一番。

接口格式如下:

http://m.maoyan.com/mmdb/comments/movie/movieid.json?_v_=yes&offset=15&startTime=xxx

两个参数说明如下:[1]

  • movieid:网站中每部影片的唯一 id
  • startTime:当前页面中第一条评论的时间,每页共有 15 条评论

经过一番爬虫,成功获取了将近4000条猫眼电影评论。

图片

不得不说,跟其他院线电影动辄几万、几十万条评论相比,《日不落酒店》显得寒碜多了。不得不服现在的观众们,避坑能力越来越强了。

毕竟当初《爱情公寓》当初还有个“情怀加成”。《日不落酒店》差评成这样还接着去看图啥呢?为了看沈腾的纸片人吗?

诈骗式营销

让我们看看观众们是怎么评价的?

先是看评分:远超一半的观众给出了一星的评价,但仍有10%的观众给出了高分的评价,标准烂片评分分布。

图片

其中在猫眼上给出评分的男性观众比例远高于女性观众。

图片

其实我们还获取了评论时间以及地域等数据信息,但其实意义不大,本文就不再展开讲述。

下面将利用python制作一个词云图,看看各位观众老爷们都表达了哪些看法?

# 绘制词云图
def gen_stylecloud(text, file_name):
    stylecloud.gen_stylecloud(text=' '.join(text), max_words=300,
                              collocations=False,
                              font_path=r'‪C:\Windows\Fonts\msyh.ttc',
                              icon_name="fas fa-thumbs-down",
                              size=800,
                              output_name=f'{file_name}.png'
                             )
    
gen_stylecloud(text=text1, file_name='词云图') 
Image(filename="词云图.png")

轻松制作词云图

图片

扑面而来的就是各种差评字句,还有人用到了李诚儒老师的名言来形容自己的观后感:如坐针毡、如芒刺背、如鲠在喉

词云图中提到最多的就是沈腾,这也是猫眼大规模差评的导火索。

小五这里截图一张《日不落酒店》的海报,你们看看这个人物比例,真·重新定义特别出演。

图片

很多观众也在评论中透露,自己是因为有沈腾才去看的这部电影,谁能知道他在电影中只是一个人形立牌,也就是“纸片人”,并且只出现了不到3分钟。

被消耗的沈腾

细数开心麻花团队的电影作品,《夏洛特烦恼》上映于2015年,也是当年影院中最大的一匹黑马,让沈腾成为日后的“票房保障”。

图片

之后连续推出了《羞羞的铁拳》《西虹市首富》,所获得的成绩也相当不错。接下来的《李茶的姑妈》成了开心麻花的“滑铁卢”,豆瓣只有4.7分。

而且它的主演与《日不落酒店》的一样,都是黄才伦

不知道有没有影响,原本2019年春节档上映的《日不落酒店》,四次改档,直到今年的3.19日才上映。也许是自己极度不自信,才在宣传物料上各种“碰瓷”开心麻花和沈腾。

图片

而后,《日不落酒店》的导演发了一篇长道歉信,澄清了几件事,其一,电影《日不落酒店》和开心麻花没关系;其二,沈腾就是客串,但出品方和宣传团队非要强行宣传“主演”;其三,我们这拍的不是喜剧片。

目前沈腾已成为中国影史票房第一的演员,累计票房突破200亿元。

图片

现在他也经常被笑称为喜剧片的“票房保障”,网友甚至会说影片的“含腾量”如何如何。

但观众的信任感也是有限的,如果一而再、再而三地被拿来充当抢救票房的“烂片万金油”,声誉和路人缘也会总会被挥霍耗尽,失去其本应有的含金量[2]

剧情好到哪里了吗

其实一开始制作的评论词云图中,还有一个关键词——“剧情”很突出!

那抛开被“纸片人”欺骗的感受,单论剧情有没有好一些呢。

重新使用python筛选并截取涉及剧情的评论,具体方法如下所示

图片

然后重新制作评论剧情相关的词云图。

图片

大家把上图中的各种用词与“剧情”拼接起来,大概也就明白了单论剧情,仍然是一片骂声。

剧情无聊、剧情尴尬、剧情乱七八糟、剧情太烂、剧情垃圾、剧情难看、剧情无厘头等等,这就很离谱。

但客观的说,确实有好评中提到了剧情搞笑等正向词汇。

注:在计算中,关键词“不搞笑”和“搞笑”是区分开统计的,所以并非由于“不搞笑”的评论而导致“搞笑”词云占比大。

写在最后

上个月我说《唐探三》是电影票房榜上的烂片!更多是想说它的影片质量配不上它的票房。

但这次则是另一种烂,拼个散装剧本,然后找个开心麻花的演员当主演,最后搞个沈腾参演当噱头。

这种套壳营销方法,前有《爱情公寓》后有《日不落酒店》。

但最终观众们都用差评表达了自己的心声!


标签:最烂,沈腾,Python,电影,爬取,剧情,评论,日不落,猫眼
来源: https://blog.51cto.com/u_15127540/2697932

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有