网站开发swf素材,连云港网站优化公司,微信电商小程序开发公司,手机版网站怎么做戳蓝字“CSDN云计算”关注我们哦#xff01;作者介绍#xff1a;徐麟#xff0c;目前就职于互联网公司数据部#xff0c;哥大统计数据狗#xff0c;从事数据挖掘分析工作#xff0c;喜欢用RPython玩一些不一样的数据个人公众号#xff1a;数据森麟#xff08… 戳蓝字“CSDN云计算”关注我们哦作者介绍徐麟目前就职于互联网公司数据部哥大统计数据狗从事数据挖掘分析工作喜欢用RPython玩一些不一样的数据个人公众号数据森麟ID:shujusenlin,知乎同名专栏作者。前言随着春节脚步的临近想必各位读者都已经开始规划幸福的春节长假该如何度过。阖家团聚探亲访友与好久没见的好基友一起谈天说地怼天怼地想想都是让人感到幸福。除此之外每年的春节档电影都会如约而至与大家见面春节档诞生了许多的经典电影2019的春节档电影也是佳片云集被称作“史上最强春节档”今天我们就带大家一起用数据去解读其中最值得看的影片。数据获取本次我们的数据主要来源于猫眼一部分是猫眼的实时预售票房数据这部分数据可以通过selenium去获取代码如下driver webdriver.Chrome()driver.maximize_window() driver.close() driver.switch_to_window(driver.window_handles[0]) url https://piaofang.maoyan.com/dashboard?date2019-02-05jswindow.open(url)driver.execute_script(js)driver.close() driver.switch_to_window(driver.window_handles[0])另一部分数据则来源于猫眼的观众评论由于电影目前都还没有上映观众评论给出的分数表示了其对电影的期待值。需要注意的是有许多观众在评论中并没有给出评分会直接显示为0在后续计算时需要排除数据如下这部分数据的获取方法可以参照之前3天破9亿上万条评论解读《西虹市首富》是否值得一看我们就直接省略爬取代码预售票房衡量一个电影关注度的重要方法就是去看首日的预售情况我们此次选取八部春节档最主要的影片进行对比代码如下p-ggplot(data[order(data$sale,decreasing T),][1:8,], aes(xreorder(name,sale),ysale,fillname)) geom_bar(statidentity,width 0.5) geom_image(aes(xname,y0,imageimage),size0.08) geom_text(aes(xname,y2500,labellabel_sale),size 7,colblack,fontfacebold) ggtitle(春节档电影预售票房排名(万)) theme_economist() scale_fill_tableau() theme(axis.text.x element_blank(), axis.text.y element_blank(), plot.title element_text(hjust0.5,size30), panel.grid element_blank(), legend.position none, panel.background element_blank(), axis.title element_blank(), axis.line element_blank(), axis.ticks element_blank() )coord_flip()ylim(0,6500)ggsave(春节档上映前预售排名.png, p, width 10, height 16)看一下最终的结果目前预售排名前三位的都是喜剧题材看来在春节的时候大家还是更加希望能够放松自己看一下轻松题材的影评。但是预售票房并不能完全觉得最终的票房走势可以参考之前上映后口碑崩塌的《地球最后的夜晚》和《爱情公寓》。排名前两位的影片都有沈腾的参与看来目前沈腾的票房认可度还是不错的希望两部影片最终都会取得不错的结果。从预售票房上看《廉政风云》和《神探蒲松龄》都有比较大的扑街危险考虑到港片近期略显低迷的表现希望这两部影片能够带来一些惊喜。上映前口碑另外我们也看一下上映之前观众对于影片的整体评价情况这也会在一定程度上体现观众的期待值代码如下p-ggplot(data[order(data$score,decreasing T),][1:8,], aes(xreorder(name,score),yscore,fillname)) geom_bar(statidentity,width 0.5) geom_image(aes(xname,y0,imageimage),size0.08) geom_text(aes(xname,y2,labellabel_score),size 7,colblack,fontfacebold) ggtitle(春节档电影上映前评价) theme_wsj() scale_fill_tableau() theme(axis.text.x element_blank(), axis.text.y element_blank(), plot.title element_text(hjust0.5,size30), panel.grid element_blank(), legend.position none, panel.background element_blank(), axis.title element_blank(), axis.line element_blank(), axis.ticks element_blank() )coord_flip()ylim(0,5)ggsave(春节档上映前评分排名.png, p, width 8, height 12)看一下最终的结果《熊出没》出人意料的在评分中排在首位这也一定程度上提高了作者对这部影片的期待值虽然以作者的年龄应该是不适合去看这部影片《小猪佩奇》凭借此前的超强营销成功引起了大家的主要然而最终表现如何还是需要上映后接受观众的检验。 同时我们看到成龙大哥领衔的《神探蒲松龄》在评分上要落后于其他影片看来大家对于这类题材的影片持保留意见比较多一些我们也期待上映后口碑是否能够实现翻盘。影片看点我们最后通过评论去挖掘上映前大家比较关注的点主要采用jieba分词需要注意的是我们需要在分词前增加一些自定义词典比如“黄景瑜”如果不加这个自定义词典就会被分为“黄景”之后我们会根据词语出现频率筛选出重要的关键词def key_words(df): comment_str .join(df) words_list [] jieba.load_userdict(spring_film_dict.txt) word_generator jieba.cut(comment_str) # 返回的是一个迭代 f.close() # stopwords文本中词的格式是一词一行 for word in word_generator: words_list.append(word) words_list Counter([k for k in words_list if len(k)1]) return list(dict(words_list.most_common(30)).keys())最后我们在每个影片中选取了五个能够体现其看点的词语并进行可视化我们选取一些比较有趣的看点组合进行一下深刻suixing解读《神探蒲松龄》大家都在期待成龙大哥的表演虽然有很多人提前给其打上了“烂片”的标签但是依然期待影片口碑的翻盘。同时大家也会认真关注影片特效不知是否会致敬此前5毛钱“duang”的特效。《飞驰人生》《疯狂的外星人》感觉沈腾大有承包今年春节档的态势预售排名前两位影片中观众最关注的看点都是沈腾期待沈腾春节霸屏同时也能收获不错的口碑。沈腾又是和外星人打交道又是要体验飞驰的人生喜欢沈腾的观众在春节档可以大饱眼福了。《小猪佩奇过大年》一部适合孩子观看的影片也是一部宣传片获得极大讨论度的影片希望不要步此前《地球最后的夜晚》上映后口碑崩盘的后尘。《新喜剧之王》显然大部分观众对这部影片的期待来自于星爷有了此前经典版的《喜剧之王》珠玉在前《新喜剧之王》不可避免地会被哪来与原作对比我们期待能够简直有一部经典的影片出现。推荐阅读Spring-Data-JPA尝鲜快速搭建CRUD分页后台实例孟岩区块链的原则与价值观嫁人当嫁程序员原子互换一统公链江湖的神来之笔春晚鬼畜 B 站日排行最高赵本山我的时代还没有结束PDF翻译神器再也不担心读不懂英文Paper了新闻联播也可以拿来做数据分析1.微信群添加小编微信color_ld备注“进群姓名公司职位”即可加入【云计算学习交流群】和志同道合的朋友们共同打卡学习2.征稿投稿邮箱liudancsdn.net微信号color_ld。请备注投稿姓名公司职位。喜欢就点击“好看”吧