• 八爪鱼,最好的网络爬虫工具

    从3500条《流浪地球》微博评论中解析科幻片观影人群画像

    作者:keven 发布时间:2019/2/25 10:53:56 1380 人已阅读

    摘要:如何通过微博采集,分析#流浪地球#的观影人群画像?这篇文章告诉你答案。

    ?

    今日话题:如何用八爪鱼采集#流浪地球#新浪微博评论,并从中分析科幻观影人群画像?

    ?

    要说贺岁档的最抢眼的黑马当属我们刚突破41亿票房的《流浪地球?#25151;﹡



    ?

    今日我们将通过八爪鱼爬取3500条#流浪地球#微博评论,用数据解析流浪地球的观影人群画像。

    ?

    有人问,为什么要用数据来解析观影人群画像?

    ?

    因为近年来大数据在影视娱?#20013;?#19994;的应用场景越来越成熟,比如在电影宣发投放、精?#21152;?#38144;、观影人群定位、城市或影?#21495;?#26399;、口碑舆情分析等多个方面,都能看到数据正在发挥越来越大的价值。

    ?

    但这些数据通常都掌握在各大线上票务?#25945;?#25163;里,普通个人难以直接获取数据。

    ?

    ?#36141;?#26377;我们的八爪鱼数据爬取软件,帮我们获取第一手数据!

    ?

    ?

    本文您将获得

    1、微博评论采集思路解析与工具

    2、微博评论数据的可视化分析思路与工具

    3、采集福利集锦(文末)

    ?

    一、#流浪地球#微博采集思路解析与工具

    ?

    1、首先明确观影人群画像需要哪些数据字段?

    ?

    经考虑,我确定必要的字段包括:用户名、性别、年龄、头像、城市地区、院校、属性标签、简介以?#20843;?#30340;微博评论内容、发布时间、发布来源。

    ?

    2、打开八爪鱼,根据目标字段制作规则并运行

    ?

    我已制作好的八爪鱼微博采集规则

    ?

    运行规则后八爪鱼所采集到的数据

    ?

    下面说下我的规则制作思路。

    ?

    第1步 制作COOKIE登录微博

    ?

    因为微博必须要登录才能看得到更多的数据,所以登录是我们要做的第一步。

    ?

    ?

    第2步?输入#流浪地球#关键词获得搜索结果

    ?

    ?

    ?

    ?

    第3步? 将所有微博全文展开并制作微博采集循环

    ?

    展开全文循环

    ?

    ?

    微博采集循环

    ?

    微博内容采集循环

    ?

    第4步? 制作微博用户信息采集循环

    ?

    ?

    第5步? 手动执?#20449;?#38169;

    ?

    规则制作后,手动一个个点击,查看每个步骤看否能正常展示并成功采集,更详细的排错思路可以查看:排错脑图

    ?

    第6步??运行规则收获数据

    ?

    ?

    ?

    ?

    ?

    二、#流浪地球#评论数据可视化分析思路与工具

    ?

    1、明确观影人群画像分析需要哪几个维度?

    ?

    根据电影方的目标需求,?#20184;?#20998;析维度。

    ?

    基础维度可以包括:性别、年龄、地区、发布来源、星座、标签属性、微博内容词频分析等维度。

    ?

    ?

    ?

    2、清洗数据

    ?

    清洗数据是非常基础、枯燥但尤其重要的工作,直接决定分析结果与决策依据的合理?#38498;?#36136;量。

    ?

    ?

    原有字段名称及内容

    ?

    清洗过后的字段名称及内容

    ?

    细心的爪?#29992;?#20250;发现,?#20197;?#21407;有的数据上,根据一些背景数据和分析需要,做了颗粒度更细的划分,同时通过统一表述(原意不变),让数据可以更好地归类?#32479;?#29616;。

    ?

    如,将转发量单独划分出来、将手机品牌表述进行统一规整、将城市根据一、二、三、四、五线做了划分、将性别变成中文展示。

    ?

    另外字段中?#34892;?#25991;本含有多余的文字,需要用EXCEL清除。

    ?

    ?

    3、将数据导入可视化分析软件得出结果(分析工具:BDP个人版)

    ?

    (PS:由于小八并非电影专业人员,这里的分析只做举例示范用)

    ?

    1)单一维度:如年龄、手机品牌

    #流浪地球# 微博评论用户年龄划分

    ?

    #流浪地球# 微博评论用户发布手机/渠道划分

    ?

    2)交叉维度分析:性别+年龄

    ?

    #流浪地球# 微博评论用户性别+年龄划分

    ?

    可以初步得出结论,在微博发布用户中:

    ?

    a)女性用户要比?#34892;?#29992;户要高,从数据上看,女性观影人数多于?#34892;裕?#20294;更有可能是因为女性更爱分享、发?#35745;?#35770;;

    b)不论?#20449;?0-29岁是最核心的观影人群;

    ?

    ?

    3)交叉维度分析:转赞数+发布手机/渠道

    ?

    #流浪地球# 微博评论用户转赞数+发布手机/渠道

    ?

    a)发布来源中,来自iPhone和华为手机2大厂商是用户最多,紧接是OPPO、VIVO、360(PC浏览器);

    ?

    (背景数据:IDC 2019公布全国智能手机市场销量排名?#26469;?#26159;:OPPO、vivo、荣耀、小米、华为、苹果、魅族、三星、锤子、360)

    ?

    b)微博超话、YOUKU精选视频、豆瓣也是用户评论的来源之一。

    ?

    4)交叉维度分析:性别+星座



    #流浪地球# 微博评论用户性别+星座

    ?

    发现不管是男生或女生,排第一的都是摩羯座。如果现场有看过的流浪地球的摩羯座爪爪,可以举起的你的爪子,让我看到~

    ?

    ?

    5)背景数据+数据分析:城市划分+微博数据

    ?

    #流浪地球# 微博评论用户城市划分+微博数据

    ?

    a)背景数据:第一财经·新一线城?#20449;?#21517;划分清单,将城市划分为一~五线

    b)微博评论用户主要来自于一线城市、新一线城市

    ?

    ?

    #流浪地球# 微博评论用户?省市分布

    ?

    ?

    6)微博内容词频分析

    #流浪地球# 微博评论词频分布

    ?

    ?#35270;?#30340;大小根据关键词出现的次数变化。

    据观察,票房、科幻、特效、剧情、吴京、情人节等是出?#21046;?#27425;非常高的?#35270;鎩?/span>

    ?

    ?

    采集福利集锦

    ?

    1、微博关键词及用户信息采集教程

    2、微博关键词及用户信息采集规则(该规则价值绝对超过1000元!)

    ?

    如何获得?

    ?

    注册成功后点击?#20063;?#22312;线客服,回复“流量地球福利”关键词,即可领取上述采集福利集锦。

    ?

    ?


    企业试用

    十一选五投注表