上地网站制作,微信小程序源代码模板,网站开发工具与技术,飓风算法恢复的网站戳蓝字“CSDN云计算”关注我们哦#xff01;作者 | 徐麟来源 | 数据森麟作者#xff1a;徐麟#xff0c;某互联网公司数据分析狮#xff0c;个人公众号数据森麟#xff08;id#xff1a;shujusenlin#xff09;前言很多人提到B站#xff0c;首先想到的就会是二次元或者… 戳蓝字“CSDN云计算”关注我们哦作者 | 徐麟来源 | 数据森麟作者徐麟某互联网公司数据分析狮个人公众号数据森麟idshujusenlin前言很多人提到B站首先想到的就会是二次元或者鬼畜上个月我们公众号也发表了一篇关于B站鬼畜视频的文章大数据解读B站火过蔡徐坤的“鬼畜“区巨头们。然而实际上B站其实是个非常神奇的网站里面的内容可谓是包罗万象有趣的弹幕文化也能极大地提高大家的体验B站也逐渐地成为了一个用来学习的“神器”。近期B站获得了央视网的力挺报道称B站已经成为了越来越多的年轻人的学习阵地正所谓“我在B站看番你却在B站学习” 今天我们就来爬取B站上那些播放量、弹幕量排名靠前的编程类视频一起去了解B站的另一面。数据来源我们此次的数据主要来源于B站搜索框中输入“编程”后的视频列表及相关信息B站一共提供了物种视频排序的方式每种能够返回前1000个视频我们分别爬取五种排序所得到的1000个视频之后对5000个视频进行排序最终得到了2000多个编程类视频的信息同时我们也增加了一些筛选条件使得最终获取到的编程教学视频更具代表性a.所属分类为科技类 b.视频时长大于60分钟部分代码如下## 获得列表def get_list(i,j):attempts 0success Falsewhile attempts 5 and not success:try: url https://search.bilibili.com/all?keyword%E7%BC%96%E7%A8%8Bfrom_sourcebanner_searchorder{}duration4tids_136page{}.format(i,j1) header {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win32; x32; rv:54.0) Gecko/20100101 Firefox/54.0, Connection: keep-alive} cookies v3; iuuid1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; webptrue; ci1%2C%E5%8C%97%E4%BA%AC; __guid26581345.3954606544145667000.1530879049181.8303; _lxsdk_cuid1646f808301c8-0a4e19f5421593-5d4e211f-100200-1646f808302c8; _lxsdk1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; monitor_count1; _lxsdk_s16472ee89ec-de2-f91-ed0%7C%7C5; __mta189118996.1530879050545.1530936763555.1530937843742.18 cookie {} for line in cookies.split(;): name, value cookies.strip().split(, 1) cookie[name] value html requests.get(url,cookiescookie, headersheader).content bsObj BeautifulSoup(html.decode(utf-8),html.parser) script bsObj.find_all(script)[3].text info json.loads(script.replace(window.__INITIAL_STATE__,).split(;(function())[0])[allData][video] return info except: attempts attempts1 return []coding_all []type [click,stow,dm]for i in type: for j in range(50): this_coding get_list(i,j) coding_all coding_allthis_coding最终我们获取到了如下的视频信息列表数据分析获取到数据之后我们首先关注的是这些视频的主要内容通过视频给出的标签绘制整体内容总结的词云图可以看到上面的词云除了编程语言技术之外包含了许多类似于学习教程这样的通用描述性词汇我们需要进一步从中筛选出与编程语言、技术相关的词云提高词云图的效果可以看到经过筛选后的词云图效果要好很多其中基本上囊括了现在比较火的编程语言如Java、Python 以及数据结构、机器学习这些技术类的内容下面我们来看一下各编程语言的播放量及弹幕量对比我们此次将linux也划分到语言类中可以看到目前基本上就是处于Python、C语言、Java三组鼎力的态势Python略微领先于其他两种语言这也一定程度反映了当今的整体发展趋势。由此可见B站的内容也是与时俱进适合年轻人去学习了解编程整体发展趋势。看完了语言类我们再来看一下具体的技术类排行榜可以看到前端、人工智能、数据框、爬虫这些大家比较关心以及公司有较大需求量的技术都出现在了榜单中在B站如果能将自己所要从事领域的视频认真学习也会有很大的提高部分代码如下## 分组统计coding_tag dataframe_explode(coding,tag)coding_tag[tag] coding_tag[tag].apply(str.lower)coding_tag[type] coding_tag[tag].map({tag_dict[tag][k]:tag_dict[type][k] for k in range(tag_dict.shape[0])})coding_tag coding_tag.groupby([title,pic,author,arcurl,tag,type],as_indexFalse).agg({play:max,danmu:max,favorites:max,review:max})tag_count coding_tag.groupby([tag,type],as_indexFalse).agg({title:[count],play:[sum],danmu:[sum],favorites:[sum]}) tag_count.columns [tag,type,num,play,danmu,favorites]## 绘制图片coding_stat tag_count[tag_count[type]语言]coding_stat.sort_values(play,ascendingFalse,inplaceTrue)attr coding_stat[tag][0:10]v1 coding_stat[play][0:10]bar Bar(语言类播放量TOP10)bar.add(播放数量, attr, v1, is_stackTrue, xaxis_rotate30,xaxis_label_textsize18, xaxis_interval 0,is_splitline_showFalse,label_text_size12,is_label_showTrue)bar.render(语言类播放量TOP10.html)coding_tag dataframe_explode(coding,tag)coding_tag[tag] coding_tag[tag].apply(str.lower)coding_tag[type] coding_tag[tag].map({tag_dict[tag][k]:tag_dict[type][k] for k in range(tag_dict.shape[0])})coding_tag coding_tag.groupby([title,pic,author,arcurl,tag,type],as_indexFalse).agg({play:max,danmu:max,favorites:max,review:max})tag_count coding_tag.groupby([tag,type],as_indexFalse).agg({title:[count],play:[sum],danmu:[sum],favorites:[sum]}) tag_count.columns [tag,type,num,play,danmu,favorites]## 绘制图片coding_stat tag_count[tag_count[type]语言]coding_stat.sort_values(play,ascendingFalse,inplaceTrue)attr coding_stat[tag][0:10]v1 coding_stat[play][0:10]bar Bar(语言类播放量TOP10)bar.add(播放数量, attr, v1, is_stackTrue, xaxis_rotate30,xaxis_label_textsize18, xaxis_interval 0,is_splitline_showFalse,label_text_size12,is_label_showTrue)bar.render(语言类播放量TOP10.html)精品视频分析完整体视频内容的分布情况我们再来看下那些最为精品的视频由于B站以弹幕文化为特色我们就依据弹幕量来为大家精选出一些非常不错的视频首先是所有编程类视频的TOP20我们下面分别看一下三足鼎立中的Python、Java、C语言分别弹幕量排名前十的视频信息写在最后B站的阿婆主为为大家提供了特别多的编程学习资源大家在学习知识的同时也需要注意的就是相应的版权信息。上传视频一定要确认版权不存在问题之后再去上传另外如果发现有存在侵权的问题也要及时跟视频作者进行反馈及时将侵权视频下架。另外希望大家能够多多支持技术类的视频和阿婆主如果觉得不错就不要吝惜手中的硬币让更多的技术类阿婆主有动力为大家提供更多更好的视频内容后台回复“编程”可以获取本文代码福利扫描添加小编微信备注“姓名公司职位”加入【云计算学习交流群】和志同道合的朋友们共同打卡学习推荐阅读听说私有云也出新一代了搞不懂SDN那是因为你没看这个小故事…华为最强自研 NPU 问世麒麟 810 “抛弃”寒武纪北邮通信博士万字长文带你秒懂 4G/5G 区别LinkedIn最新报告: 区块链成职位需求增长最快领域, 这些地区对区块链人才渴求度最高……中文NLP的分词真有必要吗李纪为团队四项任务评测一探究竟 | ACL 20196月技术福利限时免费领真香朕在看了