积分统计 2020.11
这是第二次积分统计,原文贴上。
值得一提的是,爬虫换成了 Go 编写,这也是之后一次积分统计用的爬虫。
模仿前人,时隔几个月后再次爬取一次看看论坛变化?
不过懒得写谁是这几个月内积分增长最多的之类的代码了,就是简单的重新爬取一般。
这次使用 Go 重写爬虫,占用内存大概是大大的降低了,不过 java 占用的 cpu 还是要稍稍少一些的。
爬取过程的一些信息
本次爬取是 11.2 0:00 左右开始爬取,11.5 19:37 左右结束,速度比上次快了很多呢。
爬取的账号有 有效账号/总爬取账号:3678119/3709552
基本都能覆盖到,不过因为操作失误,所以爬取的人数比预取的少一点点。
相关排名
为了避开相关的敏感词,和节约排版时间,所以这次直接丢到 gitee 上了,国内网站,速度应该还不错。
总积分
人气
金粒
金锭
绿宝石
下界之星
贡献
爱心
钻石
勋章数
精华数
设置的黑名单数
在线时间
回帖数
主题数
好友数
空间查看次数
分积总
一些统计
组人数统计(不精准)
或者 https://gitee.com/xmdhs/bbsrank/tree/master/mcbbs (按住 shift 滚动滚轮左右移动)
其中顺便再爬了另外两个 mc 的论坛,纯属测试爬虫,不过其中的一个没有爬完整就是。
说好的变化
9级增加 96 人 10级增加 17 人 8级增加 614 人
看来大家都有努力的在家抵御疫情嘛
上一次统计指路 https://www.mcbbs.net/thread-1029988-1-1.html
一些吐槽?
其实最开始是想顺便爬下隔壁某个八百万注册量的 mc 论坛的,不过服务器位于海外,爬取过程中经常联机超时,所以到现在才爬取到 2837121 个用户,这岂不是要 10 天才能爬完?所以就直接结束了。
有趣的是这个八百万注册量的论坛,虽然我只爬了两百来万,但是其中零在线时间的用户占比是 0.95811233039,可以说用户粘性非常低了。
对比 mcbbs,mcbbs 是 0.56074450011,高了一些。不过零回帖的比零发帖的要多,有点想不通。
开源
一如既往的开源,依然是 mit 协议。
https://github.com/xmdhs/creditget
这次大概是通用的,也就是你只需简单的修改配置文件,就能给其他的论坛弄一个排名什么的。不过如果没有开放 discuz api 就没辙了。
数据库懒得下载和上传所以这次就没有了,反正你也能爬不是吗。