积分统计 2020.11

这是第二次积分统计,原文贴上。
值得一提的是,爬虫换成了 Go 编写,这也是之后一次积分统计用的爬虫。


模仿前人,时隔几个月后再次爬取一次看看论坛变化?

不过懒得写谁是这几个月内积分增长最多的之类的代码了,就是简单的重新爬取一般。

这次使用 Go 重写爬虫,占用内存大概是大大的降低了,不过 java 占用的 cpu 还是要稍稍少一些的。

爬取过程的一些信息

本次爬取是 11.2 0:00 左右开始爬取,11.5 19:37 左右结束,速度比上次快了很多呢。

爬取的账号有 有效账号/总爬取账号:3678119/3709552

基本都能覆盖到,不过因为操作失误,所以爬取的人数比预取的少一点点。

相关排名

为了避开相关的敏感词,和节约排版时间,所以这次直接丢到 gitee 上了,国内网站,速度应该还不错。

总积分

人气

金粒

金锭

绿宝石

下界之星

贡献

爱心

钻石

勋章数

精华数

设置的黑名单数

在线时间

回帖数

主题数

好友数

空间查看次数

分积总

一些统计

组人数统计(不精准)

或者 https://gitee.com/xmdhs/bbsrank/tree/master/mcbbs (按住 shift 滚动滚轮左右移动)

其中顺便再爬了另外两个 mc 的论坛,纯属测试爬虫,不过其中的一个没有爬完整就是。

说好的变化

9级增加 96 人 10级增加 17 人 8级增加 614 人

看来大家都有努力的在家抵御疫情嘛

上一次统计指路 https://www.mcbbs.net/thread-1029988-1-1.html

一些吐槽?

其实最开始是想顺便爬下隔壁某个八百万注册量的 mc 论坛的,不过服务器位于海外,爬取过程中经常联机超时,所以到现在才爬取到 2837121 个用户,这岂不是要 10 天才能爬完?所以就直接结束了。

有趣的是这个八百万注册量的论坛,虽然我只爬了两百来万,但是其中零在线时间的用户占比是 0.95811233039,可以说用户粘性非常低了。

对比 mcbbs,mcbbs 是 0.56074450011,高了一些。不过零回帖的比零发帖的要多,有点想不通。

开源

一如既往的开源,依然是 mit 协议。

https://github.com/xmdhs/creditget

这次大概是通用的,也就是你只需简单的修改配置文件,就能给其他的论坛弄一个排名什么的。不过如果没有开放 discuz api 就没辙了。

数据库懒得下载和上传所以这次就没有了,反正你也能爬不是吗。