积分统计 2023.01

本来按照之前的习惯,去年十月份左右就会进行这次的统计。但是因为论坛关闭了移动端的 api,导致之前编写的爬虫无法使用,加上那一段时间比较忙,忘了,最近才想起来。

本次统计使用的爬虫依旧是 Go 编写,不过也大改了,相当于重写了一遍。数据库储存改为了 tidb ,所谓了分布式数据库(兼容 mysql,图 tidb 免费提供的 5g 数据库)。

所以这次可以弄一些比较有趣的东西,比如排名查询,界面嘛,能用就行。

此次爬取,论坛的反 cc 工具策略比之前严格了许多。之前的策略是一段时间内访问用户资料超过上限,就会封 15 分钟左右。

现在不仅有这个机制,而且似乎还有另一个隐形条件,超过封禁一天。

这就很难受了。

不过因为这次采用了 MySQL,所以可以在多个设备上进行爬取。虽然之前 sqlite 也可以,但是合并数据多少有点麻烦。

使用了一个刷成 debian 的随身 wifi 棒,可以说是非常适合跑爬虫了,本身的性能不足,硬盘也烂,但是储存在 mysql 就没问题了爬虫也不需要性能。耗电量也低。

被 403 了重启路由器就好了。

本身的话,只依靠这个设备也够爬完了,但是因为第一次解析 html 获取积分信息,出现了两次 bug,每次发现时,都已经爬了几百万了。

这样下去就很无止境。所以之后就利用自己的 vps,旧手机(不得不说 Go 的交叉编译是真好用)进行爬取。

旧手机使用手机流量,被 403 也是开下飞行模式再取消就好。

当然这种方案其实并不是很好,但是我也不是搞爬虫的,能用就行嘛。

本次爬取开始于 1/4 结束于 1/8,还算理想。