本文采用CC-BY-NC-SA 4.0协议,转载请注明出处喵~(=^・ω・^).
前言
本文含有 AI Generated 内容,使用 GPT 和 Gemini 负责数据获取和数据分析,正文是手敲的,读者可以放心.
Fluu喜欢使用半角英文符号(排版方便),如观感不适请立即退出.
太上皇踏泰山 欲看盡帝王路
但是人造衛星 看得更真更早
绪论
Fluu想收集一些神秘网页,看了看自己 $1600$ 多个网页的收藏夹,决定开一个repo.
但这么做是不持久的,Fluu必须找一个稳定的源头.
哪里的神秘网页最多呢?当然是洛谷的个人简介.
于是这篇文章诞生了,收集神秘网页才是Fluu本来的目的,分析用户特征是顺带的事.
正文
团队从 $1000$ 开始,不是从 $1$ 开始,原因未知.
截至 $2026$ 年 $1$ 月 $25$ 日 $14:50\,(\mathrm{UTC}+8)$ ,洛谷共有约
个团队.
团队不能设置为不可见,数据应该是所见即所得.
分布
洛谷各种团队占比图表为:

可以看到洛谷的高级团队相当少.
不知道这些高级团队中处于试用期的有多少个…
现存团队中,每年团队的注册量大概有:

洛谷在蒸蒸日上.
顺带
Fluu在爬团队的时候发现一个有趣的现象,洛谷注册非常早的团队几乎全是”某某学校”这样的队名,推测洛谷早期试图和学校建立合作关系,账号”洛谷”手上有很多团队应该能佐证这个观点.

野榜
Fluu根据数据创建了几个野榜,不妨来看看里面有没有你.
因为这个榜一没公信力,二没时效性,所以看个乐就好,受限于篇幅只展示前100名.
团队人数最多
团队简介最长
团队名称最长
附录 PostScript
爬虫…?
访问洛谷的爬虫协议,可以看见以下内容:
1 | User-Agent: * |
Fluu的爬虫只爬取 https://www\.luogu\.com/team/\d+ ,是符合网站规范的.
因为爬取团队需要建立连接才能成功登录,仅靠cookie是不行的,登录后后才能获取团队的简介,而且洛谷国际站上没有团队的数据,所以Fluu用了 selenium 模块(其实是GPT说的)模拟建立链接的过程手动登录之后靠这个sessionid支撑对话,后续用python获取元素.
洛谷墙
Fluu第一次爬的时候没有设置爬取间隔,导致触发洛谷墙被ban IP了,现简单介绍一下洛谷墙:
大概是短时间内有500个请求就会触发洛谷墙,ban掉你的IP,持续时间约10min,然后自动解封,就能继续爬.
再触发洛谷墙的后果未知.”短时间”的计算方式也未知.
后续对每个请求设置了0.3s的间隔,再也没触发洛谷墙.
数据下载
为防范麻瓜,AI和bot,你需要通过特别的人机验证才能获得下载链接.
具体地,你需要解答这个题目,找到flag(保证有解)并正确提交拿到这个题的后门(backdoor)字符串后,把后门字符串提交到这个页面来获得下载链接(听起来很麻烦,实际上只需要做一道题就行了).
本文数据包含:
- 爬到的数据
- 爬虫代码
- 画图代码
为防范CS某N,Fluu不能分享博客的markdown文件.
特别注意:
- 由于爬自己的user值会额外返回realname,email,phone等敏感信息,Fluu对数据集中关于自己的部分数据做了一点必要的修改.
- 由于上文神秘用户的存在,Fluu跳过了这个用户,没有ta的数据.
- 由于前期测试多线程的时候收到了两个429,部分数据的顺序有点混乱,不过有uid,问题不大.
- 由于Fluu不卖课,私聊Fluu要数据是无效的.
后门字符串的生成方式:
1 | import secrets |
FluuArchive
这是一个收集神秘小网页的repo,目前是周更,致力于收集可能对大家有所帮助的网页,比如小游戏,或有意义的网站等,欢迎提交issue描述你认为好玩或能有所收获的网页,博文等.
没有NSFW内容,但网站可能有广告,在所难免…
我有个想法…
Fluu很希望与你合作!直接私信NaraFluorine即可.
致谢
Chat-GPT(Code大神)
Gemini3-fast(Code大神)
neise1(PWN大神)
chaoson(提供情绪价值)
GHL(Crypto大神)
kkksc03(for the Luogu platform)
python(任劳任怨)
All of you(广大用户为Fluu提供数据来源,Fluu在此谢过了)