洛谷小数据分析 - 下

本文采用CC-BY-NC-SA 4.0协议,转载请注明出处喵~(=^・ω・^).

前言

本文含有 AI Generated 内容,使用 GPTGemini 负责数据获取和数据分析,正文是手敲的,读者可以放心.
Fluu喜欢使用半角英文符号(排版方便),如观感不适请立即退出.

太上皇踏泰山 欲看盡帝王路
但是人造衛星 看得更真更早

绪论

Fluu想收集一些神秘网页,看了看自己 $1600$ 多个网页的收藏夹,决定开一个repo.
但这么做是不持久的,Fluu必须找一个稳定的源头.
哪里的神秘网页最多呢?当然是洛谷的个人简介.
于是这篇文章诞生了,收集神秘网页才是Fluu本来的目的,分析用户特征是顺带的事.

正文

团队从 $1000$ 开始,不是从 $1$ 开始,原因未知.

截至 $2026$ 年 $1$ 月 $25$ 日 $14:50\,(\mathrm{UTC}+8)$ ,洛谷共有约

个团队.
团队不能设置为不可见,数据应该是所见即所得.

分布

洛谷各种团队占比图表为:

可以看到洛谷的高级团队相当少.
不知道这些高级团队中处于试用期的有多少个…

现存团队中,每年团队的注册量大概有:

洛谷在蒸蒸日上.

顺带

Fluu在爬团队的时候发现一个有趣的现象,洛谷注册非常早的团队几乎全是”某某学校”这样的队名,推测洛谷早期试图和学校建立合作关系,账号”洛谷”手上有很多团队应该能佐证这个观点.

野榜

Fluu根据数据创建了几个野榜,不妨来看看里面有没有你.
因为这个榜一没公信力,二没时效性,所以看个乐就好,受限于篇幅只展示前100名.

团队人数最多

团队名 人数
《深入浅出》读者团队 7397
C++趣味编程及算法入门 3643
中华好花花 3323
四川省人工智能-信息学科普基地 3167
华中科技大学计算机科学与技术学院 2633
€€£官方团队 2013
新东方优编程 2001
大卫信奥 1673
未来姚班zyl粉丝团 1616
地球三体组织ETO官团 1278
柯桥信息学互联网社团 1228
广州图灵编程 1163
TJU养鸽场 1115
洛谷2019 OI夏令营 - 提高组 1076
重庆未来小瞳 1066
柯桥互联网信息学社团 950
洛谷2019 OI夏令营 - 普及组 946
DTS-数字技术产业学院 939
洛谷2019 OI春令营 - 提高组 920
洛谷2019 OI春令营 - 普及组 902
来追梦信息学 887
洛谷2018 OI夏令营 - 提高组 878
贝塔编程 871
武汉外国语学校 869
金外c++ 860
自创公开赛小组 842
Xgt_OIers 839
浴谷金秋线上集训营 提高组教学团队 831
小古银的不知名团队 804
2023 年 CSP 第一轮(初赛)课程 804
洛谷2018 OI夏令营 - 普及组 778
复旦附中2025程序设计课程 762
洛谷 中国最大的青少年感情咨询平台 737
2024 年 CSP 第一轮(初赛)课程 731
南阳理工软件学院 710
湖南工商大学ACM协会 698
洛谷新春OI集训营 - 提高教学团队 655
苏州吴中信奥第二期预备队 634
浴谷金秋线上集训营 普及组教学团队 633
洛谷大佬栖息地 629
洛谷 2020 算法竞赛春令营 - 基础组 609
编绘童年信息学奥赛团队 599
洛谷 2020 算法竞赛春令营 - 提高组 599
C++编程课(基础) 598
洛谷2018 OI冲刺秋令营 - 提高组 589
深圳职业技术大学 579
太戈编程 576
xxm集训 576
湖南工学院ACM队正式训练平台 575
冲冲冲冲1 575
人一我十,人百我万 574
算法初级、中级和进阶 557
xcpc训练 556
铁一启智 548
核桃编程—C++ 547
浴谷信息学夏令营 · 第一回 - 比赛 · 教学团队 540
洛谷新春OI集训营 - 普及教学团队 539
chen_zhe联盟 526
南武人工智能 518
图灵编程 514
反chen_zhe大队 513
洛谷2019 冲刺秋令营 - 提高组 512
洛阳信息学奥赛培训 508
“创智孵化”工作室 505
信息学奥赛启航课 500
洛谷 2020 算法竞赛夏令营 - 提高组 496
信息竞赛团队 494
洛谷算法竞赛秋令营 - 基础组/2024 488
洛谷 2020 算法竞赛夏令营 - 基础组 478
ENIAC 474
SToier 469
洛谷2019 OI春令营 - 基础省选 464
LTA集训队 464
walimaker 457
2022集训营 453
Hitsz 452
ACboy 451
山东省潍坊第一中学 450
洛谷2019 OI夏令营 - 基础省选 449
洛谷 2021 算法竞赛夏令营 - 基础组 449
JacoC++ 448
小说大团 444
挖土机! 444
demo 431
广大代码训练 430
洛谷算法竞赛秋令营 - 提高组/2024 430
睿达信奥 428
码上少年题库 428
游戏团队 425
桃李未来—比赛专用团队 422
XA强基班 419
上海理工大学XCPC竞赛训练 413
拓扑AC Programming 411
2025 年 CSP 第一轮(初赛)课程 411
逐梦计划 408
MINECRAFT之家 407
洛谷 2023 算法竞赛秋令营 - 基础组 407
mc爱好者群组 405
小赛码 信奥 404
洛谷 2021 算法竞赛夏令营 - 提高组 404

团队简介最长

团队名 简介长度
海纳中队Oiers 56418
04505 56364
小团队YYDS 55584
巴塞罗那球迷会 49817
dalao们的团队 42266
AK IOI团队 34008
自由小队 30631
信息学奥赛一本通【提高篇】学习团 24893
名字没有用 24557
magic team 19404
11111111111112331 19360
我的临时团队 18554
competition 17950
ZSSXOI 17384
zhouxi2022 17177
一个一个团队 15862
CYSY 15152
༺꧁枪枪爆头༒好运连连꧂༻ 15145
I_AK_IOI!!!AK_IOI!!!!!! 14044
@##########################@ 14044
#Dev-C++ 14044
潍坊北辰中学 13873
Otue 出题组 13704
10010 13680
#########################@ 13608
wyq’s team 13408
我的亲爱的同学们 13408
X-X 12561
noip 慧学慧玩 12082
只因你太美2 11240
玄联邦信息学协会 10893
j与w的交流群 10781
魔芋养佬院&蒟蒻灌水 10580
BrawlSansのBS聊天 10464
志达学生团队 10019
中国,加油!! 9829
一起编程C++ 9603
517暑假集训4期B1 9582
杀袁者团队 9504
students’ team 9454
刘老师互帮互助群2 8972
蒟蒻的进击 8764
qwertyuiopasdfghjklzxcvbnm 8575
666洛谷精英 8440
tt的团队 8185
mmo联机枪战 puss(bob) 7920
于洋老师の完美编程教室 7601
GLJ’sTeam 7564
黎明匣子(招人中) 7542
小小杀1n 7478
一个无聊的群 7125
hdkajscbkjaskjcbjsf 7074
aaaabbbbbb 6979
GLJ’s Team(副团) 6863
斗罗工作室(编外室) 6846
666磕到甲沟炎了 6702
朱雀星域 6604
Mon_zjc 6580
闲聊群(老六1) 6549
QCGCI 6524
手残不小心点到的团队 6504
rector工作室 6343
Flower 6300
中国计算机编程非正式研究协会 6253
队名被占了 6188
中国科学院 6176
开朗蒟蒻团 6104
交流c++(包含游戏,难题题解,也可水题) 6002
℘luogu℘ 5983
FNF CPP 团队02 5918
洛谷交流群@2 5873
ikun篮球队 5772
杀劳者团队 5642
114514队 5543
盐中OI队 5522
菜鸡团队,专收菜鸟 5486
114514 队 5432
拜大佬教 5428
衰子默的老六 5377
拜唐诺铭教 5347
God Ben’s Home 5346
异界•后驻团 5336
Sad Bee’s Home新闻组 5330
冲!冲!冲! 5330
Sad Bee’s Home 5291
Sad Bee’s Home六年级分部 5291
蒟蒻酱小队 5273
csm团队 5219
健宇理工大学信息队 5210
+-+ 5171
人有悲欢离合,月有阴晴圆缺。 5138
屠吉村(专业屠吉500年) 5106
乘风破浪队 5093
乖乖小队 5005
huang 4997
学车分老司机团 4990
进化 4970
Gorilla的迷你团队 4912
搞J咯~ 4909
———- 4844

团队名称最长

团队名 名称长度
Hongqi School’s experienced drivers 35
International Information Olympiad 34
Taiyuan Foreign Language School 31
Secure.Contain.Protect CN总部指挥局 30
FZU 2021 wrinter training div3 30
nice great wonderful excellent 30
#define ull unsigned long long 30
123456789012345678901234567890 30
CodingWenda Informatics League 30
SJTU academic trash collection 30
dimensionalen Fegefeuers stdio 30
ACMer Fan Club—AK Our Stories 30
「Together for a Shared Future」 30
Sestt Fans Autotune Club(SFAC) 30
Plain Craft Launcher 2 —— PCL2 30
NACAH 西北狼大神群工作室群(原西北狼大神群C/C++) 30
顶级代码大师精通C—,Jvav,Pa5cal,Pyth0n 30
Earth Trisolarans Organization 30
异想之乡(Home of the freakishness) 30
lixp and My_Youth CP fans club 30
Centr@ inte1igenta centr0-cbi- 30
Harry Potter’s Magic Awakening 30
泰州市第二中学附属监狱本部狱区22届数字化知识流通和贸易中心 30
stoMicrosoftNewspaper Official 30
͜͡L͜͜͡͡G͜͜͡͡J͜͜͡͡R͜͜͡͡T͜͜͡͡D͜͡ 30
https://nodes-escape.hzfe.org/ 30
Be the brightest star in life! 30
Black 7 Olympic in Informatics 30
Face the fear,build the future 30
《猫和老鼠(T&J.chase)》全球领事保护与文化探索中心 30
for(int i;i<=88;i++){cout<<i;} 30
AK CSP/NOIP/NOI/IOI, and USACO 30
oh no!!!!!!!!!!!!!!!!!!!!!!!!! 30
https://www.luogu.com.cn/team/ 30
EarthThree-bodyOrganization OI 30
Special Containment Procedures 30
N.L. Studios Computer Beautify 30
KLH AlgorithmicCompetitionTeam 30
Minecraft Qingchen Association 30
伏羲联邦合众国- United States of Fuxi 30
informatics games organization 30
gooooooooooooooooooooooooooood 30
We celebrate when we get “WA”! 30
妈妈说团队名字最多能取30个字不知道这个团队名字有没有超过呢 30
Friday Night Funkin Dev-C++ 团队 30
我的世界地下城(Minecraft Dungeons)讨论团 30
一个幻想世界SUSR(A.S 5000-C.S 15364) 30
可持久化非确定状态AC自动分块维护线段平衡仙人掌优化最小费用 30
RS (45th middle school branch) 30
ACACACACACACACACACACACACACAC++ 30
的一直第9999999999地锅((((七十班))))人机队 30
RPY小队(Rise to Prove Yourself ) 30
666666666666666666666666666666 30
https://oneclick.lenovo.com.cn 30
已经创建的团队无法删除,您作为团队主也无法退出但可以转让给他 30
Creatures&Phenomena【CEMasters】 30
c++交流团(为冲破CSP、GESP,东方博宜的禁锢的友团) 30
http//luogu.com.cn/team/101987 30
育六强团-Making Dreams Now(育才信奥分队) 30
xiaoli__xiaoli__xiaoli 30
Nan Hai Coding Club / 南海中学编程社团 30
redoildumplings红油老爷爷maybe也许not 30
dodo冒险队,一去不 复返。谁说他能永相伴,不过只是梦一场 30
1234qwedsazxcvfrtgbnhyujmkilop 30
Team of Testing for GeorgeDeng 30
洛谷外交团队;Luogu`s diplomatic team 30
CYQ C++(MIDEABOX[pro max])重生归来 30
123456789987654321123654789987 30
asdfghjklh6546h,yijktcnydvguiy 30
qwertyuiopasdfghjklzxcvbnm\\ 30
abcdefghijklmnopqrstuvwxyz2014 30
fy‘s information exchange team 30
cccccccccccccccccccccccccccccc 30
e——————————————e 30
111111111111111111111111111111 30
Long live the Communist Party! 30
54188045291781321389191435(秘密) 30
A Dream Comes True 以梦为马 不负韶华 30
111111111111111111112111111111 30
中国大陆山东省青岛市市南区青岛嘉峪关学校五·三中队专属讨论区 30
The Blessing of the Windchaser 30
406(钟杰琦于范凯航创)欢迎406班的17号,30号!!! 30
XG/‘if (!sleep) code(); ‘/LZ 30
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa 30
?????????????????????????????? 30
qwertyuiopasdfghjkl;;;zxcvbnmm 30
反抗 jr 大陆!!! jr 超坏!!! 不要相信他!!! 30
GZFLS[InternationalDepartment] 30
Tbyygy210502201412012412(NOI)) 30
AK_IOI WC NOI NOIP CSP-S CSP-J 30
110011100011001000101111000的背包 30
74 79 105 110 33(ascii)中级编程团队 29
Noilinux-CSP-NOI(P) Studio洛谷部 29
FZU 2021 winter training div3 29
ABCDEFGHIJKLMNOPQRSTUVWXYZ出题团 29
Where Is The Sign-In Question 29
工口美少女的脑瘫团队~CQSY GAME PLAYERS~ 29
Felder’s Private Contest Team 29
TheBindingOfIsaac: Repentance 29
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。 29

附录 PostScript

爬虫…?

访问洛谷的爬虫协议,可以看见以下内容:

1
2
3
4
User-Agent: *
Disallow: /record
Disallow: /recordnew
Disallow: /paste

Fluu的爬虫只爬取 https://www\.luogu\.com/team/\d+ ,是符合网站规范的.

因为爬取团队需要建立连接才能成功登录,仅靠cookie是不行的,登录后后才能获取团队的简介,而且洛谷国际站上没有团队的数据,所以Fluu用了 selenium 模块(其实是GPT说的)模拟建立链接的过程手动登录之后靠这个sessionid支撑对话,后续用python获取元素.

洛谷墙

Fluu第一次爬的时候没有设置爬取间隔,导致触发洛谷墙被ban IP了,现简单介绍一下洛谷墙:

大概是短时间内有500个请求就会触发洛谷墙,ban掉你的IP,持续时间约10min,然后自动解封,就能继续爬.
再触发洛谷墙的后果未知.”短时间”的计算方式也未知.

后续对每个请求设置了0.3s的间隔,再也没触发洛谷墙.

数据下载

为防范麻瓜,AI和bot,你需要通过特别的人机验证才能获得下载链接.

具体地,你需要解答这个题目,找到flag(保证有解)并正确提交拿到这个题的后门(backdoor)字符串后,把后门字符串提交到这个页面来获得下载链接(听起来很麻烦,实际上只需要做一道题就行了).

本文数据包含:

  • 爬到的数据
  • 爬虫代码
  • 画图代码

为防范CS某N,Fluu不能分享博客的markdown文件.

特别注意:

  1. 由于爬自己的user值会额外返回realname,email,phone等敏感信息,Fluu对数据集中关于自己的部分数据做了一点必要的修改.
  2. 由于上文神秘用户的存在,Fluu跳过了这个用户,没有ta的数据.
  3. 由于前期测试多线程的时候收到了两个429,部分数据的顺序有点混乱,不过有uid,问题不大.
  4. 由于Fluu不卖课,私聊Fluu要数据是无效的.

后门字符串的生成方式:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import secrets

charset = (
"abcdefghijklmnopqrstuvwxyz"
"ABCDEFGHIJKLMNOPQRSTUVWXYZ"
"0123456789"
"`-=[]\\;',./"
"~!@#$%^&*()_+{}|:\"<>?"
)

length = 32

random_string = ''.join(secrets.choice(charset) for _ in range(length))
print(random_string)

FluuArchive

这是一个收集神秘小网页的repo,目前是周更,致力于收集可能对大家有所帮助的网页,比如小游戏,或有意义的网站等,欢迎提交issue描述你认为好玩或能有所收获的网页,博文等.

没有NSFW内容,但网站可能有广告,在所难免…

我有个想法…

Fluu很希望与你合作!直接私信NaraFluorine即可.

致谢

Chat-GPT(Code大神)
Gemini3-fast(Code大神)
neise1(PWN大神)
chaoson(提供情绪价值)
GHL(Crypto大神)
kkksc03(for the Luogu platform)
python(任劳任怨)
All of you(广大用户为Fluu提供数据来源,Fluu在此谢过了)