Citadel Datathon Assessment 是 Quant Research / Data Science 岗位绕不过去的一关。和 SDE OA 不一样,它考的不是写得多快,而是「拿到一份混乱数据后,能不能在 24 小时内讲清楚一个故事」。本篇是 oavoservice 学员复盘汇总:题型、评分维度、踩坑、VO代面 / VO辅助 的边界。
一、Citadel Datathon Assessment 的考察形态
它通常有两种形态:
| 形态 | 说明 | 时长 |
|---|---|---|
| Take-home Datathon | 给一份数据集 + 模糊问题,自己定义假设 | 24 小时 |
| Live Datathon | 现场视频会议,分析 + 答辩 | 3–5 小时 |
学员遇到的样本里 take-home 占比约 70%。Live Datathon 通常用于 finalist 阶段,类似 onsite 的 panel。
二、四段式题型:清洗 → 探索 → 建模 → 报告
阶段 1:数据清洗(约 20% 时间)
题面通常说「数据可能有缺失、有错误、有重复」,但不会告诉你具体在哪里。需要你主动发现:
- 类型不一致:日期一会儿是字符串一会儿是 epoch
- 缺失值:有的列 NaN,有的列用 -999 表示缺失
- 异常值:报价 0 / 负价格 / 100 万倍异常单位
import pandas as pd
def clean(df):
df = df.copy()
df['ts'] = pd.to_datetime(df['ts'], errors='coerce')
df = df.dropna(subset=['ts'])
df = df[df['price'].between(0.01, 1e5)]
df = df.drop_duplicates(subset=['id', 'ts'])
return df
踩坑提醒:直接 dropna() 会让你损失 30% 数据,但 不解释为什么 drop 会被扣大分。要在报告里写一段「数据可用性约束」。
阶段 2:探索性分析(约 25% 时间)
EDA 是评分大头。学员复盘里多次提到 reviewer 在意:
- 分组比较:按时间 / 类别拆分均值与方差
- 相关性 / 互信息矩阵
- 可视化基本功:直方图、散点、时序图三件套
- 稳健性检查:去掉极端值后结论是否稳定
避免雷区:只贴一张相关系数热力图就开始建模。reviewer 想看到「为什么选这两个特征」,而不只是「这两个特征相关性 0.8」。
阶段 3:建模(约 30% 时间)
Citadel 不期待 SOTA 模型,期待一个能讲清楚的模型。学员实测高分模板:
from sklearn.linear_model import Ridge
from sklearn.model_selection import TimeSeriesSplit
import numpy as np
def fit_and_eval(X, y):
tscv = TimeSeriesSplit(n_splits=5)
rmses = []
for tr, va in tscv.split(X):
model = Ridge(alpha=1.0).fit(X[tr], y[tr])
pred = model.predict(X[va])
rmses.append(np.sqrt(np.mean((pred - y[va]) ** 2)))
return np.mean(rmses), np.std(rmses)
关键加分项:
- 用 TimeSeriesSplit 而不是 KFold(金融时序数据 leakage 风险)
- 报告里写「为什么 Ridge 而不是 XGBoost」(可解释性 vs 拟合能力 trade-off)
- 给出一个 baseline(持平 / 上次值),让 reviewer 知道你的模型确实有 alpha
阶段 4:报告(约 25% 时间)
很多学员把 80% 时间花在前三步、20% 写报告,但 reviewer 50% 的注意力都在报告上。
报告结构(学员实测有效模板):
- 摘要(半页):3 个 bullet 写结论,1 个数字写置信
- 问题定义:你怎么理解这个模糊问题
- 数据可用性:清洗了多少、丢了多少、为什么
- EDA 关键发现:3–5 张图,每张配一句结论
- 建模与验证:模型选择理由 + 交叉验证 + baseline 比较
- 局限与下一步:reviewer 喜欢看「你知道你不知道什么」
- 附录:完整代码 / 长图
三、评分维度(学员从 reviewer feedback 反推)
| 维度 | 权重 | 表现良好的标志 |
|---|---|---|
| 数据敏锐度 | 25% | 主动发现 -999 / 异常单位 |
| 统计严谨性 | 25% | 用 TimeSeriesSplit、留意 leakage |
| 可视化质量 | 15% | 标轴、图例、配色专业 |
| 建模合理性 | 15% | 模型选型有理由,有 baseline |
| 叙事清晰度 | 20% | 摘要能让一个 PM 看懂 |
四、3 天冲刺方案
| 天数 | 任务 |
|---|---|
| D1 | EDA 工作流模板(pandas + seaborn + matplotlib)熟练化 |
| D2 | 时序建模 baseline + Ridge / Lasso / Tree 三件套 |
| D3 | 完整 mock:3 小时清洗 + EDA + 建模 + 报告 |
五、VO代面 / VO辅助 在 Datathon 的实战路径
Datathon 大多以 take-home 形式发出,不直接录像。但提交后通常会有 跟进 panel:
- Quant interviewer 会逐图追问:这张图为什么这样画
- 会追问统计基础:你用的 p-value 是单侧还是双侧
- 会追问业务直觉:如果策略真上线,最大尾部风险在哪
oavoservice 在 Datathon 全流程提供:
- Take-home 阶段:思路梳理、报告结构 review、关键决策陪练
- Mock panel:模拟 reviewer 逐图追问
- 建模思路 + 叙事节奏陪练
- Panel 当天:实时 cue 与提示,应对追问
FAQ
Citadel Datathon 难度比 SDE OA 高吗?
不是「更难」,是 维度不同。SDE OA 考速度与正确率,Datathon 考叙事与判断。
Citadel Datathon 必须用 Python 吗?
绝大多数学员用 Python。R 和 Julia 也接受,但代码可读性会被以「reviewer 是否熟悉这门语言」为前提评估。
Datathon 提交后多久收反馈?
通常 1–2 周。Live panel 邀请会在反馈后 1 周内到。
没做 finance 项目可以投 Citadel Datathon 吗?
可以。学员里有相当一部分背景是物理 / 统计 / CS,只要数据故事讲得清楚,行业经验不是必须。
VO代面 / VO辅助 在 Datathon panel 阶段能做什么?
mock panel + 追问预演 + 报告结构复盘 + panel 当天实时 cue。从 take-home 到 panel 全流程都有 mentor 陪同。
正在准备 Citadel / Citadel Securities Datathon?
oavoservice 跟踪 Citadel Datathon 已超过 2 年,mentor 来自一线 quant / data science 团队。提供 take-home 复盘、报告结构 review、mock panel、VO代面 / VO辅助 等服务。
👉 立即添加微信:Coding0201,获取 Citadel Datathon 经验复盘与 VO辅助 路径。
联系方式
Email: [email protected]
Telegram: @OAVOProxy