Citadel Datathon Assessment 经验复盘｜题型 + 评分维度 + VO代面 / VO辅助路径

Citadel Datathon Assessment 是 Quant Research / Data Science 岗位绕不过去的一关。和 SDE OA 不一样，它考的不是写得多快，而是「拿到一份混乱数据后，能不能在 24 小时内讲清楚一个故事」。本篇是 oavoservice 学员复盘汇总：题型、评分维度、踩坑、VO代面 / VO辅助的边界。

一、Citadel Datathon Assessment 的考察形态

它通常有两种形态：

形态	说明	时长
Take-home Datathon	给一份数据集 + 模糊问题，自己定义假设	24 小时
Live Datathon	现场视频会议，分析 + 答辩	3–5 小时

学员遇到的样本里 take-home 占比约 70%。Live Datathon 通常用于 finalist 阶段，类似 onsite 的 panel。

二、四段式题型：清洗 → 探索 → 建模 → 报告

阶段 1：数据清洗（约 20% 时间）

题面通常说「数据可能有缺失、有错误、有重复」，但不会告诉你具体在哪里。需要你主动发现：

类型不一致：日期一会儿是字符串一会儿是 epoch
缺失值：有的列 NaN，有的列用 -999 表示缺失
异常值：报价 0 / 负价格 / 100 万倍异常单位

import pandas as pd

def clean(df):
    df = df.copy()
    df['ts'] = pd.to_datetime(df['ts'], errors='coerce')
    df = df.dropna(subset=['ts'])
    df = df[df['price'].between(0.01, 1e5)]
    df = df.drop_duplicates(subset=['id', 'ts'])
    return df

踩坑提醒：直接 dropna() 会让你损失 30% 数据，但 不解释为什么 drop 会被扣大分。要在报告里写一段「数据可用性约束」。

阶段 2：探索性分析（约 25% 时间）

EDA 是评分大头。学员复盘里多次提到 reviewer 在意：

分组比较：按时间 / 类别拆分均值与方差
相关性 / 互信息矩阵
可视化基本功：直方图、散点、时序图三件套
稳健性检查：去掉极端值后结论是否稳定

避免雷区：只贴一张相关系数热力图就开始建模。reviewer 想看到「为什么选这两个特征」，而不只是「这两个特征相关性 0.8」。

阶段 3：建模（约 30% 时间）

Citadel 不期待 SOTA 模型，期待一个能讲清楚的模型。学员实测高分模板：

from sklearn.linear_model import Ridge
from sklearn.model_selection import TimeSeriesSplit
import numpy as np

def fit_and_eval(X, y):
    tscv = TimeSeriesSplit(n_splits=5)
    rmses = []
    for tr, va in tscv.split(X):
        model = Ridge(alpha=1.0).fit(X[tr], y[tr])
        pred = model.predict(X[va])
        rmses.append(np.sqrt(np.mean((pred - y[va]) ** 2)))
    return np.mean(rmses), np.std(rmses)

关键加分项：

用 TimeSeriesSplit 而不是 KFold（金融时序数据 leakage 风险）
报告里写「为什么 Ridge 而不是 XGBoost」（可解释性 vs 拟合能力 trade-off）
给出一个 baseline（持平 / 上次值），让 reviewer 知道你的模型确实有 alpha

阶段 4：报告（约 25% 时间）

很多学员把 80% 时间花在前三步、20% 写报告，但 reviewer 50% 的注意力都在报告上。

报告结构（学员实测有效模板）：

摘要（半页）：3 个 bullet 写结论，1 个数字写置信
问题定义：你怎么理解这个模糊问题
数据可用性：清洗了多少、丢了多少、为什么
EDA 关键发现：3–5 张图，每张配一句结论
建模与验证：模型选择理由 + 交叉验证 + baseline 比较
局限与下一步：reviewer 喜欢看「你知道你不知道什么」
附录：完整代码 / 长图

三、评分维度（学员从 reviewer feedback 反推）

维度	权重	表现良好的标志
数据敏锐度	25%	主动发现 -999 / 异常单位
统计严谨性	25%	用 TimeSeriesSplit、留意 leakage
可视化质量	15%	标轴、图例、配色专业
建模合理性	15%	模型选型有理由，有 baseline
叙事清晰度	20%	摘要能让一个 PM 看懂

四、3 天冲刺方案

天数	任务
D1	EDA 工作流模板（pandas + seaborn + matplotlib）熟练化
D2	时序建模 baseline + Ridge / Lasso / Tree 三件套
D3	完整 mock：3 小时清洗 + EDA + 建模 + 报告

五、VO代面 / VO辅助在 Datathon 的实战路径

Datathon 大多以 take-home 形式发出，不直接录像。但提交后通常会有 跟进 panel：

Quant interviewer 会逐图追问：这张图为什么这样画
会追问统计基础：你用的 p-value 是单侧还是双侧
会追问业务直觉：如果策略真上线，最大尾部风险在哪

oavoservice 在 Datathon 全流程提供：

Take-home 阶段：思路梳理、报告结构 review、关键决策陪练
Mock panel：模拟 reviewer 逐图追问
建模思路 + 叙事节奏陪练
Panel 当天：实时 cue 与提示，应对追问

FAQ

Citadel Datathon 难度比 SDE OA 高吗？

不是「更难」，是 维度不同。SDE OA 考速度与正确率，Datathon 考叙事与判断。

Citadel Datathon 必须用 Python 吗？

绝大多数学员用 Python。R 和 Julia 也接受，但代码可读性会被以「reviewer 是否熟悉这门语言」为前提评估。

Datathon 提交后多久收反馈？

通常 1–2 周。Live panel 邀请会在反馈后 1 周内到。

没做 finance 项目可以投 Citadel Datathon 吗？

可以。学员里有相当一部分背景是物理 / 统计 / CS，只要数据故事讲得清楚，行业经验不是必须。

VO代面 / VO辅助在 Datathon panel 阶段能做什么？

mock panel + 追问预演 + 报告结构复盘 + panel 当天实时 cue。从 take-home 到 panel 全流程都有 mentor 陪同。

正在准备 Citadel / Citadel Securities Datathon？

oavoservice 跟踪 Citadel Datathon 已超过 2 年，mentor 来自一线 quant / data science 团队。提供 take-home 复盘、报告结构 review、mock panel、VO代面 / VO辅助 等服务。

👉 立即添加微信：Coding0201，获取 Citadel Datathon 经验复盘与 VO辅助路径。

联系方式

Email: [email protected]
Telegram: @OAVOProxy

Citadel Datathon Assessment 经验复盘｜题型 + 评分维度 + VO代面 / VO辅助 路径