← 返回博客列表 Citadel Datathon Assessment 经验复盘|题型 + 评分维度 + VO代面 / VO辅助 路径
Citadel

Citadel Datathon Assessment 经验复盘|题型 + 评分维度 + VO代面 / VO辅助 路径

2026-05-26

Citadel Datathon Assessment 是 Quant Research / Data Science 岗位绕不过去的一关。和 SDE OA 不一样,它考的不是写得多快,而是「拿到一份混乱数据后,能不能在 24 小时内讲清楚一个故事」。本篇是 oavoservice 学员复盘汇总:题型、评分维度、踩坑、VO代面 / VO辅助 的边界。


一、Citadel Datathon Assessment 的考察形态

它通常有两种形态:

形态 说明 时长
Take-home Datathon 给一份数据集 + 模糊问题,自己定义假设 24 小时
Live Datathon 现场视频会议,分析 + 答辩 3–5 小时

学员遇到的样本里 take-home 占比约 70%。Live Datathon 通常用于 finalist 阶段,类似 onsite 的 panel。


二、四段式题型:清洗 → 探索 → 建模 → 报告

阶段 1:数据清洗(约 20% 时间)

题面通常说「数据可能有缺失、有错误、有重复」,但不会告诉你具体在哪里。需要你主动发现:

import pandas as pd

def clean(df):
    df = df.copy()
    df['ts'] = pd.to_datetime(df['ts'], errors='coerce')
    df = df.dropna(subset=['ts'])
    df = df[df['price'].between(0.01, 1e5)]
    df = df.drop_duplicates(subset=['id', 'ts'])
    return df

踩坑提醒:直接 dropna() 会让你损失 30% 数据,但 不解释为什么 drop 会被扣大分。要在报告里写一段「数据可用性约束」。


阶段 2:探索性分析(约 25% 时间)

EDA 是评分大头。学员复盘里多次提到 reviewer 在意:

  1. 分组比较:按时间 / 类别拆分均值与方差
  2. 相关性 / 互信息矩阵
  3. 可视化基本功:直方图、散点、时序图三件套
  4. 稳健性检查:去掉极端值后结论是否稳定

避免雷区:只贴一张相关系数热力图就开始建模。reviewer 想看到「为什么选这两个特征」,而不只是「这两个特征相关性 0.8」。


阶段 3:建模(约 30% 时间)

Citadel 不期待 SOTA 模型,期待一个能讲清楚的模型。学员实测高分模板:

from sklearn.linear_model import Ridge
from sklearn.model_selection import TimeSeriesSplit
import numpy as np

def fit_and_eval(X, y):
    tscv = TimeSeriesSplit(n_splits=5)
    rmses = []
    for tr, va in tscv.split(X):
        model = Ridge(alpha=1.0).fit(X[tr], y[tr])
        pred = model.predict(X[va])
        rmses.append(np.sqrt(np.mean((pred - y[va]) ** 2)))
    return np.mean(rmses), np.std(rmses)

关键加分项


阶段 4:报告(约 25% 时间)

很多学员把 80% 时间花在前三步、20% 写报告,但 reviewer 50% 的注意力都在报告上

报告结构(学员实测有效模板):

  1. 摘要(半页):3 个 bullet 写结论,1 个数字写置信
  2. 问题定义:你怎么理解这个模糊问题
  3. 数据可用性:清洗了多少、丢了多少、为什么
  4. EDA 关键发现:3–5 张图,每张配一句结论
  5. 建模与验证:模型选择理由 + 交叉验证 + baseline 比较
  6. 局限与下一步:reviewer 喜欢看「你知道你不知道什么」
  7. 附录:完整代码 / 长图

三、评分维度(学员从 reviewer feedback 反推)

维度 权重 表现良好的标志
数据敏锐度 25% 主动发现 -999 / 异常单位
统计严谨性 25% 用 TimeSeriesSplit、留意 leakage
可视化质量 15% 标轴、图例、配色专业
建模合理性 15% 模型选型有理由,有 baseline
叙事清晰度 20% 摘要能让一个 PM 看懂

四、3 天冲刺方案

天数 任务
D1 EDA 工作流模板(pandas + seaborn + matplotlib)熟练化
D2 时序建模 baseline + Ridge / Lasso / Tree 三件套
D3 完整 mock:3 小时清洗 + EDA + 建模 + 报告

五、VO代面 / VO辅助 在 Datathon 的实战路径

Datathon 大多以 take-home 形式发出,不直接录像。但提交后通常会有 跟进 panel

oavoservice 在 Datathon 全流程提供:


FAQ

Citadel Datathon 难度比 SDE OA 高吗?

不是「更难」,是 维度不同。SDE OA 考速度与正确率,Datathon 考叙事与判断。

Citadel Datathon 必须用 Python 吗?

绝大多数学员用 Python。R 和 Julia 也接受,但代码可读性会被以「reviewer 是否熟悉这门语言」为前提评估。

Datathon 提交后多久收反馈?

通常 1–2 周。Live panel 邀请会在反馈后 1 周内到。

没做 finance 项目可以投 Citadel Datathon 吗?

可以。学员里有相当一部分背景是物理 / 统计 / CS,只要数据故事讲得清楚,行业经验不是必须。

VO代面 / VO辅助 在 Datathon panel 阶段能做什么?

mock panel + 追问预演 + 报告结构复盘 + panel 当天实时 cue。从 take-home 到 panel 全流程都有 mentor 陪同。


正在准备 Citadel / Citadel Securities Datathon?

oavoservice 跟踪 Citadel Datathon 已超过 2 年,mentor 来自一线 quant / data science 团队。提供 take-home 复盘、报告结构 review、mock panel、VO代面 / VO辅助 等服务。

👉 立即添加微信:Coding0201获取 Citadel Datathon 经验复盘与 VO辅助 路径


联系方式

Email: [email protected]
Telegram: @OAVOProxy