Citadel Datathon Assessment 經驗復盤｜題型 + 評分維度 + VO代面 / VO輔助路徑

Citadel Datathon Assessment 是 Quant Research / Data Science 岗位繞不過去的一關。和 SDE OA 不一樣，它考的不是寫得多快，而是「拿到一份混亂資料後，能不能在 24 小時內講清楚一個故事」。本篇是 oavoservice 學員復盤匯總：題型、評分維度、踩坑、VO代面 / VO輔助的邊界。

一、Citadel Datathon Assessment 的考察形態

通常有兩種形態：

形態	說明	時長
Take-home Datathon	給一份資料集 + 模糊問題，自己定義假設	24 小時
Live Datathon	現場視訊會議，分析 + 答辯	3–5 小時

學員遇到的樣本裡 take-home 占比約 70%。Live Datathon 通常用於 finalist 階段，類似 onsite 的 panel。

二、四段式題型：清洗 → 探索 → 建模 → 報告

階段 1：資料清洗（約 20% 時間）

題面通常說「資料可能有缺失、有錯誤、有重複」，但 不會告訴你具體在哪裡。需要主動發現：

型別不一致：日期一會兒是字串一會兒是 epoch
缺失值：有的欄位 NaN，有的欄位用 -999 表示缺失
異常值：報價 0 / 負價格 / 100 萬倍異常單位

import pandas as pd

def clean(df):
    df = df.copy()
    df['ts'] = pd.to_datetime(df['ts'], errors='coerce')
    df = df.dropna(subset=['ts'])
    df = df[df['price'].between(0.01, 1e5)]
    df = df.drop_duplicates(subset=['id', 'ts'])
    return df

踩坑提醒：直接 dropna() 會讓你損失 30% 資料，但 不解釋為什麼 drop 會被扣大分。要在報告裡寫一段「資料可用性約束」。

階段 2：探索性分析（約 25% 時間）

EDA 是評分大頭。學員復盤裡多次提到 reviewer 在意：

分組比較：按時間 / 類別拆分均值與方差
相關性 / 互資訊矩陣
視覺化基本功：直方圖、散點、時序圖三件套
穩健性檢查：去掉極端值後結論是否穩定

避免雷區：只貼一張相關係數熱力圖就開始建模。reviewer 想看到「為什麼選這兩個特徵」，而不只是「這兩個特徵相關性 0.8」。

階段 3：建模（約 30% 時間）

Citadel 不期待 SOTA 模型，期待一個能講清楚的模型。學員實測高分模板：

from sklearn.linear_model import Ridge
from sklearn.model_selection import TimeSeriesSplit
import numpy as np

def fit_and_eval(X, y):
    tscv = TimeSeriesSplit(n_splits=5)
    rmses = []
    for tr, va in tscv.split(X):
        model = Ridge(alpha=1.0).fit(X[tr], y[tr])
        pred = model.predict(X[va])
        rmses.append(np.sqrt(np.mean((pred - y[va]) ** 2)))
    return np.mean(rmses), np.std(rmses)

關鍵加分項：

用 TimeSeriesSplit 而不是 KFold（金融時序資料 leakage 風險）
報告裡寫「為什麼 Ridge 而不是 XGBoost」（可解釋性 vs 擬合能力 trade-off）
給出一個 baseline（持平 / 上次值），讓 reviewer 知道你的模型確實有 alpha

階段 4：報告（約 25% 時間）

很多學員把 80% 時間花在前三步、20% 寫報告，但 reviewer 50% 的注意力都在報告上。

報告結構（學員實測有效模板）：

摘要（半頁）：3 個 bullet 寫結論，1 個數字寫信心度
問題定義：你怎麼理解這個模糊問題
資料可用性：清洗了多少、丟了多少、為什麼
EDA 關鍵發現：3–5 張圖，每張配一句結論
建模與驗證：模型選擇理由 + 交叉驗證 + baseline 比較
局限與下一步：reviewer 喜歡看「你知道你不知道什麼」
附錄：完整程式碼 / 長圖

三、評分維度（學員從 reviewer feedback 反推）

維度	權重	表現良好的標誌
資料敏銳度	25%	主動發現 -999 / 異常單位
統計嚴謹性	25%	用 TimeSeriesSplit、留意 leakage
視覺化品質	15%	標軸、圖例、配色專業
建模合理性	15%	模型選型有理由，有 baseline
敘事清晰度	20%	摘要能讓一個 PM 看懂

四、3 天衝刺方案

天數	任務
D1	EDA 工作流模板（pandas + seaborn + matplotlib）熟練化
D2	時序建模 baseline + Ridge / Lasso / Tree 三件套
D3	完整 mock：3 小時清洗 + EDA + 建模 + 報告

五、VO代面 / VO輔助在 Datathon 的實戰路徑

Datathon 大多以 take-home 形式發出，不直接錄影。但提交後通常會有 跟進 panel：

Quant interviewer 會 逐圖追問：這張圖為什麼這樣畫
會 追問統計基礎：你用的 p-value 是單側還是雙側
會 追問業務直覺：如果策略真上線，最大尾部風險在哪

oavoservice 在 Datathon 全流程提供：

Take-home 階段：思路梳理、報告結構 review、關鍵決策陪練
Mock panel：模擬 reviewer 逐圖追問
建模思路 + 敘事節奏陪練
Panel 當天：即時 cue 與提示，應對追問

FAQ

Citadel Datathon 難度比 SDE OA 高嗎？

不是「更難」，是 維度不同。SDE OA 考速度與正確率，Datathon 考敘事與判斷。

Citadel Datathon 必須用 Python 嗎？

絕大多數學員用 Python。R 和 Julia 也接受，但程式碼可讀性會被以「reviewer 是否熟悉這門語言」為前提評估。

Datathon 提交後多久收回饋？

通常 1–2 週。Live panel 邀請會在回饋後 1 週內到。

沒做 finance 專案可以投 Citadel Datathon 嗎？

可以。學員裡有相當一部分背景是物理 / 統計 / CS，只要資料故事講得清楚，行業經驗不是必須。

VO代面 / VO輔助在 Datathon panel 階段能做什麼？

mock panel + 追問預演 + 報告結構復盤 + panel 當天即時 cue。從 take-home 到 panel 全流程都有 mentor 陪同。

正在準備 Citadel / Citadel Securities Datathon？

oavoservice 追蹤 Citadel Datathon 已超過 2 年，mentor 來自一線 quant / data science 團隊。提供 take-home 復盤、報告結構 review、mock panel、VO代面 / VO輔助 等服務。

👉 立即新增微信：Coding0201，獲取 Citadel Datathon 經驗復盤與 VO輔助路徑。

聯絡方式

Email: [email protected]
Telegram: @OAVOProxy

Citadel Datathon Assessment 經驗復盤｜題型 + 評分維度 + VO代面 / VO輔助 路徑