← 返回部落格列表 Citadel Datathon Assessment 經驗復盤|題型 + 評分維度 + VO代面 / VO輔助 路徑
Citadel

Citadel Datathon Assessment 經驗復盤|題型 + 評分維度 + VO代面 / VO輔助 路徑

2026-05-26

Citadel Datathon Assessment 是 Quant Research / Data Science 岗位繞不過去的一關。和 SDE OA 不一樣,它考的不是寫得多快,而是「拿到一份混亂資料後,能不能在 24 小時內講清楚一個故事」。本篇是 oavoservice 學員復盤匯總:題型、評分維度、踩坑、VO代面 / VO輔助 的邊界。


一、Citadel Datathon Assessment 的考察形態

通常有兩種形態:

形態 說明 時長
Take-home Datathon 給一份資料集 + 模糊問題,自己定義假設 24 小時
Live Datathon 現場視訊會議,分析 + 答辯 3–5 小時

學員遇到的樣本裡 take-home 占比約 70%。Live Datathon 通常用於 finalist 階段,類似 onsite 的 panel。


二、四段式題型:清洗 → 探索 → 建模 → 報告

階段 1:資料清洗(約 20% 時間)

題面通常說「資料可能有缺失、有錯誤、有重複」,但 不會告訴你具體在哪裡。需要主動發現:

import pandas as pd

def clean(df):
    df = df.copy()
    df['ts'] = pd.to_datetime(df['ts'], errors='coerce')
    df = df.dropna(subset=['ts'])
    df = df[df['price'].between(0.01, 1e5)]
    df = df.drop_duplicates(subset=['id', 'ts'])
    return df

踩坑提醒:直接 dropna() 會讓你損失 30% 資料,但 不解釋為什麼 drop 會被扣大分。要在報告裡寫一段「資料可用性約束」。


階段 2:探索性分析(約 25% 時間)

EDA 是評分大頭。學員復盤裡多次提到 reviewer 在意:

  1. 分組比較:按時間 / 類別拆分均值與方差
  2. 相關性 / 互資訊矩陣
  3. 視覺化基本功:直方圖、散點、時序圖三件套
  4. 穩健性檢查:去掉極端值後結論是否穩定

避免雷區:只貼一張相關係數熱力圖就開始建模。reviewer 想看到「為什麼選這兩個特徵」,而不只是「這兩個特徵相關性 0.8」。


階段 3:建模(約 30% 時間)

Citadel 不期待 SOTA 模型,期待一個能講清楚的模型。學員實測高分模板:

from sklearn.linear_model import Ridge
from sklearn.model_selection import TimeSeriesSplit
import numpy as np

def fit_and_eval(X, y):
    tscv = TimeSeriesSplit(n_splits=5)
    rmses = []
    for tr, va in tscv.split(X):
        model = Ridge(alpha=1.0).fit(X[tr], y[tr])
        pred = model.predict(X[va])
        rmses.append(np.sqrt(np.mean((pred - y[va]) ** 2)))
    return np.mean(rmses), np.std(rmses)

關鍵加分項


階段 4:報告(約 25% 時間)

很多學員把 80% 時間花在前三步、20% 寫報告,但 reviewer 50% 的注意力都在報告上

報告結構(學員實測有效模板):

  1. 摘要(半頁):3 個 bullet 寫結論,1 個數字寫信心度
  2. 問題定義:你怎麼理解這個模糊問題
  3. 資料可用性:清洗了多少、丟了多少、為什麼
  4. EDA 關鍵發現:3–5 張圖,每張配一句結論
  5. 建模與驗證:模型選擇理由 + 交叉驗證 + baseline 比較
  6. 局限與下一步:reviewer 喜歡看「你知道你不知道什麼」
  7. 附錄:完整程式碼 / 長圖

三、評分維度(學員從 reviewer feedback 反推)

維度 權重 表現良好的標誌
資料敏銳度 25% 主動發現 -999 / 異常單位
統計嚴謹性 25% 用 TimeSeriesSplit、留意 leakage
視覺化品質 15% 標軸、圖例、配色專業
建模合理性 15% 模型選型有理由,有 baseline
敘事清晰度 20% 摘要能讓一個 PM 看懂

四、3 天衝刺方案

天數 任務
D1 EDA 工作流模板(pandas + seaborn + matplotlib)熟練化
D2 時序建模 baseline + Ridge / Lasso / Tree 三件套
D3 完整 mock:3 小時清洗 + EDA + 建模 + 報告

五、VO代面 / VO輔助 在 Datathon 的實戰路徑

Datathon 大多以 take-home 形式發出,不直接錄影。但提交後通常會有 跟進 panel

oavoservice 在 Datathon 全流程提供:


FAQ

Citadel Datathon 難度比 SDE OA 高嗎?

不是「更難」,是 維度不同。SDE OA 考速度與正確率,Datathon 考敘事與判斷。

Citadel Datathon 必須用 Python 嗎?

絕大多數學員用 Python。R 和 Julia 也接受,但程式碼可讀性會被以「reviewer 是否熟悉這門語言」為前提評估。

Datathon 提交後多久收回饋?

通常 1–2 週。Live panel 邀請會在回饋後 1 週內到。

沒做 finance 專案可以投 Citadel Datathon 嗎?

可以。學員裡有相當一部分背景是物理 / 統計 / CS,只要資料故事講得清楚,行業經驗不是必須。

VO代面 / VO輔助 在 Datathon panel 階段能做什麼?

mock panel + 追問預演 + 報告結構復盤 + panel 當天即時 cue。從 take-home 到 panel 全流程都有 mentor 陪同。


正在準備 Citadel / Citadel Securities Datathon?

oavoservice 追蹤 Citadel Datathon 已超過 2 年,mentor 來自一線 quant / data science 團隊。提供 take-home 復盤、報告結構 review、mock panel、VO代面 / VO輔助 等服務。

👉 立即新增微信:Coding0201獲取 Citadel Datathon 經驗復盤與 VO輔助 路徑


聯絡方式

Email: [email protected]
Telegram: @OAVOProxy