Anthropic(Claude 母公司)的招聘流程在 frontier AI lab 裡獨樹一幟:take-home + Constitution AI 價值觀面試 是別家沒有的,模型行為評估 / 系統設計 / 長 BQ 三檔每檔都難。本篇按完整鏈路從 OA 到 offer 拆解每一輪,給出考察點與 OA輔助 / VO輔助 實戰路徑。
Anthropic 招聘流程速覽
| 輪次 | 形式 | 時長 | 主考方向 |
|---|---|---|---|
| Recruiter Screen | 電話 | 30 分鐘 | 經歷 + 安全價值觀 + 期望 |
| OA(部分崗位) | Coderpad / take-home | 60–90 分鐘 | LLM 推理 / 評估 / RAG |
| Take-home | 非同步任務 | 2–4 小時 | 真實業務問題 |
| 技術面 1 | 視訊 | 60 分鐘 | LLM 工程 + 模型評估 |
| 技術面 2 | 視訊 | 60 分鐘 | 系統設計 / RAG / 工具調用 |
| Values + BQ | 視訊 | 60 分鐘 | Constitution 價值觀 + 行為面 |
| Manager Round | 視訊 | 30–60 分鐘 | 團隊 fit + 長期方向 |
第一步:OA / Take-home
題型分類
Anthropic 不是所有崗位都有 OA。Research / Research Engineer / Applied AI / SWE 是否有 OA 取決於 hiring manager:
- Research Engineer:take-home 居多(~3 小時實作一個 LLM 評估 pipeline)
- Applied AI:60–90 分鐘 Coderpad(LLM 輸出解析 / 評估 / RAG)
- SWE:偶爾走 LeetCode-style OA,但更多是 take-home
真題 1:評估 pipeline(take-home)
「給定一個 LLM API endpoint 和 100 道數學題,設計一個評估 pipeline。要求:
- 呼叫 API 並 robust parse 數字答案
- 處理 rate limit / retry
- 輸出 accuracy + 哪些題被錯答 + per-category breakdown」
Python 解法骨架
import re
import time
import requests
def robust_parse_number(output):
pattern = r'(?:final answer|answer)[:\s]*([\-]?\d+(?:\.\d+)?)'
m = re.search(pattern, output, re.IGNORECASE)
if m:
return float(m.group(1))
nums = re.findall(r'[\-]?\d+(?:\.\d+)?', output)
return float(nums[-1]) if nums else None
def evaluate(api_call, problems):
correct = 0
wrong = []
for p in problems:
for attempt in range(5):
try:
resp = api_call(p['prompt'])
pred = robust_parse_number(resp)
if pred is not None and abs(pred - p['gt']) < 1e-6:
correct += 1
else:
wrong.append((p['id'], resp, p['gt']))
break
except Exception as e:
time.sleep(2 ** attempt)
return correct / len(problems), wrong
考察點:robust parsing、retry 設計、可讀的程式碼風格、單元測試覆蓋率。
真題 2:模型行為評估(Coderpad)
「給定 LLM 輸出 + safety policy,判斷是否違規。設計一個評估函式並解釋你的 tradeoff。」
考察點:能不能把「政策細節」轉成「可測試的程式碼邏輯」。
第二步:技術面(LLM 工程 + 系統設計)
技術面 1 - LLM 工程
- 數值穩定的 softmax + cross-entropy(pure numpy)
- KV cache 的 in-place 寫入
- Top-k / Top-p sampling 的 numpy 實作
- 評估 metric 的 trade-off(exact match vs LLM-as-judge)
技術面 2 - 系統設計
- 「設計一個 RAG 系統支援 100M 文件檢索 + 10 QPS」
- 「設計一個 tool-calling agent,要求可恢復、可回滾、可審計」
- 「設計 Claude 的 long context(200k)serving 架構」
應答框架
- 澄清 scale 數字:QPS、文件數、context 長度
- 畫 資料流圖:從使用者輸入到模型輸出每一步
- 標 trade-off:召回 vs latency、retraining 頻率 vs 資料漂移
- 估算 成本:H100 節點數 / GPU-hour
第三步:Constitution + BQ 面
Anthropic 獨有的輪次。
題面特徵
- 「如果 Claude 拒絕了使用者的合法請求,你怎麼 debug?」
- 「safety vs helpfulness 的 trade-off:你會怎麼權衡?」
- 「分享一個你做過的 paper,最讓你不安的發現是什麼?」
應答原則
- 真誠 > 完美:Anthropic 偏好「能講清楚自己價值觀」的候選人
- case-by-case > 絕對化:不要說「永遠不應該 X」,要說「在 X 情況下我會 Y」
- 承認局限:知道自己不知道什麼
Anthropic 招聘流程時長
| 節點 | 中位 |
|---|---|
| Recruiter 到第一輪 | 5–10 天 |
| Take-home 到技術面 | 1–2 週 |
| 全流程 | 4–8 週 |
通過率:社區反饋 OA / take-home ~40%,完整 onsite ~15%,offer ~8%。
OA輔助 + VO輔助 實戰路徑
oavoservice 的全流程輔助
- Take-home 複盤:mentor 幫你按 Anthropic 評分維度做 code review(rubric + safety + 可讀性)
- LLM 工程模擬:每天一道 numpy 題,含數值穩定 + KV cache 真題骨架
- 系統設計劇本:RAG / agent / long context serving 三套白板劇本
- Constitution 面演練:mentor 扮演面試官,做「safety vs helpfulness」追問
Anthropic 招聘的特殊難點
Anthropic 面試官普遍不走 STAR 套路,喜歡長追問。我們見過候選人 LLM 工程滿分但 Constitution 面被追問「為什麼這樣想」三輪掛掉。VO輔助 學員我們會逐題模擬追問 + 複盤價值觀回答。
具體方案與報價,加微信 Coding0201 溝通。
FAQ
Anthropic 所有崗位都有 OA 嗎?
不是。Research / Research Engineer 多走 take-home;Applied AI 偶爾 Coderpad;SWE 更多走履歷 + take-home。
Take-home 用什麼語言?
Python 占 ~85%(因為 Anthropic 內部主力是 Python)。允許使用任何 LLM API 工具,但不能在 take-home 文件裡隱瞞。
Constitution 面準備多久?
至少 1 週。讀完 Anthropic 公開的 Constitutional AI paper + Acceptable Use Policy,再用 10 道場景題模擬追問。
沒拿到 offer 冷卻期?
12 個月。換崗位(Research → Applied AI)一般另算池子。
正在準備 Anthropic / OpenAI / Mistral / Cohere 招聘?
oavoservice 長期追蹤 frontier AI lab 的 OA / take-home / VO 真題。mentor 來自一線 LLM / Infra / RLHF 團隊,可以提供 take-home 複盤、LLM 工程模擬、系統設計劇本、Constitution 面演練 等 OA輔助 / VO輔助 服務。
👉 立即添加微信:Coding0201,獲取 Anthropic 完整招聘流程與 OA輔助 + VO輔助 方案。
聯絡方式
Email: [email protected]
Telegram: @OAVOProxy