Anthropic(Claude 母公司)的招聘流程在 frontier AI lab 里独树一帜:take-home + Constitution AI 价值观面试 是别家没有的,模型行为评估 / 系统设计 / 长 BQ 三档每档都难。本篇按完整链路从 OA 到 offer 拆解每一轮,给出考察点与 OA辅助 / VO辅助 实战路径。
Anthropic 招聘流程速览
| 轮次 | 形式 | 时长 | 主考方向 |
|---|---|---|---|
| Recruiter Screen | 电话 | 30 分钟 | 经历 + 安全价值观 + 期望 |
| OA(部分岗位) | Coderpad / take-home | 60–90 分钟 | LLM 推理 / 评估 / RAG |
| Take-home | 异步任务 | 2–4 小时 | 真实业务问题 |
| 技术面 1 | 视频 | 60 分钟 | LLM 工程 + 模型评估 |
| 技术面 2 | 视频 | 60 分钟 | 系统设计 / RAG / 工具调用 |
| Values + BQ | 视频 | 60 分钟 | Constitution 价值观 + 行为面 |
| Manager Round | 视频 | 30–60 分钟 | 团队 fit + 长期方向 |
第一步:OA / Take-home
题型分类
Anthropic 不是所有岗位都有 OA。Research / Research Engineer / Applied AI / SWE 是否有 OA 取决于 hiring manager:
- Research Engineer:take-home 居多(~3 小时实现一个 LLM 评估 pipeline)
- Applied AI:60–90 分钟 Coderpad(LLM 输出解析 / 评估 / RAG)
- SWE:偶尔走 LeetCode-style OA,但更多是 take-home
真题 1:评估 pipeline(take-home)
「给定一个 LLM API endpoint 和 100 道数学题,设计一个评估 pipeline。要求:
- 调用 API 并 robust parse 数字答案
- 处理 rate limit / retry
- 输出 accuracy + 哪些题被错答 + per-category breakdown」
Python 解法骨架
import re
import time
import requests
def robust_parse_number(output):
pattern = r'(?:final answer|answer)[:\s]*([\-]?\d+(?:\.\d+)?)'
m = re.search(pattern, output, re.IGNORECASE)
if m:
return float(m.group(1))
nums = re.findall(r'[\-]?\d+(?:\.\d+)?', output)
return float(nums[-1]) if nums else None
def evaluate(api_call, problems):
correct = 0
wrong = []
for p in problems:
for attempt in range(5):
try:
resp = api_call(p['prompt'])
pred = robust_parse_number(resp)
if pred is not None and abs(pred - p['gt']) < 1e-6:
correct += 1
else:
wrong.append((p['id'], resp, p['gt']))
break
except Exception as e:
time.sleep(2 ** attempt)
return correct / len(problems), wrong
考察点:robust parsing、retry 设计、可读的代码风格、单元测试覆盖率。
真题 2:模型行为评估(Coderpad)
「给定 LLM 输出 + safety policy,判断是否违规。设计一个评估函数并解释你的 tradeoff。」
考察点:能不能把「政策细节」转成「可测试的代码逻辑」。
第二步:技术面(LLM 工程 + 系统设计)
技术面 1 - LLM 工程
- 数值稳定的 softmax + cross-entropy(pure numpy)
- KV cache 的 in-place 写入
- Top-k / Top-p sampling 的 numpy 实现
- 评估 metric 的 trade-off(exact match vs LLM-as-judge)
技术面 2 - 系统设计
- 「设计一个 RAG 系统支持 100M 文档检索 + 10 QPS」
- 「设计一个 tool-calling agent,要求可恢复、可回滚、可审计」
- 「设计 Claude 的 long context(200k)serving 架构」
应答框架
- 澄清 scale 数字:QPS、文档数、context 长度
- 画 数据流图:从用户输入到模型输出每一步
- 标 trade-off:召回 vs latency、retraining 频率 vs 数据漂移
- 估算 成本:H100 节点数 / GPU-hour
第三步:Constitution + BQ 面
Anthropic 独有的轮次。
题面特征
- 「如果 Claude 拒绝了用户的合法请求,你怎么 debug?」
- 「safety vs helpfulness 的 trade-off:你会怎么权衡?」
- 「分享一个你做过的 paper,最让你不安的发现是什么?」
应答原则
- 真诚 > 完美:Anthropic 偏好「能讲清楚自己价值观」的候选人
- case-by-case > 绝对化:不要说「永远不应该 X」,要说「在 X 情况下我会 Y」
- 承认局限:知道自己不知道什么
Anthropic 招聘流程时长
| 节点 | 中位 |
|---|---|
| Recruiter 到第一轮 | 5–10 天 |
| Take-home 到技术面 | 1–2 周 |
| 全流程 | 4–8 周 |
通过率:社区反馈 OA / take-home ~40%,完整 onsite ~15%,offer ~8%。
OA辅助 + VO辅助 实战路径
oavoservice 的全流程辅助
- Take-home 复盘:mentor 帮你按 Anthropic 评分维度做 code review(rubric + safety + 可读性)
- LLM 工程模拟:每天一道 numpy 题,含数值稳定 + KV cache 真题骨架
- 系统设计剧本:RAG / agent / long context serving 三套白板剧本
- Constitution 面演练:mentor 扮演面试官,做「safety vs helpfulness」追问
Anthropic 招聘的特殊难点
Anthropic 面试官普遍不走 STAR 套路,喜欢长追问。我们见过候选人 LLM 工程满分但 Constitution 面被追问「为什么这样想」三轮挂掉。VO辅助 学员我们会逐题模拟追问 + 复盘价值观回答。
具体方案与报价,加微信 Coding0201 沟通。
FAQ
Anthropic 所有岗位都有 OA 吗?
不是。Research / Research Engineer 多走 take-home;Applied AI 偶尔 Coderpad;SWE 更多走简历 + take-home。
Take-home 用什么语言?
Python 占 ~85%(因为 Anthropic 内部主力是 Python)。允许使用任何 LLM API 工具,但不能在 take-home 文档里隐瞒。
Constitution 面准备多久?
至少 1 周。读完 Anthropic 公开的 Constitutional AI paper + Acceptable Use Policy,再用 10 道场景题模拟追问。
没拿到 offer 冷却期?
12 个月。换岗位(Research → Applied AI)一般另算池子。
正在准备 Anthropic / OpenAI / Mistral / Cohere 招聘?
oavoservice 长期追踪 frontier AI lab 的 OA / take-home / VO 真题。mentor 来自一线 LLM / Infra / RLHF 团队,可以提供 take-home 复盘、LLM 工程模拟、系统设计剧本、Constitution 面演练 等 OA辅助 / VO辅助 服务。
👉 立即添加微信:Coding0201,获取 Anthropic 完整招聘流程与 OA辅助 + VO辅助 方案。
联系方式
Email: [email protected]
Telegram: @OAVOProxy