CS336 take-away + public LLM interview knowledge

给 AIPM 的 LLM 原理与落地知识库

不是课程网站,不是论文综述,而是一份方便查的产品判断手册:什么时候用 RAG,什么时候微调,怎么评测,怎么估成本,哪些八股需要懂到能和工程师对齐。

十条核心 take-away

  1. LLM 产品不是一个模型,而是一条系统链路。
  2. Token 是成本、上下文和延迟的共同单位。
  3. RAG 解决动态/私有/可引用知识,fine-tuning 解决稳定行为。
  4. 长上下文不是银弹,通常需要检索、重排、压缩和引用机制配合。
  5. 榜单只能初筛模型,产品必须有自己的黄金集和失败分类。
  6. Agent 的关键是受控工具调用、权限、审计和回滚。
  7. 数据质量决定 RAG、SFT 和评测上限。
  8. 推理成本来自输入、输出、并发、KV cache、模型大小和服务策略。
  9. 对齐训练改变模型行为偏好,不等于自动修复事实错误。
  10. AIPM 不必成为研究员,但要把神经网络、训练目标、agent 工作流和系统链路懂到能问对问题。

Capability Map

AI PM 能力地图

按“真正要补的能力”组织,而不是丢一堆收藏夹。先用这 6 类能力判断学习优先级,再进入知识卡和面试题。

1. AI 基础认知

AI 能做什么、不能做什么;数据、模型、任务、评估和组织落地之间的关系。

AIPM should ask

  • 这个问题是否真的适合 AI?
  • 失败通常来自数据、模型、流程还是组织?

5. AI 产品评估 / Evals

任务级评测、黄金集、失败分级、幻觉率、人工审核、灰度和反馈闭环。

AIPM should ask

  • 这个 AI 功能怎么算好?
  • 哪些失败不能上线?

Knowledge Cards

主题知识卡

overviewAIPM architecture product

LLM 产品栈:不是一个模型,而是一条系统链路

AIPM 不需要把每个 kernel 写出来,但必须知道问题发生在哪一层:模型能力、上下文、检索、工具、后训练、推理服务、评测与安全是不同层,不要用一个方案解决所有问题。

从输入到输出可以拆成:tokenization -> embeddings -> Transformer inference -> decoding -> optional retrieval/tools -> guardrails -> evaluation/monitoring。每层都有独立约束和成本。

AIPM should ask

  • 这个需求是模型本身不会,还是上下文没给够?
  • 需要 RAG、fine-tuning、agent,还是只是 prompt/template?
  • 主要瓶颈是准确率、延迟、成本、可解释性还是合规?

Common traps

  • 把所有问题都叫 hallucination。
  • 把模型 benchmark 分数当成产品体验。
  • 上线前没有定义任务级成功指标。
learning pathlearning AIPM foundations

AIPM 学习深度:懂到能问对问题,而不是背完公式

AIPM 最有效的学习路线是先建立可沟通的底层直觉:神经网络如何从输入变输出,loss 如何驱动参数更新,Transformer 为什么能看上下文,再进入 RAG、微调、评测和系统成本。

MLP、activation、gradient、matrix shape、tokenization、attention 和 decoding 是理解 LLM 行为的基础积木。PM 不必手推所有反向传播,但要知道这些概念分别对应能力、训练、推理和成本中的哪类约束。

AIPM should ask

  • 我现在是在补数学直觉、模型结构、训练方法,还是应用系统?
  • 这个概念能帮助我做产品决策吗?
  • 我是否能把它翻译成需求、指标、风险或工程问题?

Common traps

  • 从 RAG/agent 直接跳到调参,缺少模型行为直觉。
  • 沉迷公式细节却无法连接到产品判断。
  • 把“懂原理”等同于能训练大模型。
learning pathlearning AI PM roadmap capability

AI PM 能力路线图:先补 6 类能力,而不是刷 AI 新闻

AI PM 最该补的不是碎片新闻,而是六类可迁移能力:AI 基础认知、AI 产品设计、Prompt/LLM 产品能力、Agent/工具调用、AI 产品评估、负责任 AI/风险治理。产品基本功仍然是底座。

这条路线把学习目标从“知道很多工具”改成“能做产品判断”:AI 是否适合、用户失败时怎么办、prompt 何时不够、agent 如何授权、eval 如何定义、风险如何治理、商业化如何闭环。

AIPM should ask

  • 我现在补的是能力,还是只是在收藏资料?
  • 这个资源能帮我回答哪类产品决策问题?
  • 我是否能把学习结果沉淀成 checklist、case answer 或 PRD 模板?

Common traps

  • 泛泛追 AI 新闻,没有形成可复用判断框架。
  • 只学模型技术,不补产品发现、实验和商业化。
  • 只背 prompt 模板,不定义成功标准和评测。
product designdesign trust human-in-the-loop responsible-ai

AI 产品设计:核心是失败、信任、控制权和人机协作

AI 功能不是“加一个智能按钮”。AIPM 要设计用户何时信任、何时确认、如何理解模型不确定性、失败后怎么恢复、哪些动作必须 human-in-the-loop。

People + AI 的产品视角可以和 LLM 工程结合:模型输出需要解释、引用、置信边界、用户反馈、撤销/回滚、权限和升级路径。越高风险的场景,越不能把 AI 当黑盒自动化。

AIPM should ask

  • AI 失败时用户能发现并修正吗?
  • 用户是否有足够控制权,而不是被模型替他们做决定?
  • 哪些输出需要引用、解释或人工确认?

Common traps

  • 只优化自动化率,不设计失败恢复。
  • 用拟人化文案掩盖不确定性。
  • 高风险动作没有确认、撤销和审计。
career & collaborationcareer interview learning collaboration

LLM 能力图谱:概念、实现、实验设计和表达要同时练

无论是转岗、面试,还是和算法/工程团队共创,AIPM 不能只会讲概念。更可靠的能力组合是:知道原理边界,能读懂实验设计,理解从零实现的关键困难,并能把技术取舍讲成产品判断。

真实技术讨论常覆盖 ML coding、Transformer/debugging、decoding、实验设计、位置编码、并行训练、RLHF/GRPO 等宽主题。CS336 这类课程的价值在于把散乱知识组织成一张领域地图。

AIPM should ask

  • 我能否解释一个方案为什么失败,而不只是说模型不行?
  • 我能否把技术讨论转成指标、实验和下一步?
  • 我是否知道哪些概念需要会实现,哪些只需理解边界?

Common traps

  • 只背八股答案,不做实现和调试练习。
  • 只学产品案例,不理解模型/系统约束。
  • 把面试准备和实际工作能力割裂开。
interview intelinterview AI PM case career

面经雷达:AI PM 面试反复考“真实 AI 判断力”

公开面经里反复出现的信号很一致:公司想看候选人是否真的做过 AI 产品、能否把用户问题转成轻量 AI 方案、能否设计指标和实验,并能讲清模型能力、数据、风险和上线成本。

高频题型包括 AI product case、feature metric、technical discussion、ML/LLM breadth check、behavioral、stakeholder/leadership、take-home/design exercise。越接近 AI PM/agentic AI 岗,越会追问数据、评测、权限、ROI 和 demo 到 production 的落差。

AIPM should ask

  • 我有没有可展示的 AI proof-of-work?
  • 一个 AI feature case 里,我能讲清用户、数据、模型方案、评测和风险吗?
  • 我能把“懂 AI”落到真实项目决策,而不是只背术语吗?

Common traps

  • 只准备普通 PM case,不准备模型/数据/评测追问。
  • 只讲用了 ChatGPT,不讲用户问题和产品结果。
  • 把 AI demo 当成生产系统,没有 ROI 和风险意识。
interview intelcase-interview metrics AI PM evaluation

AI PM Case Loop:用一条固定链路回答开放题

面对“设计一个 AI 功能/agent/推荐系统”的面试题,可以用固定链路兜住不确定性:用户痛点 -> 任务定义 -> 数据/权限 -> 模型或 RAG/agent 方案 -> 评测指标 -> 失败模式 -> 上线与成本。

AI case 的核心不是炫模型名,而是展示你知道 AI 产品的不确定性来自哪里:数据分布、召回、模型能力、延迟成本、安全、反馈闭环、组织采纳和 ROI。

AIPM should ask

  • 这个 case 的 ground truth 从哪里来?
  • 哪些失败会伤害用户或业务?
  • 上线后如何监控质量、成本和人工介入率?

Common traps

  • 一上来就选模型。
  • 只讲用户体验,不讲数据和评测。
  • 没有分阶段 rollout 和人工兜底。
model basicstoken cost context

Tokenization:成本、边界和多语言体验的第一层

Token 是 LLM 的计费、上下文长度、延迟和多语言表现的基本单位。中文、代码、专业术语可能被切得更碎,产品上会直接影响成本和召回/生成质量。

常见 tokenizer 使用 BPE/byte-level BPE/SentencePiece 等,把文本映射成整数序列。模型并不直接看字符,而是看 token id 和 embedding。

AIPM should ask

  • 目标语言或行业术语的 token 膨胀率是多少?
  • 长文档进入上下文前是否先做 chunking 和摘要?
  • 用户可见字数与 token 预算之间如何换算?

Common traps

  • 用字符数估算成本。
  • 忽视中文、表格、代码、JSON 的 token 膨胀。
  • 把 tokenizer 当成无关实现细节。
model basicsattention transformer context

Attention/Transformer:理解上下文能力与长文本瓶颈

Transformer 的核心价值是让 token 之间建立关系;产品上表现为上下文理解、引用、指代消解、多步骤推理。但 attention 也带来长上下文成本和延迟问题。

自注意力用 Q/K/V 计算 token 间相关性,decoder-only 模型用 causal mask 只看过去 token。多头注意力让模型并行关注不同关系。

AIPM should ask

  • 任务是否真的需要长上下文,还是需要更好的检索/摘要?
  • 模型在长上下文中能否找到 needle,还是只是在窗口里塞东西?
  • 是否需要引用定位来证明答案来源?

Common traps

  • 认为上下文窗口越长一定越好。
  • 忽视长上下文下的首 token 延迟和成本。
  • 把 attention 解释成“模型理解一切”。
trainingpretraining data scaling

Pretraining:通用能力来自数据规模和 next-token objective

预训练解决“模型知道什么、语言能力如何”的底座问题;AIPM 通常不会自己预训练,但要理解为什么数据质量、版权、时效性和领域覆盖会限制模型。

主流 LLM 在大规模文本/代码/多模态数据上学习预测下一个 token。训练损失下降通常带来通用能力提升,但具体产品能力还依赖数据分布与评测。

AIPM should ask

  • 模型知识截止与业务知识更新怎么处理?
  • 领域数据缺口适合 RAG、SFT 还是继续预训练?
  • 数据版权、PII、污染和重复如何治理?

Common traps

  • 把预训练当成产品团队可轻易重做的事。
  • 以为更多数据必然更好。
  • 忽视数据清洗和去重。
training basicsloss gradient training evaluation

Loss/Gradient:训练不是记答案,而是优化一个代理目标

PM 理解 loss 和 gradient 的关键价值,是知道模型优化的是一个可计算代理目标,不一定等于用户真正想要的业务结果。很多对齐、评测和数据问题,本质上都是“目标定义错了或样本分布错了”。

Loss 衡量预测与目标的差距,gradient 表示参数变化会如何影响 loss,反向传播把误差信号传回各层。大模型训练、SFT、偏好优化和很多 reranker/embedding 训练都依赖这个优化范式。

AIPM should ask

  • 训练目标和产品成功指标一致吗?
  • 标注数据是否代表真实用户分布?
  • 优化一个指标是否会牺牲事实性、安全性或用户体验?

Common traps

  • 以为 loss 降低就等于产品变好。
  • 没有验证集和失败切片,只看总体分数。
  • 把训练问题误判为 prompt 或 UI 问题。
trainingSFT RLHF DPO alignment

Post-training:让模型从“会续写”变成“会服务用户”

SFT、RLHF、DPO、GRPO 等不是魔法增强智商,而是在改变模型的行为分布:遵循指令、输出风格、安全偏好、任务奖励和拒答边界。

SFT 用示范数据学习回答格式和任务行为;偏好优化用 chosen/rejected 或 reward 信号推动模型更符合人类/任务偏好。

AIPM should ask

  • 我们要改变的是知识、格式、风格、工具使用,还是某个任务的成功率?
  • 是否有足够高质量示范或偏好数据?
  • 对齐后是否损失专业任务能力?

Common traps

  • 用少量低质量 SFT 数据期待大幅提升。
  • 把 RLHF 当成事实性修复方案。
  • 只看安全拒答率,不看有用性。
applicationRAG retrieval knowledge

RAG:产品中最常用的“补知识”方案

当问题是企业知识、私有文档、实时信息或可引用事实时,优先考虑 RAG。RAG 的关键不是“接个向量库”,而是文档处理、召回、重排、引用、评测和权限。

RAG 在生成前检索相关 chunks,把外部上下文放进 prompt。效果取决于 chunking、embedding、retriever、reranker、query rewriting、上下文压缩和答案约束。

AIPM should ask

  • 答案必须引用来源吗?
  • 知识库更新频率和权限模型是什么?
  • 召回失败、引用错误、过期信息如何被发现?

Common traps

  • 只做向量相似度,不做召回评测。
  • chunk 太大或太小都不管。
  • 把 RAG 当作 hallucination 的完全解药。
applicationembedding retrieval RAG

Embeddings:语义检索的地基,不是万能相似度

Embedding 模型决定什么叫“相似”。AIPM 要关心领域、语言、query/document 长度、向量维度、成本、召回率,而不是只问用了哪个向量库。

文本被编码成稠密向量,检索时用 cosine/dot product 等相似度找近邻。许多 RAG 失败来自 embedding 不适配或 query/document 表达不一致。

AIPM should ask

  • 是否需要中英混合、代码、表格、专业术语 embedding?
  • 是否评估 recall@k、MRR、nDCG?
  • 是否需要 hybrid search 和 reranking?

Common traps

  • 把向量库品牌当成主要技术差异。
  • 没有负样本和困难查询集。
  • 只看 demo,不看系统性召回。
applicationagent tools workflow

Agents:适合流程和工具,不适合无边界自治

Agent 的价值在于把 LLM 连接到工具、状态和工作流;产品设计要控制动作空间、权限、回滚、观察信号和失败路径。越“自主”,越需要工程护栏。

典型 agent loop 是 plan/think -> action/tool call -> observation -> next action。现代实现常用 function calling、workflow graph、memory、MCP 或特定框架。

AIPM should ask

  • 用户任务是否真的需要多步工具调用?
  • 每个 tool call 的权限、审计和回滚是什么?
  • 失败时是让模型继续试,还是切换人工/规则流程?

Common traps

  • 把 chatbot 包一层工具就叫 agent。
  • 没有动作预算和终止条件。
  • 让模型直接执行高风险操作。
applicationprompt agent tools success-criteria

Prompt/Agent 产品能力:从模板转向任务、工具和成功标准

Prompt 能力的重点不是背模板,而是把任务、输入输出结构、示例、约束、失败样例和成功标准讲清楚。Prompt 不够时,才进入换模型、加 RAG、加工具、加 workflow 或微调。

Tool use/agent 的产品本质是:模型决定是否请求工具,应用负责执行工具并返回结果。PM 要设计触发边界、权限、日志、成本、失败重试、人工确认和回滚。

AIPM should ask

  • 这个任务是 prompt 能解决,还是需要工具/检索/工作流?
  • 工具调用失败或返回脏数据时怎么办?
  • 成功标准和测试集是否先于 prompt 迭代定义?

Common traps

  • 把 prompt 当产品护城河。
  • 没有测试集就调 prompt。
  • agent 可以执行高风险动作但没有权限边界。
applicationcoding-agent AI IDE MCP software-engineering

AI Coding Agents:从“帮我写代码”到软件生产系统

面向开发者的 LLM 产品不能只看生成代码质量,还要设计上下文管理、工具调用、权限、测试、安全扫描、代码审查、部署后观测和人机协作边界。AI coding agent 是软件工程系统,不是聊天框。

现代 coding agent 产品常包含 AI IDE、MCP/tool use、PRD/spec 驱动、agent autonomy levels、terminal automation、AI-generated tests、SAST/DAST、安全红队、AI code review 和 incident triage。

AIPM should ask

  • 用户愿意把哪些开发动作交给 agent?
  • 上下文、repo 权限、工具权限和审计日志如何设计?
  • 生成代码如何通过测试、review、安全扫描和线上观测闭环?

Common traps

  • 把 demo 里的代码生成速度当成核心指标。
  • 没有权限模型就接入生产仓库和终端。
  • 只做 prompt,不做测试、review、回滚和观测。
systemsinference cost latency

Inference:延迟、吞吐和成本是产品功能的一部分

用户体验不仅由模型质量决定,还由 TTFT、tokens/sec、并发、上下文长度、输出长度、缓存和服务稳定性决定。AIPM 要把成本和延迟写进 PRD。

推理分 prefill 和 decode。长输入影响 prefill,长输出影响 decode。KV cache、continuous batching、PagedAttention、quantization、speculative decoding 都是常见优化。

AIPM should ask

  • 首 token 延迟目标是多少?
  • 平均/峰值输出 token 数是多少?
  • 是否可以缓存、流式输出、限制上下文、分级路由模型?

Common traps

  • 只按输入请求数估算成本。
  • 忽视输出 token。
  • 上线后才发现并发和长文本把预算打爆。
evaluationevaluation metrics quality

Evaluation:没有任务评测,模型选择就是玄学

AIPM 最核心的技术杠杆之一是定义评测。通用榜单只能做初筛;产品上线要有任务集、失败分类、人工标注、LLM-as-judge 校准和线上监控。

评测可以分为自动 benchmark、任务单元测试、RAG 检索评测、人类偏好、LLM judge、红队安全测试和线上业务指标。

AIPM should ask

  • 黄金测试集覆盖哪些真实场景?
  • 失败是事实错、格式错、拒答错、召回错、工具错还是安全错?
  • 离线分数如何对应线上 KPI?

Common traps

  • 只看 MMLU/榜单。
  • 没有回归测试,prompt 一改全靠感觉。
  • LLM judge 未校准就当真理。
evaluationevals risk governance responsible-ai

Evals + 风险治理:AI PM 和普通 PM 的分水岭

AI PM 必须能回答“这个 AI 功能怎么算好、哪些失败不能上线”。这需要任务级 evals、失败分级、人工审核、灰度、反馈闭环,以及对公平、隐私、安全、透明和问责的基本治理意识。

OpenAI Evals 类工具解决可重复测量,NIST/Microsoft/Google 的 responsible AI 框架帮助定义可信 AI 的治理边界。对企业 AI 产品,evals 和 risk management 是产品流程的一部分,不是上线前补文档。

AIPM should ask

  • 离线评测能预测线上业务结果吗?
  • 哪些失败是低风险,哪些必须阻断上线?
  • 是否有人工审核、监控、申诉、回滚和审计机制?

Common traps

  • 只看准确率,不看严重失败。
  • 把安全合规放到发布前最后一天。
  • 没有灰度和反馈闭环。
datadata quality governance

Data quality:数据工程决定模型/知识库上限

无论预训练、SFT 还是 RAG,脏数据都会以幻觉、偏见、过期答案、重复答案和安全风险的形式回到产品。数据质量是产品质量的一部分。

关键动作包括抽取、清洗、去重、PII 处理、版权/权限、质量过滤、分布监控、污染检测和更新机制。

AIPM should ask

  • 知识源谁拥有?谁审核?多久更新?
  • 是否有 PII/敏感信息/版权限制?
  • 错误数据进入后如何发现和回滚?

Common traps

  • 只关心模型不关心数据管线。
  • RAG 文档没有版本和权限。
  • 把爬来的网页直接入库。
trainingfine-tuning LoRA SFT

Fine-tuning:适合稳定行为,不适合动态知识库

微调适合让模型学稳定格式、风格、分类边界、工具调用习惯或垂直任务模式;不适合频繁变化的事实知识。多数 AIPM 场景应先比较 prompt/RAG/SFT 的收益成本。

Full fine-tuning 更新全部参数,LoRA/QLoRA 只训练少量 adapter,成本低很多。SFT 数据质量通常比数量更重要。

AIPM should ask

  • 要学的是知识还是行为?
  • 数据是否可持续生产和验证?
  • 微调后是否有回归评测和回滚方案?

Common traps

  • 用微调塞知识。
  • 没有 baseline 就开训。
  • 用生产私有数据训练但没有合规审查。
risksafety security prompt-injection

Safety/Security:LLM 风险来自模型、数据、工具和用户交互

安全不是只加一句 system prompt。需要区分内容安全、隐私泄露、prompt injection、越权工具调用、数据投毒、评测绕过和业务误操作。

LLM 应用常见防线包括输入/输出过滤、权限隔离、工具参数校验、检索源隔离、敏感数据脱敏、审计日志、红队测试和人工升级。

AIPM should ask

  • 模型能访问哪些数据和工具?
  • 用户能否通过 prompt 越权改变规则?
  • 高风险动作是否需要确认和审计?

Common traps

  • 把 system prompt 当安全边界。
  • RAG 检索到恶意指令后直接执行。
  • 没有权限模型和日志。
product craftPM product-discovery growth B2B

产品经理基本功:AI PM 仍然首先是 PM

AI PM 不能只靠懂模型。长期能力仍然来自 product discovery、用户研究、原型、实验、定价、增长、沟通和组织推进。AI 只是改变问题空间,不会替代 PM 基本功。

Lenny、SVPG、Reforge、Intercom 这类资源适合长期看:它们分别补 PM 案例密度、产品发现/产品模式、增长与实验、以及 AI customer support/B2B SaaS 落地。

AIPM should ask

  • 我能否先证明用户问题值得做,再谈 AI 方案?
  • 有没有 prototype 或 concierge test,而不只是模型 demo?
  • 商业指标、采用率、定价和运营成本是否闭环?

Common traps

  • 把 AI 新鲜感当需求验证。
  • 忽略 go-to-market、定价和变更管理。
  • 只会和工程师聊模型,不会和业务方聊价值。

Decision Playbook

方案选择卡

Prompt-only

Use when

  • 任务简单、知识稳定、只需格式/语气控制
  • 需要快速验证需求
  • 错误成本低

Avoid when

  • 需要私有/实时知识
  • 需要可引用证据
  • 复杂多步工具动作

PM checks

  • 先做 20-50 条黄金样例
  • 记录 prompt 版本
  • 设置格式校验和回归测试

RAG

Use when

  • 企业知识库、政策、文档问答、客服知识、实时信息
  • 答案需要引用和权限控制
  • 知识频繁更新

Avoid when

  • 问题主要是输出风格或固定任务行为
  • 文档质量不可控且无治理
  • 用户问题无法映射到文本证据

PM checks

  • 评估 recall@k 与答案 groundedness
  • 设计 chunking、rerank、权限和引用
  • 建立失败样本回流

Fine-tuning / LoRA

Use when

  • 需要稳定格式、领域风格、分类边界、工具调用模式
  • 有高质量标注/示范数据
  • prompt 成本过高或一致性不够

Avoid when

  • 只是缺最新知识
  • 没有评测集
  • 数据合规不清楚

PM checks

  • 先比较 prompt/RAG baseline
  • 固定训练/验证/回归集
  • 明确回滚和模型版本管理

Agent / Tool use

Use when

  • 任务需要多步操作、查数据、调用系统、写入状态
  • 路径因用户和环境变化而变化
  • 工具结果能被验证

Avoid when

  • 只需单轮问答
  • 高风险动作无权限/确认
  • 工具 API 不稳定或无审计

PM checks

  • 限定 tool schema 和动作预算
  • 高风险操作二次确认
  • 记录 action/observation 日志

Bigger model

Use when

  • 小模型已通过工程优化仍无法满足推理/语言/鲁棒性
  • 用户愿意为质量支付延迟和成本
  • 任务依赖强泛化能力

Avoid when

  • 问题是知识没给、检索差、评测差或流程差
  • 预算/延迟硬约束
  • 边际收益未验证

PM checks

  • 用同一黄金集比较质量、延迟和成本
  • 考虑路由:简单任务小模型,难任务大模型
  • 监控输出长度和失败类型

AI PM interview prep

Use when

  • 准备转 AI PM/AIPM/agentic AI PM
  • 面试包含 AI case、technical discussion 或 design exercise
  • 需要把 CS336/八股转成面试表达

Avoid when

  • 只是泛泛了解 LLM 概念
  • 没有目标岗位 JD
  • 没有任何 proof-of-work 可讲

PM checks

  • 准备 2 个 AI 项目故事:问题、方案、指标、失败、复盘
  • 练 3 类 case:RAG、agent、AI feature metrics
  • 把技术概念翻译成 PM 决策语言

AI PM learning sprint

Use when

  • 不知道该看什么资源
  • 准备 AI PM/商业化 PM/企业 AI 产品岗
  • 需要把学习变成面试和项目输出

Avoid when

  • 已经有明确技术深挖目标
  • 只是想追行业新闻
  • 没有时间做练习和沉淀

PM checks

  • 第一周补 AI for Everyone + PAIR,产出 AI 产品设计 checklist
  • 第二周补 prompt/tool/evals,产出 20 条测试集和 1 个 demo
  • 第三周补 responsible AI + PM craft,产出 case answer 和风险清单

Interview Notes

PM 需要懂的 LLM 八股问答

Q01为什么 LLM 通常是 decoder-only 架构?

Short answer: 因为通用生成任务需要自回归预测下一个 token,decoder-only 结构简单、可扩展、训练/推理路径统一,适合大规模生成。

PM angle: PM 只需记住:它天生擅长续写/生成,不天然保证事实正确或流程正确。

architecture

Q02AIPM 需要把神经网络学到多深?

Short answer: 需要懂输入、权重、激活、loss、gradient、attention、token 和 decoding 的直觉,能判断问题属于数据、模型、上下文、训练、推理还是评测层。

PM angle: 目标不是成为研究员,而是能把技术约束翻译成产品方案、评测指标和风险边界。

learning foundations

Q03为什么 PM 也要理解 loss 和 gradient?

Short answer: 因为模型训练是在优化一个代理目标,gradient 只是告诉参数朝哪个方向能让这个目标变好。代理目标和真实用户价值不一致时,模型会“认真地优化错东西”。

PM angle: 这能帮助你追问数据标注、评测集、偏好目标和线上 KPI 是否对齐。

training evaluation

Q04AI PM 真正要补哪 6 类能力?

Short answer: AI 基础认知、AI 产品设计、Prompt/LLM 产品能力、Agent/工具调用、AI 产品评估、负责任 AI/风险治理。产品基本功要长期补。

PM angle: 用这 6 类来筛资源,比刷新闻和收藏 prompt 模板更有效。

learning AI PM

Q05CS336 对 AIPM 或转岗面试的价值是什么?

Short answer: 它把 tokenization、Transformer、训练、推理、数据、评测和对齐串成一张完整地图,适合作为补齐 LLM 技术宽度的骨架。

PM angle: 学完不代表能做研究,但能更快定位问题、追问实验、理解工程实现,并和技术团队对齐。

learning career

Q06AI PM 面试和普通 PM 面试最大差异是什么?

Short answer: 普通 PM 面试更偏用户、商业和执行;AI PM 面试会额外追问数据来源、模型边界、评测、延迟成本、风险、人工兜底和 demo 到生产的可行性。

PM angle: 回答时要把 AI 不确定性纳入产品方案,而不是把模型当确定性 API。

interview AI PM

Q07面试中如何证明自己真的懂 AI,而不是只会用 AI?

Short answer: 最强证据是 proof-of-work:做过真实 AI feature、从零实现过关键组件、搭过 RAG/agent demo、做过评测集,或能讲清一次失败和改进。

PM angle: 简历和面试都要突出用户问题、技术取舍、指标结果和反思,而不是工具清单。

career proof-of-work

Q08AI product case 可以用什么答题框架?

Short answer: 先定义用户任务和成功标准,再讲数据/权限、模型或 RAG/agent 方案、评测指标、失败模式、成本延迟、安全、上线节奏和反馈闭环。

PM angle: 这套框架能让开放题从“创意题”变成可验证的产品系统设计题。

case-interview evaluation

Q09什么时候 prompt 不够,需要升级方案?

Short answer: 当问题来自知识缺失、上下文检索差、工具动作、结构化输出稳定性、权限、安全或可评测一致性时,单纯调 prompt 往往不够。

PM angle: PM 要把 prompt baseline 当起点,再决定是否加 RAG、工具、workflow、微调或 eval regression。

prompt agent

Q10Responsible AI 对 PM 具体意味着什么?

Short answer: 不是价值观口号,而是把公平、可靠安全、隐私安全、透明、问责、人类控制和风险管理纳入需求、设计、评测和上线流程。

PM angle: 企业 AI 产品越接近金融、广告、客服、HR、协同和决策,就越需要这套治理语言。

responsible-ai risk

Q11MCP 对 PM 意味着什么?

Short answer: MCP 是让模型/agent 连接外部工具和数据源的一类协议与生态,产品意义是把工具接入变成可复用、可治理、可授权的接口层。

PM angle: 做 agent 产品时,要把 MCP 当成权限、审计、工具质量和开发者生态问题,而不只是技术集成。

agent MCP

Q12AI coding agent 产品应该评测什么?

Short answer: 不仅评测代码是否能运行,还要评测上下文命中率、测试通过率、补丁可读性、安全风险、review 接受率、回滚能力、任务完成时间和人工介入成本。

PM angle: 面向开发者的 LLM 产品,真正的 KPI 是交付质量和信任,而不是生成 token 数。

coding-agent evaluation

Q13Token、word、character 有什么区别?

Short answer: Token 是模型处理和计费的基本单位,可能是字符、子词、词片段或字节组合,不等于自然语言中的词。

PM angle: 估算成本和上下文时用 token,不要用字数。

token

Q14Embedding 是什么?

Short answer: Embedding 是把离散对象映射到向量空间的表示,语义相近的文本通常向量距离更近。

PM angle: RAG 质量很大程度取决于 embedding 是否适配业务语料。

embedding RAG

Q15Attention 解决了什么问题?

Short answer: Attention 让每个 token 动态关注其他 token,从而建模长距离依赖和上下文关系。

PM angle: 它解释了模型为何能处理上下文,也解释了长上下文为什么贵。

attention

Q16为什么 attention 里有 Q/K/V?

Short answer: Q 表示当前 token 想找什么,K 表示其他 token 提供什么索引,V 是被聚合的信息内容。

PM angle: 这能帮助 PM 理解“检索”和“上下文关联”的类比,但不要过度拟人化。

attention

Q17KV cache 是什么?

Short answer: 生成时缓存历史 token 的 Key/Value,避免每生成一个 token 都重新计算全部历史。

PM angle: KV cache 提升速度但吃显存;长对话和长文档会显著推高成本。

inference

Q18RAG 和 fine-tuning 怎么选?

Short answer: 动态知识、私有知识、可引用知识优先 RAG;稳定格式、风格、任务行为可考虑 fine-tuning。

PM angle: 先问“缺知识还是缺行为”。这是最实用的一条。

RAG fine-tuning

Q19RAG 为什么还会 hallucinate?

Short answer: 可能是没召回、召回错、上下文太噪、模型没遵守引用、问题本身超出证据,或评测没覆盖。

PM angle: RAG 不是事实保险,需要检索评测和答案评测两套指标。

RAG evaluation

Q20LoRA/QLoRA 解决什么问题?

Short answer: 它们降低微调显存和计算成本,LoRA 训练低秩 adapter,QLoRA 结合量化进一步节省显存。

PM angle: 适合试验垂直行为微调,但仍然需要高质量数据和评测。

fine-tuning

Q21RLHF、DPO、GRPO 大概差别是什么?

Short answer: RLHF 通常包含奖励模型和策略优化;DPO 用偏好对直接优化;GRPO 常用于可验证奖励下的推理训练。

PM angle: 不用深背公式,重点是它们改变偏好和任务行为,不是修复知识库的首选。

alignment

Q22为什么模型榜单高不等于产品好?

Short answer: 榜单任务和真实用户分布不同,产品还受延迟、成本、稳定性、安全、格式遵循和工具链影响。

PM angle: 模型选型要用自己的黄金集和线上目标闭环。

evaluation

Q23Prompt engineering 什么时候够用?

Short answer: 当任务主要是格式、语气、步骤约束、少量示例和轻量知识注入时,prompt/template 通常最快。

PM angle: 先做 prompt baseline,再决定是否上 RAG 或微调。

prompt

Q24为什么长上下文不是 RAG 的替代品?

Short answer: 长上下文能塞更多材料,但不保证检索、排序、证据使用和成本可控。RAG 还能处理权限、更新和引用。

PM angle: 长上下文适合少量长材料精读,企业知识库仍要检索系统。

context RAG

Q25什么是 temperature/top-p/top-k?

Short answer: 它们控制采样随机性:temperature 改变分布尖锐程度,top-k/top-p 限制候选 token 集合。

PM angle: 事实型任务降低随机性,创意型任务可提高随机性,但要监控一致性。

decoding

Q26为什么首 token 延迟常常很高?

Short answer: 模型要先处理完整输入上下文完成 prefill,然后才进入逐 token decode。长输入会拖慢首 token。

PM angle: 流式输出只能改善感知,不会消灭 prefill 成本。

inference

Q27什么是 prompt injection?

Short answer: 用户或检索文档中的恶意指令试图覆盖系统规则或诱导模型泄露/越权。

PM angle: 凡是有 RAG 或工具调用的产品都要把它当安全需求,而非边缘问题。

security

Q28SFT 数据越多越好吗?

Short answer: 不是。高质量、多样、覆盖目标行为的数据通常比低质量大规模数据更重要。

PM angle: AIPM 要设计数据生产、审核和失败样本回流机制。

SFT data

Q29MoE 对产品意味着什么?

Short answer: MoE 用稀疏激活扩大参数容量,可能提升性价比,但路由、稳定性和服务复杂度更高。

PM angle: 选模型时关心实际延迟/成本/稳定性,不必只看参数总量。

MoE

Q30量化会损失效果吗?

Short answer: 可能。低精度能降显存和成本,但对困惑任务、长上下文、数学/代码等可能有质量影响。

PM angle: 量化是成本手段,必须用产品任务集回归。

quantization

Q31Agent 和 workflow 有什么区别?

Short answer: Workflow 是预定义流程,agent 让模型动态选择下一步和工具。

PM angle: 能用 workflow 就先用 workflow;agent 留给路径变化大且收益明确的场景。

agent

Glossary

术语表

Token
模型处理和计费的基本文本单位。
Context window
模型一次可接收的 token 上限,包括系统提示、用户输入、检索内容和历史。
Embedding
把文本等对象编码成向量,用于语义检索、聚类、相似度计算。
Transformer
以 attention 为核心的主流 LLM 架构。
Attention
让 token 根据相关性聚合上下文信息的机制。
MLP
Multi-layer perceptron,多层全连接网络,是理解深度学习前向计算和反向传播的基础模型。
Activation function
给神经网络加入非线性的函数,如 ReLU、GELU、SwiGLU;没有非线性,多层线性层仍等价于一个线性变换。
Loss
训练时被优化的可计算目标,用来衡量模型输出与目标之间的差距。
Gradient
表示参数或输入发生微小变化时,loss 或输出会如何变化的方向和幅度。
Backpropagation
把 loss 的误差信号从输出层传回各层以计算梯度的算法。
MCP
Model Context Protocol,用于让模型或 agent 连接外部工具、数据源和服务的接口协议生态。
Coding agent
能读取代码上下文、调用工具、修改文件、运行测试并迭代解决开发任务的 LLM agent。
AI IDE
把 LLM、上下文检索、代码编辑、工具调用和开发工作流集成进 IDE 的产品形态。
AI code review
用模型辅助发现代码质量、安全、可维护性和测试覆盖问题的 review 工作流。
Observability
通过 logs、metrics、traces 和事件记录理解系统运行状态,LLM/agent 产品还需要记录 prompt、tool call、检索和评测信号。
Proof-of-work
能证明你真的做过 AI 产品或技术实践的作品、项目、demo、评测或复盘。
AI product case
围绕 AI 功能、agent、推荐、自动化或智能助手设计的产品 case 面试题。
Technical discussion
不一定写代码,但会围绕模型、数据、实验、系统和业务取舍深入追问的技术面试。
Hiring manager outreach
直接联系招聘经理或团队负责人,用匹配度和作品争取面试机会的求职动作。
Success criteria
在 prompt、eval、PRD 或实验开始前定义的成功标准,用于判断 AI 功能是否达标。
Human-in-the-loop
在人机协作中保留人工确认、审核、接管或回滚的机制,常用于高风险 AI 动作。
Responsible AI
把公平、可靠安全、隐私安全、透明、问责和人类控制纳入 AI 产品生命周期的治理实践。
Product discovery
在投入大规模建设前验证用户问题、价值、可用性和可行性的产品探索过程。
Decoder-only
自回归生成架构,GPT 类模型常见。
Pretraining
用海量数据学习通用语言/知识能力。
SFT
Supervised Fine-Tuning,用示范数据训练模型遵循目标行为。
RLHF
Reinforcement Learning from Human Feedback,用人类偏好训练模型行为。
DPO
Direct Preference Optimization,直接用偏好对优化模型。
GRPO
Group Relative Policy Optimization,常用于可验证奖励的推理训练场景。
RAG
Retrieval-Augmented Generation,生成前检索外部知识。
Reranker
对初步召回文档重新排序以提升相关性。
KV cache
推理时缓存历史 Key/Value,加速逐 token 生成。
TTFT
Time To First Token,首 token 延迟。
Throughput
单位时间可生成/处理的 token 或请求量。
Quantization
用低精度表示权重/激活以降低显存和成本。
LoRA
低秩适配器微调方法,只训练少量参数。
Hallucination
模型输出不受证据支持或事实错误的内容。
Prompt injection
通过输入或文档中的恶意指令劫持模型行为。

Source Index

来源索引

这些来源用于抽象知识结构和核对主题覆盖;本知识库不复制原文长段落。GitHub 资料偏经验和八股,CS336 与论文资料负责技术骨架。