AIPM LLM Take-away Knowledge Database

十条核心 take-away

LLM 产品不是一个模型，而是一条系统链路。
Token 是成本、上下文和延迟的共同单位。
RAG 解决动态/私有/可引用知识，fine-tuning 解决稳定行为。
长上下文不是银弹，通常需要检索、重排、压缩和引用机制配合。
榜单只能初筛模型，产品必须有自己的黄金集和失败分类。
Agent 的关键是受控工具调用、权限、审计和回滚。
数据质量决定 RAG、SFT 和评测上限。
推理成本来自输入、输出、并发、KV cache、模型大小和服务策略。
对齐训练改变模型行为偏好，不等于自动修复事实错误。
AIPM 不必成为研究员，但要把神经网络、训练目标、agent 工作流和系统链路懂到能问对问题。

Capability Map

AI PM 能力地图

按“真正要补的能力”组织，而不是丢一堆收藏夹。先用这 6 类能力判断学习优先级，再进入知识卡和面试题。

1. AI 基础认知

AI 能做什么、不能做什么；数据、模型、任务、评估和组织落地之间的关系。

AIPM should ask

这个问题是否真的适合 AI？
失败通常来自数据、模型、流程还是组织？

DeepLearning.AI: AI for Everyone Stanford CS336 Spring 2025

2. AI 产品设计

什么时候该用 AI；失败恢复、信任、解释、控制权、确认和人机协作。

AIPM should ask

用户如何发现并纠正 AI 错误？
哪些动作必须 human-in-the-loop？

Google People + AI Guidebook Google AI Principles Intercom Blog

3. Prompt / LLM 产品能力

任务定义、输入输出结构、few-shot、约束、失败样例、结构化输出和 prompt baseline。

AIPM should ask

成功标准是否先于 prompt 定义？
什么时候 prompt 不够，需要 RAG、工具或评测？

OpenAI Prompt Engineering Guide Anthropic Prompt Engineering Overview

4. Agent / 工具调用

工具调用边界、权限、日志、失败重试、回滚、确认、成本和 agent workflow。

AIPM should ask

模型什么时候该调用工具？
工具失败或越权时产品如何兜底？

Anthropic Tool Use OpenAI API: tools, function calling, structured outputs, Agents SDK CS146S: The Modern Software Developer

5. AI 产品评估 / Evals

任务级评测、黄金集、失败分级、幻觉率、人工审核、灰度和反馈闭环。

AIPM should ask

这个 AI 功能怎么算好？
哪些失败不能上线？

OpenAI Evals Guide Reforge Blog HELM

6. 负责任 AI / 风险治理

公平、可靠安全、隐私安全、透明、问责、人类控制和企业风险管理。

AIPM should ask

高风险输出如何审核和追责？
风险治理是否进入需求、设计、评测和上线流程？

NIST AI Risk Management Framework Microsoft Responsible AI Google AI Principles

Search the knowledge base

Knowledge Cards

主题知识卡

overviewAIPM architecture product

LLM 产品栈：不是一个模型，而是一条系统链路

AIPM 不需要把每个 kernel 写出来，但必须知道问题发生在哪一层：模型能力、上下文、检索、工具、后训练、推理服务、评测与安全是不同层，不要用一个方案解决所有问题。

从输入到输出可以拆成：tokenization -> embeddings -> Transformer inference -> decoding -> optional retrieval/tools -> guardrails -> evaluation/monitoring。每层都有独立约束和成本。

AIPM should ask

这个需求是模型本身不会，还是上下文没给够？
需要 RAG、fine-tuning、agent，还是只是 prompt/template？
主要瓶颈是准确率、延迟、成本、可解释性还是合规？

Common traps

把所有问题都叫 hallucination。
把模型 benchmark 分数当成产品体验。
上线前没有定义任务级成功指标。

Stanford CS336 Spring 2025 mlabonne/llm-course amitshekhariitbhu/ai-engineering-interview-questions

learning pathlearning AIPM foundations

AIPM 学习深度：懂到能问对问题，而不是背完公式

AIPM 最有效的学习路线是先建立可沟通的底层直觉：神经网络如何从输入变输出，loss 如何驱动参数更新，Transformer 为什么能看上下文，再进入 RAG、微调、评测和系统成本。

MLP、activation、gradient、matrix shape、tokenization、attention 和 decoding 是理解 LLM 行为的基础积木。PM 不必手推所有反向传播，但要知道这些概念分别对应能力、训练、推理和成本中的哪类约束。

AIPM should ask

我现在是在补数学直觉、模型结构、训练方法，还是应用系统？
这个概念能帮助我做产品决策吗？
我是否能把它翻译成需求、指标、风险或工程问题？

Common traps

从 RAG/agent 直接跳到调参，缺少模型行为直觉。
沉迷公式细节却无法连接到产品判断。
把“懂原理”等同于能训练大模型。

Alisa's book of LLMs Stanford CS336 Spring 2025 mlabonne/llm-course rasbt/LLMs-from-scratch

learning pathlearning AI PM roadmap capability

AI PM 能力路线图：先补 6 类能力，而不是刷 AI 新闻

AI PM 最该补的不是碎片新闻，而是六类可迁移能力：AI 基础认知、AI 产品设计、Prompt/LLM 产品能力、Agent/工具调用、AI 产品评估、负责任 AI/风险治理。产品基本功仍然是底座。

这条路线把学习目标从“知道很多工具”改成“能做产品判断”：AI 是否适合、用户失败时怎么办、prompt 何时不够、agent 如何授权、eval 如何定义、风险如何治理、商业化如何闭环。

AIPM should ask

我现在补的是能力，还是只是在收藏资料？
这个资源能帮我回答哪类产品决策问题？
我是否能把学习结果沉淀成 checklist、case answer 或 PRD 模板？

Common traps

泛泛追 AI 新闻，没有形成可复用判断框架。
只学模型技术，不补产品发现、实验和商业化。
只背 prompt 模板，不定义成功标准和评测。

DeepLearning.AI: AI for Everyone Google People + AI Guidebook OpenAI Prompt Engineering Guide Anthropic Tool Use OpenAI Evals Guide NIST AI Risk Management Framework Lenny's Newsletter Silicon Valley Product Group Articles

product designdesign trust human-in-the-loop responsible-ai

AI 产品设计：核心是失败、信任、控制权和人机协作

AI 功能不是“加一个智能按钮”。AIPM 要设计用户何时信任、何时确认、如何理解模型不确定性、失败后怎么恢复、哪些动作必须 human-in-the-loop。

People + AI 的产品视角可以和 LLM 工程结合：模型输出需要解释、引用、置信边界、用户反馈、撤销/回滚、权限和升级路径。越高风险的场景，越不能把 AI 当黑盒自动化。

AIPM should ask

AI 失败时用户能发现并修正吗？
用户是否有足够控制权，而不是被模型替他们做决定？
哪些输出需要引用、解释或人工确认？

Common traps

只优化自动化率，不设计失败恢复。
用拟人化文案掩盖不确定性。
高风险动作没有确认、撤销和审计。

Google People + AI Guidebook Google AI Principles Microsoft Responsible AI Intercom Blog

career & collaborationcareer interview learning collaboration

LLM 能力图谱：概念、实现、实验设计和表达要同时练

无论是转岗、面试，还是和算法/工程团队共创，AIPM 不能只会讲概念。更可靠的能力组合是：知道原理边界，能读懂实验设计，理解从零实现的关键困难，并能把技术取舍讲成产品判断。

真实技术讨论常覆盖 ML coding、Transformer/debugging、decoding、实验设计、位置编码、并行训练、RLHF/GRPO 等宽主题。CS336 这类课程的价值在于把散乱知识组织成一张领域地图。

AIPM should ask

我能否解释一个方案为什么失败，而不只是说模型不行？
我能否把技术讨论转成指标、实验和下一步？
我是否知道哪些概念需要会实现，哪些只需理解边界？

Common traps

只背八股答案，不做实现和调试练习。
只学产品案例，不理解模型/系统约束。
把面试准备和实际工作能力割裂开。

Alisa Liu: Notes on the Industry Job Search Stanford CS336 Spring 2025 Alisa's book of LLMs rasbt/LLMs-from-scratch

interview intelinterview AI PM case career

面经雷达：AI PM 面试反复考“真实 AI 判断力”

公开面经里反复出现的信号很一致：公司想看候选人是否真的做过 AI 产品、能否把用户问题转成轻量 AI 方案、能否设计指标和实验，并能讲清模型能力、数据、风险和上线成本。

高频题型包括 AI product case、feature metric、technical discussion、ML/LLM breadth check、behavioral、stakeholder/leadership、take-home/design exercise。越接近 AI PM/agentic AI 岗，越会追问数据、评测、权限、ROI 和 demo 到 production 的落差。

AIPM should ask

我有没有可展示的 AI proof-of-work？
一个 AI feature case 里，我能讲清用户、数据、模型方案、评测和风险吗？
我能把“懂 AI”落到真实项目决策，而不是只背术语吗？

Common traps

只准备普通 PM case，不准备模型/数据/评测追问。
只讲用了 ChatGPT，不讲用户问题和产品结果。
把 AI demo 当成生产系统，没有 ROI 和风险意识。

Business Insider: how people broke into AI Business Insider: product manager landed Salesforce AI role Business Insider: agentic AI PM at T-Mobile Alisa Liu: Notes on the Industry Job Search

interview intelcase-interview metrics AI PM evaluation

AI PM Case Loop：用一条固定链路回答开放题

面对“设计一个 AI 功能/agent/推荐系统”的面试题，可以用固定链路兜住不确定性：用户痛点 -> 任务定义 -> 数据/权限 -> 模型或 RAG/agent 方案 -> 评测指标 -> 失败模式 -> 上线与成本。

AI case 的核心不是炫模型名，而是展示你知道 AI 产品的不确定性来自哪里：数据分布、召回、模型能力、延迟成本、安全、反馈闭环、组织采纳和 ROI。

AIPM should ask

这个 case 的 ground truth 从哪里来？
哪些失败会伤害用户或业务？
上线后如何监控质量、成本和人工介入率？

Common traps

一上来就选模型。
只讲用户体验，不讲数据和评测。
没有分阶段 rollout 和人工兜底。

Business Insider: product manager landed Salesforce AI role Business Insider: inside Salesforce's Agentforce bet CS146S: The Modern Software Developer HELM

model basicstoken cost context

Tokenization：成本、边界和多语言体验的第一层

Token 是 LLM 的计费、上下文长度、延迟和多语言表现的基本单位。中文、代码、专业术语可能被切得更碎，产品上会直接影响成本和召回/生成质量。

常见 tokenizer 使用 BPE/byte-level BPE/SentencePiece 等，把文本映射成整数序列。模型并不直接看字符，而是看 token id 和 embedding。

AIPM should ask

目标语言或行业术语的 token 膨胀率是多少？
长文档进入上下文前是否先做 chunking 和摘要？
用户可见字数与 token 预算之间如何换算？

Common traps

用字符数估算成本。
忽视中文、表格、代码、JSON 的 token 膨胀。
把 tokenizer 当成无关实现细节。

Stanford CS336 Spring 2025 wdndev/llm_interview_note rasbt/LLMs-from-scratch

model basicsattention transformer context

Attention/Transformer：理解上下文能力与长文本瓶颈

Transformer 的核心价值是让 token 之间建立关系；产品上表现为上下文理解、引用、指代消解、多步骤推理。但 attention 也带来长上下文成本和延迟问题。

自注意力用 Q/K/V 计算 token 间相关性，decoder-only 模型用 causal mask 只看过去 token。多头注意力让模型并行关注不同关系。

AIPM should ask

任务是否真的需要长上下文，还是需要更好的检索/摘要？
模型在长上下文中能否找到 needle，还是只是在窗口里塞东西？
是否需要引用定位来证明答案来源？

Common traps

认为上下文窗口越长一定越好。
忽视长上下文下的首 token 延迟和成本。
把 attention 解释成“模型理解一切”。

Attention Is All You Need Stanford CS336 Spring 2025 amitshekhariitbhu/ai-engineering-interview-questions

trainingpretraining data scaling

Pretraining：通用能力来自数据规模和 next-token objective

预训练解决“模型知道什么、语言能力如何”的底座问题；AIPM 通常不会自己预训练，但要理解为什么数据质量、版权、时效性和领域覆盖会限制模型。

主流 LLM 在大规模文本/代码/多模态数据上学习预测下一个 token。训练损失下降通常带来通用能力提升，但具体产品能力还依赖数据分布与评测。

AIPM should ask

模型知识截止与业务知识更新怎么处理？
领域数据缺口适合 RAG、SFT 还是继续预训练？
数据版权、PII、污染和重复如何治理？

Common traps

把预训练当成产品团队可轻易重做的事。
以为更多数据必然更好。
忽视数据清洗和去重。

Stanford CS336 Spring 2025 Training Compute-Optimal Large Language Models mlabonne/llm-course

training basicsloss gradient training evaluation

Loss/Gradient：训练不是记答案，而是优化一个代理目标

PM 理解 loss 和 gradient 的关键价值，是知道模型优化的是一个可计算代理目标，不一定等于用户真正想要的业务结果。很多对齐、评测和数据问题，本质上都是“目标定义错了或样本分布错了”。

Loss 衡量预测与目标的差距，gradient 表示参数变化会如何影响 loss，反向传播把误差信号传回各层。大模型训练、SFT、偏好优化和很多 reranker/embedding 训练都依赖这个优化范式。

AIPM should ask

训练目标和产品成功指标一致吗？
标注数据是否代表真实用户分布？
优化一个指标是否会牺牲事实性、安全性或用户体验？

Common traps

以为 loss 降低就等于产品变好。
没有验证集和失败切片，只看总体分数。
把训练问题误判为 prompt 或 UI 问题。

Alisa's book of LLMs Stanford CS336 Spring 2025 Training language models to follow instructions with human feedback Direct Preference Optimization

trainingSFT RLHF DPO alignment

Post-training：让模型从“会续写”变成“会服务用户”

SFT、RLHF、DPO、GRPO 等不是魔法增强智商，而是在改变模型的行为分布：遵循指令、输出风格、安全偏好、任务奖励和拒答边界。

SFT 用示范数据学习回答格式和任务行为；偏好优化用 chosen/rejected 或 reward 信号推动模型更符合人类/任务偏好。

AIPM should ask

我们要改变的是知识、格式、风格、工具使用，还是某个任务的成功率？
是否有足够高质量示范或偏好数据？
对齐后是否损失专业任务能力？

Common traps

用少量低质量 SFT 数据期待大幅提升。
把 RLHF 当成事实性修复方案。
只看安全拒答率，不看有用性。

Training language models to follow instructions with human feedback Direct Preference Optimization Stanford CS336 Spring 2025 mlabonne/llm-course

applicationRAG retrieval knowledge

RAG：产品中最常用的“补知识”方案

当问题是企业知识、私有文档、实时信息或可引用事实时，优先考虑 RAG。RAG 的关键不是“接个向量库”，而是文档处理、召回、重排、引用、评测和权限。

RAG 在生成前检索相关 chunks，把外部上下文放进 prompt。效果取决于 chunking、embedding、retriever、reranker、query rewriting、上下文压缩和答案约束。

AIPM should ask

答案必须引用来源吗？
知识库更新频率和权限模型是什么？
召回失败、引用错误、过期信息如何被发现？

Common traps

只做向量相似度，不做召回评测。
chunk 太大或太小都不管。
把 RAG 当作 hallucination 的完全解药。

Retrieval-Augmented Generation mlabonne/llm-course wdndev/llm_interview_note amitshekhariitbhu/ai-engineering-interview-questions

applicationembedding retrieval RAG

Embeddings：语义检索的地基，不是万能相似度

Embedding 模型决定什么叫“相似”。AIPM 要关心领域、语言、query/document 长度、向量维度、成本、召回率，而不是只问用了哪个向量库。

文本被编码成稠密向量，检索时用 cosine/dot product 等相似度找近邻。许多 RAG 失败来自 embedding 不适配或 query/document 表达不一致。

AIPM should ask

是否需要中英混合、代码、表格、专业术语 embedding？
是否评估 recall@k、MRR、nDCG？
是否需要 hybrid search 和 reranking？

Common traps

把向量库品牌当成主要技术差异。
没有负样本和困难查询集。
只看 demo，不看系统性召回。

mlabonne/llm-course amitshekhariitbhu/ai-engineering-interview-questions wdndev/llm_interview_note

applicationagent tools workflow

Agents：适合流程和工具，不适合无边界自治

Agent 的价值在于把 LLM 连接到工具、状态和工作流；产品设计要控制动作空间、权限、回滚、观察信号和失败路径。越“自主”，越需要工程护栏。

典型 agent loop 是 plan/think -> action/tool call -> observation -> next action。现代实现常用 function calling、workflow graph、memory、MCP 或特定框架。

AIPM should ask

用户任务是否真的需要多步工具调用？
每个 tool call 的权限、审计和回滚是什么？
失败时是让模型继续试，还是切换人工/规则流程？

Common traps

把 chatbot 包一层工具就叫 agent。
没有动作预算和终止条件。
让模型直接执行高风险操作。

mlabonne/llm-course wdndev/llm_interview_note amitshekhariitbhu/ai-engineering-interview-questions

applicationprompt agent tools success-criteria

Prompt/Agent 产品能力：从模板转向任务、工具和成功标准

Prompt 能力的重点不是背模板，而是把任务、输入输出结构、示例、约束、失败样例和成功标准讲清楚。Prompt 不够时，才进入换模型、加 RAG、加工具、加 workflow 或微调。

Tool use/agent 的产品本质是：模型决定是否请求工具，应用负责执行工具并返回结果。PM 要设计触发边界、权限、日志、成本、失败重试、人工确认和回滚。

AIPM should ask

这个任务是 prompt 能解决，还是需要工具/检索/工作流？
工具调用失败或返回脏数据时怎么办？
成功标准和测试集是否先于 prompt 迭代定义？

Common traps

把 prompt 当产品护城河。
没有测试集就调 prompt。
agent 可以执行高风险动作但没有权限边界。

OpenAI Prompt Engineering Guide Anthropic Prompt Engineering Overview Anthropic Tool Use OpenAI API: tools, function calling, structured outputs, Agents SDK

applicationcoding-agent AI IDE MCP software-engineering

AI Coding Agents：从“帮我写代码”到软件生产系统

面向开发者的 LLM 产品不能只看生成代码质量，还要设计上下文管理、工具调用、权限、测试、安全扫描、代码审查、部署后观测和人机协作边界。AI coding agent 是软件工程系统，不是聊天框。

现代 coding agent 产品常包含 AI IDE、MCP/tool use、PRD/spec 驱动、agent autonomy levels、terminal automation、AI-generated tests、SAST/DAST、安全红队、AI code review 和 incident triage。

AIPM should ask

用户愿意把哪些开发动作交给 agent？
上下文、repo 权限、工具权限和审计日志如何设计？
生成代码如何通过测试、review、安全扫描和线上观测闭环？

Common traps

把 demo 里的代码生成速度当成核心指标。
没有权限模型就接入生产仓库和终端。
只做 prompt，不做测试、review、回滚和观测。

CS146S: The Modern Software Developer mlabonne/llm-course amitshekhariitbhu/ai-engineering-interview-questions

systemsinference cost latency

Inference：延迟、吞吐和成本是产品功能的一部分

用户体验不仅由模型质量决定，还由 TTFT、tokens/sec、并发、上下文长度、输出长度、缓存和服务稳定性决定。AIPM 要把成本和延迟写进 PRD。

推理分 prefill 和 decode。长输入影响 prefill，长输出影响 decode。KV cache、continuous batching、PagedAttention、quantization、speculative decoding 都是常见优化。

AIPM should ask

首 token 延迟目标是多少？
平均/峰值输出 token 数是多少？
是否可以缓存、流式输出、限制上下文、分级路由模型？

Common traps

只按输入请求数估算成本。
忽视输出 token。
上线后才发现并发和长文本把预算打爆。

vLLM / PagedAttention FlashAttention Stanford CS336 Spring 2025 mlabonne/llm-course

evaluationevaluation metrics quality

Evaluation：没有任务评测，模型选择就是玄学

AIPM 最核心的技术杠杆之一是定义评测。通用榜单只能做初筛；产品上线要有任务集、失败分类、人工标注、LLM-as-judge 校准和线上监控。

评测可以分为自动 benchmark、任务单元测试、RAG 检索评测、人类偏好、LLM judge、红队安全测试和线上业务指标。

AIPM should ask

黄金测试集覆盖哪些真实场景？
失败是事实错、格式错、拒答错、召回错、工具错还是安全错？
离线分数如何对应线上 KPI？

Common traps

只看 MMLU/榜单。
没有回归测试，prompt 一改全靠感觉。
LLM judge 未校准就当真理。

HELM Chatbot Arena / LMSYS Arena Stanford CS336 Spring 2025 mlabonne/llm-course

evaluationevals risk governance responsible-ai

Evals + 风险治理：AI PM 和普通 PM 的分水岭

AI PM 必须能回答“这个 AI 功能怎么算好、哪些失败不能上线”。这需要任务级 evals、失败分级、人工审核、灰度、反馈闭环，以及对公平、隐私、安全、透明和问责的基本治理意识。

OpenAI Evals 类工具解决可重复测量，NIST/Microsoft/Google 的 responsible AI 框架帮助定义可信 AI 的治理边界。对企业 AI 产品，evals 和 risk management 是产品流程的一部分，不是上线前补文档。

AIPM should ask

离线评测能预测线上业务结果吗？
哪些失败是低风险，哪些必须阻断上线？
是否有人工审核、监控、申诉、回滚和审计机制？

Common traps

只看准确率，不看严重失败。
把安全合规放到发布前最后一天。
没有灰度和反馈闭环。

OpenAI Evals Guide Reforge Blog NIST AI Risk Management Framework Microsoft Responsible AI Google AI Principles

datadata quality governance

Data quality：数据工程决定模型/知识库上限

无论预训练、SFT 还是 RAG，脏数据都会以幻觉、偏见、过期答案、重复答案和安全风险的形式回到产品。数据质量是产品质量的一部分。

关键动作包括抽取、清洗、去重、PII 处理、版权/权限、质量过滤、分布监控、污染检测和更新机制。

AIPM should ask

知识源谁拥有？谁审核？多久更新？
是否有 PII/敏感信息/版权限制？
错误数据进入后如何发现和回滚？

Common traps

只关心模型不关心数据管线。
RAG 文档没有版本和权限。
把爬来的网页直接入库。

Stanford CS336 Spring 2025 mlabonne/llm-course wdndev/llm_interview_note

trainingfine-tuning LoRA SFT

Fine-tuning：适合稳定行为，不适合动态知识库

微调适合让模型学稳定格式、风格、分类边界、工具调用习惯或垂直任务模式；不适合频繁变化的事实知识。多数 AIPM 场景应先比较 prompt/RAG/SFT 的收益成本。

Full fine-tuning 更新全部参数，LoRA/QLoRA 只训练少量 adapter，成本低很多。SFT 数据质量通常比数量更重要。

AIPM should ask

要学的是知识还是行为？
数据是否可持续生产和验证？
微调后是否有回归评测和回滚方案？

Common traps

用微调塞知识。
没有 baseline 就开训。
用生产私有数据训练但没有合规审查。

LoRA QLoRA mlabonne/llm-course Stanford CS336 Spring 2025

risksafety security prompt-injection

Safety/Security：LLM 风险来自模型、数据、工具和用户交互

安全不是只加一句 system prompt。需要区分内容安全、隐私泄露、prompt injection、越权工具调用、数据投毒、评测绕过和业务误操作。

LLM 应用常见防线包括输入/输出过滤、权限隔离、工具参数校验、检索源隔离、敏感数据脱敏、审计日志、红队测试和人工升级。

AIPM should ask

模型能访问哪些数据和工具？
用户能否通过 prompt 越权改变规则？
高风险动作是否需要确认和审计？

Common traps

把 system prompt 当安全边界。
RAG 检索到恶意指令后直接执行。
没有权限模型和日志。

mlabonne/llm-course Stanford CS336 Spring 2025 amitshekhariitbhu/ai-engineering-interview-questions

product craftPM product-discovery growth B2B

产品经理基本功：AI PM 仍然首先是 PM

AI PM 不能只靠懂模型。长期能力仍然来自 product discovery、用户研究、原型、实验、定价、增长、沟通和组织推进。AI 只是改变问题空间，不会替代 PM 基本功。

Lenny、SVPG、Reforge、Intercom 这类资源适合长期看：它们分别补 PM 案例密度、产品发现/产品模式、增长与实验、以及 AI customer support/B2B SaaS 落地。

AIPM should ask

我能否先证明用户问题值得做，再谈 AI 方案？
有没有 prototype 或 concierge test，而不只是模型 demo？
商业指标、采用率、定价和运营成本是否闭环？

Common traps

把 AI 新鲜感当需求验证。
忽略 go-to-market、定价和变更管理。
只会和工程师聊模型，不会和业务方聊价值。

Lenny's Newsletter Silicon Valley Product Group Articles Reforge Blog Intercom Blog

Decision Playbook

方案选择卡

Prompt-only

Use when

任务简单、知识稳定、只需格式/语气控制
需要快速验证需求
错误成本低

Avoid when

需要私有/实时知识
需要可引用证据
复杂多步工具动作

PM checks

先做 20-50 条黄金样例
记录 prompt 版本
设置格式校验和回归测试

RAG

Use when

企业知识库、政策、文档问答、客服知识、实时信息
答案需要引用和权限控制
知识频繁更新

Avoid when

问题主要是输出风格或固定任务行为
文档质量不可控且无治理
用户问题无法映射到文本证据

PM checks

评估 recall@k 与答案 groundedness
设计 chunking、rerank、权限和引用
建立失败样本回流

Fine-tuning / LoRA

Use when

需要稳定格式、领域风格、分类边界、工具调用模式
有高质量标注/示范数据
prompt 成本过高或一致性不够

Avoid when

只是缺最新知识
没有评测集
数据合规不清楚

PM checks

先比较 prompt/RAG baseline
固定训练/验证/回归集
明确回滚和模型版本管理

Agent / Tool use

Use when

任务需要多步操作、查数据、调用系统、写入状态
路径因用户和环境变化而变化
工具结果能被验证

Avoid when

只需单轮问答
高风险动作无权限/确认
工具 API 不稳定或无审计

PM checks

限定 tool schema 和动作预算
高风险操作二次确认
记录 action/observation 日志

Bigger model

Use when

小模型已通过工程优化仍无法满足推理/语言/鲁棒性
用户愿意为质量支付延迟和成本
任务依赖强泛化能力

Avoid when

问题是知识没给、检索差、评测差或流程差
预算/延迟硬约束
边际收益未验证

PM checks

用同一黄金集比较质量、延迟和成本
考虑路由：简单任务小模型，难任务大模型
监控输出长度和失败类型

AI PM interview prep

Use when

准备转 AI PM/AIPM/agentic AI PM
面试包含 AI case、technical discussion 或 design exercise
需要把 CS336/八股转成面试表达

Avoid when

只是泛泛了解 LLM 概念
没有目标岗位 JD
没有任何 proof-of-work 可讲

PM checks

准备 2 个 AI 项目故事：问题、方案、指标、失败、复盘
练 3 类 case：RAG、agent、AI feature metrics
把技术概念翻译成 PM 决策语言

AI PM learning sprint

Use when

不知道该看什么资源
准备 AI PM/商业化 PM/企业 AI 产品岗
需要把学习变成面试和项目输出

Avoid when

已经有明确技术深挖目标
只是想追行业新闻
没有时间做练习和沉淀

PM checks

第一周补 AI for Everyone + PAIR，产出 AI 产品设计 checklist
第二周补 prompt/tool/evals，产出 20 条测试集和 1 个 demo
第三周补 responsible AI + PM craft，产出 case answer 和风险清单

Interview Notes

PM 需要懂的 LLM 八股问答

Q01为什么 LLM 通常是 decoder-only 架构？

Short answer: 因为通用生成任务需要自回归预测下一个 token，decoder-only 结构简单、可扩展、训练/推理路径统一，适合大规模生成。

PM angle: PM 只需记住：它天生擅长续写/生成，不天然保证事实正确或流程正确。

architecture

Stanford CS336 Spring 2025 wdndev/llm_interview_note

Q02AIPM 需要把神经网络学到多深？

Short answer: 需要懂输入、权重、激活、loss、gradient、attention、token 和 decoding 的直觉，能判断问题属于数据、模型、上下文、训练、推理还是评测层。

PM angle: 目标不是成为研究员，而是能把技术约束翻译成产品方案、评测指标和风险边界。

learning foundations

Alisa's book of LLMs Stanford CS336 Spring 2025

Q03为什么 PM 也要理解 loss 和 gradient？

Short answer: 因为模型训练是在优化一个代理目标，gradient 只是告诉参数朝哪个方向能让这个目标变好。代理目标和真实用户价值不一致时，模型会“认真地优化错东西”。

PM angle: 这能帮助你追问数据标注、评测集、偏好目标和线上 KPI 是否对齐。

training evaluation

Alisa's book of LLMs Stanford CS336 Spring 2025 Direct Preference Optimization

Q04AI PM 真正要补哪 6 类能力？

Short answer: AI 基础认知、AI 产品设计、Prompt/LLM 产品能力、Agent/工具调用、AI 产品评估、负责任 AI/风险治理。产品基本功要长期补。

PM angle: 用这 6 类来筛资源，比刷新闻和收藏 prompt 模板更有效。

learning AI PM

DeepLearning.AI: AI for Everyone Google People + AI Guidebook OpenAI Evals Guide NIST AI Risk Management Framework

Q05CS336 对 AIPM 或转岗面试的价值是什么？

Short answer: 它把 tokenization、Transformer、训练、推理、数据、评测和对齐串成一张完整地图，适合作为补齐 LLM 技术宽度的骨架。

PM angle: 学完不代表能做研究，但能更快定位问题、追问实验、理解工程实现，并和技术团队对齐。

learning career

Stanford CS336 Spring 2025 Alisa Liu: Notes on the Industry Job Search

Q06AI PM 面试和普通 PM 面试最大差异是什么？

Short answer: 普通 PM 面试更偏用户、商业和执行；AI PM 面试会额外追问数据来源、模型边界、评测、延迟成本、风险、人工兜底和 demo 到生产的可行性。

PM angle: 回答时要把 AI 不确定性纳入产品方案，而不是把模型当确定性 API。

interview AI PM

Business Insider: product manager landed Salesforce AI role Business Insider: inside Salesforce's Agentforce bet

Q07面试中如何证明自己真的懂 AI，而不是只会用 AI？

Short answer: 最强证据是 proof-of-work：做过真实 AI feature、从零实现过关键组件、搭过 RAG/agent demo、做过评测集，或能讲清一次失败和改进。

PM angle: 简历和面试都要突出用户问题、技术取舍、指标结果和反思，而不是工具清单。

career proof-of-work

Business Insider: how people broke into AI Business Insider: agentic AI PM at T-Mobile Alisa Liu: Notes on the Industry Job Search

Q08AI product case 可以用什么答题框架？

Short answer: 先定义用户任务和成功标准，再讲数据/权限、模型或 RAG/agent 方案、评测指标、失败模式、成本延迟、安全、上线节奏和反馈闭环。

PM angle: 这套框架能让开放题从“创意题”变成可验证的产品系统设计题。

case-interview evaluation

Business Insider: product manager landed Salesforce AI role CS146S: The Modern Software Developer HELM

Q09什么时候 prompt 不够，需要升级方案？

Short answer: 当问题来自知识缺失、上下文检索差、工具动作、结构化输出稳定性、权限、安全或可评测一致性时，单纯调 prompt 往往不够。

PM angle: PM 要把 prompt baseline 当起点，再决定是否加 RAG、工具、workflow、微调或 eval regression。

prompt agent

OpenAI Prompt Engineering Guide Anthropic Prompt Engineering Overview Anthropic Tool Use

Q10Responsible AI 对 PM 具体意味着什么？

Short answer: 不是价值观口号，而是把公平、可靠安全、隐私安全、透明、问责、人类控制和风险管理纳入需求、设计、评测和上线流程。

PM angle: 企业 AI 产品越接近金融、广告、客服、HR、协同和决策，就越需要这套治理语言。

responsible-ai risk

NIST AI Risk Management Framework Microsoft Responsible AI Google AI Principles

Q11MCP 对 PM 意味着什么？

Short answer: MCP 是让模型/agent 连接外部工具和数据源的一类协议与生态，产品意义是把工具接入变成可复用、可治理、可授权的接口层。

PM angle: 做 agent 产品时，要把 MCP 当成权限、审计、工具质量和开发者生态问题，而不只是技术集成。

agent MCP

CS146S: The Modern Software Developer

Q12AI coding agent 产品应该评测什么？

Short answer: 不仅评测代码是否能运行，还要评测上下文命中率、测试通过率、补丁可读性、安全风险、review 接受率、回滚能力、任务完成时间和人工介入成本。

PM angle: 面向开发者的 LLM 产品，真正的 KPI 是交付质量和信任，而不是生成 token 数。

coding-agent evaluation

CS146S: The Modern Software Developer HELM

Q13Token、word、character 有什么区别？

Short answer: Token 是模型处理和计费的基本单位，可能是字符、子词、词片段或字节组合，不等于自然语言中的词。

PM angle: 估算成本和上下文时用 token，不要用字数。

token

Stanford CS336 Spring 2025 rasbt/LLMs-from-scratch

Q14Embedding 是什么？

Short answer: Embedding 是把离散对象映射到向量空间的表示，语义相近的文本通常向量距离更近。

PM angle: RAG 质量很大程度取决于 embedding 是否适配业务语料。

embedding RAG

mlabonne/llm-course amitshekhariitbhu/ai-engineering-interview-questions

Q15Attention 解决了什么问题？

Short answer: Attention 让每个 token 动态关注其他 token，从而建模长距离依赖和上下文关系。

PM angle: 它解释了模型为何能处理上下文，也解释了长上下文为什么贵。

attention

Attention Is All You Need Stanford CS336 Spring 2025

Q16为什么 attention 里有 Q/K/V？

Short answer: Q 表示当前 token 想找什么，K 表示其他 token 提供什么索引，V 是被聚合的信息内容。

PM angle: 这能帮助 PM 理解“检索”和“上下文关联”的类比，但不要过度拟人化。

attention

amitshekhariitbhu/ai-engineering-interview-questions

Q17KV cache 是什么？

Short answer: 生成时缓存历史 token 的 Key/Value，避免每生成一个 token 都重新计算全部历史。

PM angle: KV cache 提升速度但吃显存；长对话和长文档会显著推高成本。

inference

vLLM / PagedAttention Stanford CS336 Spring 2025

Q18RAG 和 fine-tuning 怎么选？

Short answer: 动态知识、私有知识、可引用知识优先 RAG；稳定格式、风格、任务行为可考虑 fine-tuning。

PM angle: 先问“缺知识还是缺行为”。这是最实用的一条。

RAG fine-tuning

mlabonne/llm-course Retrieval-Augmented Generation

Q19RAG 为什么还会 hallucinate？

Short answer: 可能是没召回、召回错、上下文太噪、模型没遵守引用、问题本身超出证据，或评测没覆盖。

PM angle: RAG 不是事实保险，需要检索评测和答案评测两套指标。

RAG evaluation

Retrieval-Augmented Generation mlabonne/llm-course

Q20LoRA/QLoRA 解决什么问题？

Short answer: 它们降低微调显存和计算成本，LoRA 训练低秩 adapter，QLoRA 结合量化进一步节省显存。

PM angle: 适合试验垂直行为微调，但仍然需要高质量数据和评测。

fine-tuning

LoRA QLoRA

Q21RLHF、DPO、GRPO 大概差别是什么？

Short answer: RLHF 通常包含奖励模型和策略优化；DPO 用偏好对直接优化；GRPO 常用于可验证奖励下的推理训练。

PM angle: 不用深背公式，重点是它们改变偏好和任务行为，不是修复知识库的首选。

alignment

Training language models to follow instructions with human feedback Direct Preference Optimization Stanford CS336 Spring 2025

Q22为什么模型榜单高不等于产品好？

Short answer: 榜单任务和真实用户分布不同，产品还受延迟、成本、稳定性、安全、格式遵循和工具链影响。

PM angle: 模型选型要用自己的黄金集和线上目标闭环。

evaluation

HELM Chatbot Arena / LMSYS Arena

Q23Prompt engineering 什么时候够用？

Short answer: 当任务主要是格式、语气、步骤约束、少量示例和轻量知识注入时，prompt/template 通常最快。

PM angle: 先做 prompt baseline，再决定是否上 RAG 或微调。

prompt

mlabonne/llm-course amitshekhariitbhu/ai-engineering-interview-questions

Q24为什么长上下文不是 RAG 的替代品？

Short answer: 长上下文能塞更多材料，但不保证检索、排序、证据使用和成本可控。RAG 还能处理权限、更新和引用。

PM angle: 长上下文适合少量长材料精读，企业知识库仍要检索系统。

context RAG

Stanford CS336 Spring 2025 mlabonne/llm-course

Q25什么是 temperature/top-p/top-k？

Short answer: 它们控制采样随机性：temperature 改变分布尖锐程度，top-k/top-p 限制候选 token 集合。

PM angle: 事实型任务降低随机性，创意型任务可提高随机性，但要监控一致性。

decoding

wdndev/llm_interview_note mlabonne/llm-course

Q26为什么首 token 延迟常常很高？

Short answer: 模型要先处理完整输入上下文完成 prefill，然后才进入逐 token decode。长输入会拖慢首 token。

PM angle: 流式输出只能改善感知，不会消灭 prefill 成本。

inference

Stanford CS336 Spring 2025 vLLM / PagedAttention

Q27什么是 prompt injection？

Short answer: 用户或检索文档中的恶意指令试图覆盖系统规则或诱导模型泄露/越权。

PM angle: 凡是有 RAG 或工具调用的产品都要把它当安全需求，而非边缘问题。

security

mlabonne/llm-course

Q28SFT 数据越多越好吗？

Short answer: 不是。高质量、多样、覆盖目标行为的数据通常比低质量大规模数据更重要。

PM angle: AIPM 要设计数据生产、审核和失败样本回流机制。

SFT data

Stanford CS336 Spring 2025 mlabonne/llm-course

Q29MoE 对产品意味着什么？

Short answer: MoE 用稀疏激活扩大参数容量，可能提升性价比，但路由、稳定性和服务复杂度更高。

PM angle: 选模型时关心实际延迟/成本/稳定性，不必只看参数总量。

MoE

Stanford CS336 Spring 2025 wdndev/llm_interview_note

Q30量化会损失效果吗？

Short answer: 可能。低精度能降显存和成本，但对困惑任务、长上下文、数学/代码等可能有质量影响。

PM angle: 量化是成本手段，必须用产品任务集回归。

quantization

mlabonne/llm-course

Q31Agent 和 workflow 有什么区别？

Short answer: Workflow 是预定义流程，agent 让模型动态选择下一步和工具。

PM angle: 能用 workflow 就先用 workflow；agent 留给路径变化大且收益明确的场景。

agent

mlabonne/llm-course amitshekhariitbhu/ai-engineering-interview-questions

Glossary

术语表

Token: 模型处理和计费的基本文本单位。
Context window: 模型一次可接收的 token 上限，包括系统提示、用户输入、检索内容和历史。
Embedding: 把文本等对象编码成向量，用于语义检索、聚类、相似度计算。
Transformer: 以 attention 为核心的主流 LLM 架构。
Attention: 让 token 根据相关性聚合上下文信息的机制。
MLP: Multi-layer perceptron，多层全连接网络，是理解深度学习前向计算和反向传播的基础模型。
Activation function: 给神经网络加入非线性的函数，如 ReLU、GELU、SwiGLU；没有非线性，多层线性层仍等价于一个线性变换。
Loss: 训练时被优化的可计算目标，用来衡量模型输出与目标之间的差距。
Gradient: 表示参数或输入发生微小变化时，loss 或输出会如何变化的方向和幅度。
Backpropagation: 把 loss 的误差信号从输出层传回各层以计算梯度的算法。
MCP: Model Context Protocol，用于让模型或 agent 连接外部工具、数据源和服务的接口协议生态。
Coding agent: 能读取代码上下文、调用工具、修改文件、运行测试并迭代解决开发任务的 LLM agent。
AI IDE: 把 LLM、上下文检索、代码编辑、工具调用和开发工作流集成进 IDE 的产品形态。
AI code review: 用模型辅助发现代码质量、安全、可维护性和测试覆盖问题的 review 工作流。
Observability: 通过 logs、metrics、traces 和事件记录理解系统运行状态，LLM/agent 产品还需要记录 prompt、tool call、检索和评测信号。
Proof-of-work: 能证明你真的做过 AI 产品或技术实践的作品、项目、demo、评测或复盘。
AI product case: 围绕 AI 功能、agent、推荐、自动化或智能助手设计的产品 case 面试题。
Technical discussion: 不一定写代码，但会围绕模型、数据、实验、系统和业务取舍深入追问的技术面试。
Hiring manager outreach: 直接联系招聘经理或团队负责人，用匹配度和作品争取面试机会的求职动作。
Success criteria: 在 prompt、eval、PRD 或实验开始前定义的成功标准，用于判断 AI 功能是否达标。
Human-in-the-loop: 在人机协作中保留人工确认、审核、接管或回滚的机制，常用于高风险 AI 动作。
Responsible AI: 把公平、可靠安全、隐私安全、透明、问责和人类控制纳入 AI 产品生命周期的治理实践。
Product discovery: 在投入大规模建设前验证用户问题、价值、可用性和可行性的产品探索过程。
Decoder-only: 自回归生成架构，GPT 类模型常见。
Pretraining: 用海量数据学习通用语言/知识能力。
SFT: Supervised Fine-Tuning，用示范数据训练模型遵循目标行为。
RLHF: Reinforcement Learning from Human Feedback，用人类偏好训练模型行为。
DPO: Direct Preference Optimization，直接用偏好对优化模型。
GRPO: Group Relative Policy Optimization，常用于可验证奖励的推理训练场景。
RAG: Retrieval-Augmented Generation，生成前检索外部知识。
Reranker: 对初步召回文档重新排序以提升相关性。
KV cache: 推理时缓存历史 Key/Value，加速逐 token 生成。
TTFT: Time To First Token，首 token 延迟。
Throughput: 单位时间可生成/处理的 token 或请求量。
Quantization: 用低精度表示权重/激活以降低显存和成本。
LoRA: 低秩适配器微调方法，只训练少量参数。
Hallucination: 模型输出不受证据支持或事实错误的内容。
Prompt injection: 通过输入或文档中的恶意指令劫持模型行为。

Source Index

来源索引

这些来源用于抽象知识结构和核对主题覆盖；本知识库不复制原文长段落。GitHub 资料偏经验和八股，CS336 与论文资料负责技术骨架。

Stanford CS336 Spring 2025
Course backbone: from tokenization to systems, data, scaling, evaluation, and alignment.
stanford-cs336/spring2025-lectures
Executable lectures and slide archive.
Alisa's book of LLMs
Structured Notion learning notes that build LLM intuition from neural nets, activations, gradients, and implementation details.
Alisa Liu: Notes on the Industry Job Search
Industry job-search field report connecting CS336, LLM notes, ML coding, technical discussions, and breadth-first preparation.
CS146S: The Modern Software Developer
Stanford course on AI-assisted software development, coding agents, MCP, AI IDEs, testing, security, review, and observability.
DeepLearning.AI: AI for Everyone
Andrew Ng's non-technical AI course for AI terminology, ML project workflow, AI strategy, and organizational adoption.
Google People + AI Guidebook
Product-design guide for human-centered AI, trust, control, failure recovery, feedback, and user mental models.
OpenAI Prompt Engineering Guide
Official guidance for task clarity, examples, structured outputs, constraints, and prompt iteration.
Anthropic Prompt Engineering Overview
Prompting guidance that emphasizes defining success criteria and test methods before prompt iteration.
Anthropic Tool Use
Official explanation of tool use, client/server tools, tool execution loops, trigger boundaries, and tool-related cost.
OpenAI API: tools, function calling, structured outputs, Agents SDK
Official OpenAI docs for tools, structured output, function calling, Agents SDK, guardrails, and agent workflow evaluation.
OpenAI Evals Guide
Official evals guide for measuring model and application behavior with datasets, graders, and regression workflows.
Reforge Blog
Product and growth writing including AI product-team capabilities, experimentation, pricing, and evaluation practices.
NIST AI Risk Management Framework
Enterprise AI risk-management framework for mapping, measuring, managing, and governing AI risk.
Microsoft Responsible AI
Responsible AI principles and practices covering fairness, reliability, safety, privacy, security, transparency, and accountability.
Google AI Principles
Responsible AI principles and practices across model design, testing, deployment, monitoring, safety, privacy, and user benefit.
Lenny's Newsletter
Long-running product newsletter for PM craft, growth, career, and product strategy.
Silicon Valley Product Group Articles
Product-discovery and product-operating-model essays from SVPG / Marty Cagan's product craft tradition.
Intercom Blog
AI customer-support, AI agent, automation, conversation design, pricing, and B2B SaaS product implementation writing.
Business Insider: how people broke into AI
Career stories emphasizing hands-on proof-of-work, real AI product building, and project-based learning.
Business Insider: product manager landed Salesforce AI role
Interview story covering AI PM case questions, AI feature metrics, recruiter outreach, and multi-round product interviews.
Business Insider: agentic AI PM at T-Mobile
AI PM job-search story emphasizing hiring-manager outreach, mock interviews, communication practice, and agentic AI fit.
Business Insider: inside Salesforce's Agentforce bet
Enterprise AI agent adoption story highlighting implementation complexity, ROI ambiguity, sales enablement, and demo-to-production gaps.
wdndev/llm_interview_note
Chinese LLM interview and implementation knowledge map.
luhengshiwo/LLMForEverybody
Chinese beginner-friendly LLM knowledge and interview preparation.
km1994/LLMs_interview_notes
Chinese LLM algorithm interview notes.
aceliuchanghong/FAQ_Of_LLM_Interview
Chinese FAQ-style LLM interview concepts.
amitshekhariitbhu/ai-engineering-interview-questions
AI engineering interview questions covering LLM, RAG, agents, fine-tuning, embeddings, evaluation.
mlabonne/llm-course
LLM scientist and engineer roadmap with RAG, fine-tuning, quantization, deployment, and security.
rasbt/LLMs-from-scratch
Step-by-step LLM implementation reference.
Attention Is All You Need
Transformer architecture foundation.
Retrieval-Augmented Generation
Classic RAG formulation.
Training language models to follow instructions with human feedback
Instruction tuning and RLHF reference.
Training Compute-Optimal Large Language Models
Scaling-law and compute-optimal training reference.
LoRA
Parameter-efficient fine-tuning reference.
QLoRA
Memory-efficient 4-bit fine-tuning reference.
Direct Preference Optimization
Preference alignment without explicit reward-model RL loop.
FlashAttention
Attention IO optimization reference.
vLLM / PagedAttention
Serving throughput and KV-cache paging reference.
HELM
Evaluation philosophy and benchmark landscape.
Chatbot Arena / LMSYS Arena
Human preference arena for model comparison.