1. AI 基础认知
AI 能做什么、不能做什么;数据、模型、任务、评估和组织落地之间的关系。
AIPM should ask
- 这个问题是否真的适合 AI?
- 失败通常来自数据、模型、流程还是组织?
CS336 take-away + public LLM interview knowledge
不是课程网站,不是论文综述,而是一份方便查的产品判断手册:什么时候用 RAG,什么时候微调,怎么评测,怎么估成本,哪些八股需要懂到能和工程师对齐。
Capability Map
按“真正要补的能力”组织,而不是丢一堆收藏夹。先用这 6 类能力判断学习优先级,再进入知识卡和面试题。
AI 能做什么、不能做什么;数据、模型、任务、评估和组织落地之间的关系。
什么时候该用 AI;失败恢复、信任、解释、控制权、确认和人机协作。
任务定义、输入输出结构、few-shot、约束、失败样例、结构化输出和 prompt baseline。
工具调用边界、权限、日志、失败重试、回滚、确认、成本和 agent workflow。
任务级评测、黄金集、失败分级、幻觉率、人工审核、灰度和反馈闭环。
公平、可靠安全、隐私安全、透明、问责、人类控制和企业风险管理。
Knowledge Cards
AIPM 不需要把每个 kernel 写出来,但必须知道问题发生在哪一层:模型能力、上下文、检索、工具、后训练、推理服务、评测与安全是不同层,不要用一个方案解决所有问题。
从输入到输出可以拆成:tokenization -> embeddings -> Transformer inference -> decoding -> optional retrieval/tools -> guardrails -> evaluation/monitoring。每层都有独立约束和成本。
AIPM 最有效的学习路线是先建立可沟通的底层直觉:神经网络如何从输入变输出,loss 如何驱动参数更新,Transformer 为什么能看上下文,再进入 RAG、微调、评测和系统成本。
MLP、activation、gradient、matrix shape、tokenization、attention 和 decoding 是理解 LLM 行为的基础积木。PM 不必手推所有反向传播,但要知道这些概念分别对应能力、训练、推理和成本中的哪类约束。
AI PM 最该补的不是碎片新闻,而是六类可迁移能力:AI 基础认知、AI 产品设计、Prompt/LLM 产品能力、Agent/工具调用、AI 产品评估、负责任 AI/风险治理。产品基本功仍然是底座。
这条路线把学习目标从“知道很多工具”改成“能做产品判断”:AI 是否适合、用户失败时怎么办、prompt 何时不够、agent 如何授权、eval 如何定义、风险如何治理、商业化如何闭环。
AI 功能不是“加一个智能按钮”。AIPM 要设计用户何时信任、何时确认、如何理解模型不确定性、失败后怎么恢复、哪些动作必须 human-in-the-loop。
People + AI 的产品视角可以和 LLM 工程结合:模型输出需要解释、引用、置信边界、用户反馈、撤销/回滚、权限和升级路径。越高风险的场景,越不能把 AI 当黑盒自动化。
无论是转岗、面试,还是和算法/工程团队共创,AIPM 不能只会讲概念。更可靠的能力组合是:知道原理边界,能读懂实验设计,理解从零实现的关键困难,并能把技术取舍讲成产品判断。
真实技术讨论常覆盖 ML coding、Transformer/debugging、decoding、实验设计、位置编码、并行训练、RLHF/GRPO 等宽主题。CS336 这类课程的价值在于把散乱知识组织成一张领域地图。
公开面经里反复出现的信号很一致:公司想看候选人是否真的做过 AI 产品、能否把用户问题转成轻量 AI 方案、能否设计指标和实验,并能讲清模型能力、数据、风险和上线成本。
高频题型包括 AI product case、feature metric、technical discussion、ML/LLM breadth check、behavioral、stakeholder/leadership、take-home/design exercise。越接近 AI PM/agentic AI 岗,越会追问数据、评测、权限、ROI 和 demo 到 production 的落差。
面对“设计一个 AI 功能/agent/推荐系统”的面试题,可以用固定链路兜住不确定性:用户痛点 -> 任务定义 -> 数据/权限 -> 模型或 RAG/agent 方案 -> 评测指标 -> 失败模式 -> 上线与成本。
AI case 的核心不是炫模型名,而是展示你知道 AI 产品的不确定性来自哪里:数据分布、召回、模型能力、延迟成本、安全、反馈闭环、组织采纳和 ROI。
Token 是 LLM 的计费、上下文长度、延迟和多语言表现的基本单位。中文、代码、专业术语可能被切得更碎,产品上会直接影响成本和召回/生成质量。
常见 tokenizer 使用 BPE/byte-level BPE/SentencePiece 等,把文本映射成整数序列。模型并不直接看字符,而是看 token id 和 embedding。
Transformer 的核心价值是让 token 之间建立关系;产品上表现为上下文理解、引用、指代消解、多步骤推理。但 attention 也带来长上下文成本和延迟问题。
自注意力用 Q/K/V 计算 token 间相关性,decoder-only 模型用 causal mask 只看过去 token。多头注意力让模型并行关注不同关系。
预训练解决“模型知道什么、语言能力如何”的底座问题;AIPM 通常不会自己预训练,但要理解为什么数据质量、版权、时效性和领域覆盖会限制模型。
主流 LLM 在大规模文本/代码/多模态数据上学习预测下一个 token。训练损失下降通常带来通用能力提升,但具体产品能力还依赖数据分布与评测。
PM 理解 loss 和 gradient 的关键价值,是知道模型优化的是一个可计算代理目标,不一定等于用户真正想要的业务结果。很多对齐、评测和数据问题,本质上都是“目标定义错了或样本分布错了”。
Loss 衡量预测与目标的差距,gradient 表示参数变化会如何影响 loss,反向传播把误差信号传回各层。大模型训练、SFT、偏好优化和很多 reranker/embedding 训练都依赖这个优化范式。
SFT、RLHF、DPO、GRPO 等不是魔法增强智商,而是在改变模型的行为分布:遵循指令、输出风格、安全偏好、任务奖励和拒答边界。
SFT 用示范数据学习回答格式和任务行为;偏好优化用 chosen/rejected 或 reward 信号推动模型更符合人类/任务偏好。
当问题是企业知识、私有文档、实时信息或可引用事实时,优先考虑 RAG。RAG 的关键不是“接个向量库”,而是文档处理、召回、重排、引用、评测和权限。
RAG 在生成前检索相关 chunks,把外部上下文放进 prompt。效果取决于 chunking、embedding、retriever、reranker、query rewriting、上下文压缩和答案约束。
Embedding 模型决定什么叫“相似”。AIPM 要关心领域、语言、query/document 长度、向量维度、成本、召回率,而不是只问用了哪个向量库。
文本被编码成稠密向量,检索时用 cosine/dot product 等相似度找近邻。许多 RAG 失败来自 embedding 不适配或 query/document 表达不一致。
Agent 的价值在于把 LLM 连接到工具、状态和工作流;产品设计要控制动作空间、权限、回滚、观察信号和失败路径。越“自主”,越需要工程护栏。
典型 agent loop 是 plan/think -> action/tool call -> observation -> next action。现代实现常用 function calling、workflow graph、memory、MCP 或特定框架。
Prompt 能力的重点不是背模板,而是把任务、输入输出结构、示例、约束、失败样例和成功标准讲清楚。Prompt 不够时,才进入换模型、加 RAG、加工具、加 workflow 或微调。
Tool use/agent 的产品本质是:模型决定是否请求工具,应用负责执行工具并返回结果。PM 要设计触发边界、权限、日志、成本、失败重试、人工确认和回滚。
面向开发者的 LLM 产品不能只看生成代码质量,还要设计上下文管理、工具调用、权限、测试、安全扫描、代码审查、部署后观测和人机协作边界。AI coding agent 是软件工程系统,不是聊天框。
现代 coding agent 产品常包含 AI IDE、MCP/tool use、PRD/spec 驱动、agent autonomy levels、terminal automation、AI-generated tests、SAST/DAST、安全红队、AI code review 和 incident triage。
用户体验不仅由模型质量决定,还由 TTFT、tokens/sec、并发、上下文长度、输出长度、缓存和服务稳定性决定。AIPM 要把成本和延迟写进 PRD。
推理分 prefill 和 decode。长输入影响 prefill,长输出影响 decode。KV cache、continuous batching、PagedAttention、quantization、speculative decoding 都是常见优化。
AIPM 最核心的技术杠杆之一是定义评测。通用榜单只能做初筛;产品上线要有任务集、失败分类、人工标注、LLM-as-judge 校准和线上监控。
评测可以分为自动 benchmark、任务单元测试、RAG 检索评测、人类偏好、LLM judge、红队安全测试和线上业务指标。
AI PM 必须能回答“这个 AI 功能怎么算好、哪些失败不能上线”。这需要任务级 evals、失败分级、人工审核、灰度、反馈闭环,以及对公平、隐私、安全、透明和问责的基本治理意识。
OpenAI Evals 类工具解决可重复测量,NIST/Microsoft/Google 的 responsible AI 框架帮助定义可信 AI 的治理边界。对企业 AI 产品,evals 和 risk management 是产品流程的一部分,不是上线前补文档。
无论预训练、SFT 还是 RAG,脏数据都会以幻觉、偏见、过期答案、重复答案和安全风险的形式回到产品。数据质量是产品质量的一部分。
关键动作包括抽取、清洗、去重、PII 处理、版权/权限、质量过滤、分布监控、污染检测和更新机制。
微调适合让模型学稳定格式、风格、分类边界、工具调用习惯或垂直任务模式;不适合频繁变化的事实知识。多数 AIPM 场景应先比较 prompt/RAG/SFT 的收益成本。
Full fine-tuning 更新全部参数,LoRA/QLoRA 只训练少量 adapter,成本低很多。SFT 数据质量通常比数量更重要。
安全不是只加一句 system prompt。需要区分内容安全、隐私泄露、prompt injection、越权工具调用、数据投毒、评测绕过和业务误操作。
LLM 应用常见防线包括输入/输出过滤、权限隔离、工具参数校验、检索源隔离、敏感数据脱敏、审计日志、红队测试和人工升级。
AI PM 不能只靠懂模型。长期能力仍然来自 product discovery、用户研究、原型、实验、定价、增长、沟通和组织推进。AI 只是改变问题空间,不会替代 PM 基本功。
Lenny、SVPG、Reforge、Intercom 这类资源适合长期看:它们分别补 PM 案例密度、产品发现/产品模式、增长与实验、以及 AI customer support/B2B SaaS 落地。
Decision Playbook
Interview Notes
Short answer: 因为通用生成任务需要自回归预测下一个 token,decoder-only 结构简单、可扩展、训练/推理路径统一,适合大规模生成。
PM angle: PM 只需记住:它天生擅长续写/生成,不天然保证事实正确或流程正确。
architecture
Short answer: 需要懂输入、权重、激活、loss、gradient、attention、token 和 decoding 的直觉,能判断问题属于数据、模型、上下文、训练、推理还是评测层。
PM angle: 目标不是成为研究员,而是能把技术约束翻译成产品方案、评测指标和风险边界。
learning foundations
Short answer: 因为模型训练是在优化一个代理目标,gradient 只是告诉参数朝哪个方向能让这个目标变好。代理目标和真实用户价值不一致时,模型会“认真地优化错东西”。
PM angle: 这能帮助你追问数据标注、评测集、偏好目标和线上 KPI 是否对齐。
training evaluation
Short answer: AI 基础认知、AI 产品设计、Prompt/LLM 产品能力、Agent/工具调用、AI 产品评估、负责任 AI/风险治理。产品基本功要长期补。
PM angle: 用这 6 类来筛资源,比刷新闻和收藏 prompt 模板更有效。
learning AI PM
Short answer: 它把 tokenization、Transformer、训练、推理、数据、评测和对齐串成一张完整地图,适合作为补齐 LLM 技术宽度的骨架。
PM angle: 学完不代表能做研究,但能更快定位问题、追问实验、理解工程实现,并和技术团队对齐。
learning career
Short answer: 普通 PM 面试更偏用户、商业和执行;AI PM 面试会额外追问数据来源、模型边界、评测、延迟成本、风险、人工兜底和 demo 到生产的可行性。
PM angle: 回答时要把 AI 不确定性纳入产品方案,而不是把模型当确定性 API。
interview AI PM
Short answer: 最强证据是 proof-of-work:做过真实 AI feature、从零实现过关键组件、搭过 RAG/agent demo、做过评测集,或能讲清一次失败和改进。
PM angle: 简历和面试都要突出用户问题、技术取舍、指标结果和反思,而不是工具清单。
career proof-of-work
Short answer: 先定义用户任务和成功标准,再讲数据/权限、模型或 RAG/agent 方案、评测指标、失败模式、成本延迟、安全、上线节奏和反馈闭环。
PM angle: 这套框架能让开放题从“创意题”变成可验证的产品系统设计题。
case-interview evaluation
Short answer: 当问题来自知识缺失、上下文检索差、工具动作、结构化输出稳定性、权限、安全或可评测一致性时,单纯调 prompt 往往不够。
PM angle: PM 要把 prompt baseline 当起点,再决定是否加 RAG、工具、workflow、微调或 eval regression。
prompt agent
Short answer: 不是价值观口号,而是把公平、可靠安全、隐私安全、透明、问责、人类控制和风险管理纳入需求、设计、评测和上线流程。
PM angle: 企业 AI 产品越接近金融、广告、客服、HR、协同和决策,就越需要这套治理语言。
responsible-ai risk
Short answer: MCP 是让模型/agent 连接外部工具和数据源的一类协议与生态,产品意义是把工具接入变成可复用、可治理、可授权的接口层。
PM angle: 做 agent 产品时,要把 MCP 当成权限、审计、工具质量和开发者生态问题,而不只是技术集成。
agent MCP
Short answer: 不仅评测代码是否能运行,还要评测上下文命中率、测试通过率、补丁可读性、安全风险、review 接受率、回滚能力、任务完成时间和人工介入成本。
PM angle: 面向开发者的 LLM 产品,真正的 KPI 是交付质量和信任,而不是生成 token 数。
coding-agent evaluation
Short answer: Token 是模型处理和计费的基本单位,可能是字符、子词、词片段或字节组合,不等于自然语言中的词。
PM angle: 估算成本和上下文时用 token,不要用字数。
token
Short answer: Embedding 是把离散对象映射到向量空间的表示,语义相近的文本通常向量距离更近。
PM angle: RAG 质量很大程度取决于 embedding 是否适配业务语料。
embedding RAG
Short answer: Attention 让每个 token 动态关注其他 token,从而建模长距离依赖和上下文关系。
PM angle: 它解释了模型为何能处理上下文,也解释了长上下文为什么贵。
attention
Short answer: Q 表示当前 token 想找什么,K 表示其他 token 提供什么索引,V 是被聚合的信息内容。
PM angle: 这能帮助 PM 理解“检索”和“上下文关联”的类比,但不要过度拟人化。
attention
Short answer: 生成时缓存历史 token 的 Key/Value,避免每生成一个 token 都重新计算全部历史。
PM angle: KV cache 提升速度但吃显存;长对话和长文档会显著推高成本。
inference
Short answer: 动态知识、私有知识、可引用知识优先 RAG;稳定格式、风格、任务行为可考虑 fine-tuning。
PM angle: 先问“缺知识还是缺行为”。这是最实用的一条。
RAG fine-tuning
Short answer: 可能是没召回、召回错、上下文太噪、模型没遵守引用、问题本身超出证据,或评测没覆盖。
PM angle: RAG 不是事实保险,需要检索评测和答案评测两套指标。
RAG evaluation
Short answer: 它们降低微调显存和计算成本,LoRA 训练低秩 adapter,QLoRA 结合量化进一步节省显存。
PM angle: 适合试验垂直行为微调,但仍然需要高质量数据和评测。
fine-tuning
Short answer: RLHF 通常包含奖励模型和策略优化;DPO 用偏好对直接优化;GRPO 常用于可验证奖励下的推理训练。
PM angle: 不用深背公式,重点是它们改变偏好和任务行为,不是修复知识库的首选。
alignment
Short answer: 榜单任务和真实用户分布不同,产品还受延迟、成本、稳定性、安全、格式遵循和工具链影响。
PM angle: 模型选型要用自己的黄金集和线上目标闭环。
evaluation
Short answer: 当任务主要是格式、语气、步骤约束、少量示例和轻量知识注入时,prompt/template 通常最快。
PM angle: 先做 prompt baseline,再决定是否上 RAG 或微调。
prompt
Short answer: 长上下文能塞更多材料,但不保证检索、排序、证据使用和成本可控。RAG 还能处理权限、更新和引用。
PM angle: 长上下文适合少量长材料精读,企业知识库仍要检索系统。
context RAG
Short answer: 它们控制采样随机性:temperature 改变分布尖锐程度,top-k/top-p 限制候选 token 集合。
PM angle: 事实型任务降低随机性,创意型任务可提高随机性,但要监控一致性。
decoding
Short answer: 模型要先处理完整输入上下文完成 prefill,然后才进入逐 token decode。长输入会拖慢首 token。
PM angle: 流式输出只能改善感知,不会消灭 prefill 成本。
inference
Short answer: 用户或检索文档中的恶意指令试图覆盖系统规则或诱导模型泄露/越权。
PM angle: 凡是有 RAG 或工具调用的产品都要把它当安全需求,而非边缘问题。
security
Short answer: 不是。高质量、多样、覆盖目标行为的数据通常比低质量大规模数据更重要。
PM angle: AIPM 要设计数据生产、审核和失败样本回流机制。
SFT data
Short answer: MoE 用稀疏激活扩大参数容量,可能提升性价比,但路由、稳定性和服务复杂度更高。
PM angle: 选模型时关心实际延迟/成本/稳定性,不必只看参数总量。
MoE
Short answer: 可能。低精度能降显存和成本,但对困惑任务、长上下文、数学/代码等可能有质量影响。
PM angle: 量化是成本手段,必须用产品任务集回归。
quantization
Short answer: Workflow 是预定义流程,agent 让模型动态选择下一步和工具。
PM angle: 能用 workflow 就先用 workflow;agent 留给路径变化大且收益明确的场景。
agent
Glossary
Source Index
这些来源用于抽象知识结构和核对主题覆盖;本知识库不复制原文长段落。GitHub 资料偏经验和八股,CS336 与论文资料负责技术骨架。