LOADING

加载过慢请开启缓存浏览器默认开启

面经3（agent）

2026/3/4 面经

2026.3.4

在与ai机器人对话中，语音交互时，如果用户重新又说一句话，比如一开始让ai自我介绍，ai正在生成，这时用户又提出其他要求，ai怎么办

我会把语音对话做成一个可打断状态机。核心原则是：先停再判，最新意图优先，低置信度确认。
具体流程是：
1. 用户说话事件触发（VAD检测到新语音）后，150ms内立即执行 cancel(TTS) 和 cancel(LLM)。
2. 并行做ASR和快速意图分类，分类成两类：补充当前任务或切换新任务。
3. 置信度阈值我会设两档：>0.75直接执行，0.45~0.75做一句确认，<0.45默认按新任务但先确认。
4. 若识别为补充，就复用当前上下文重生成；若是新任务，就创建新turn并降权旧上下文。
5. 全程保证可恢复：被中断的回答保留摘要，用户说‘继续刚才的’时可秒恢复。
这样体验上不抢话，工程上可控，错误切换也有兜底。

如果我有10000个ai机器人同时在被执行使用，怎么解决延迟问题

全链路流式：ASR 增量、LLM streaming、TTS 分片，避免“全量返回再播报”。
推理引擎优化：continuous batching、paged KV cache、prompt cache。
模型路由：简单问答走小模型，复杂任务走大模型。
会话状态外置：Redis 存热上下文，减少数据库读写。
弹性扩缩容：按队列深度、P95、GPU 利用率自动扩容。
背压与限流：超过阈值立即排队或降级，防止雪崩。

怎么在与ai交流中减少token消耗

模型路由：小模型处理 60%-80% 简单请求，复杂问题再进大模型。
上下文瘦身：最近几轮原文 + 滚动摘要，避免每次带全量历史。
RAG压缩：只喂 Top-K 片段（常见 3-5 段）+ 去重，不塞整篇文档。
短答优先：先给结论，用户点“展开”再生成长文。
多级缓存：相似问答缓存、检索结果缓存、工具结果缓存。
A/B + SLO 守门：上线前后盯首包延迟/满意度/二次追问率，体验变差就回滚。

怎么用国外的模型，减少延迟，解决频繁被墙的问题

做多供应商和多区域
同时接 2-3 家模型服务、2 个以上区域，按健康度和延迟自动路由；单点抖动时秒级切换。
1. 做网络层抗抖
  连接池、HTTP/2 或 gRPC 长连接、超时分层、指数退避重试、熔断、hedged request（尾延迟请求副本）来压 P95/P99。
2. 做模型层降级
  高峰或跨境抖动时：先降 max_tokens，再切小模型；核心流程准备一个国内可用模型兜底，保证服务不断。
3. 做无感提速
  流式输出（先回首字）、Prompt/RAG 压缩、语义缓存，优先优化 TTFT（首字延迟），用户体感提升最大。

忘记了