什么时候适合用这份清单
如果一个生产或 beta 阶段的小平台需要扛住发布、活动、抢票、campaign 或 creator announcement 带来的突发流量,但平时流量又低到不值得长期高配,这份清单就适合先做诊断。
先收集哪些信号
- 正常流量和历史最高突发流量下的核心路径延迟。
- Railway service 限制、重启历史、部署耗时和 autoscaling 行为。
- Cloudflare cache hit ratio、route rules、WAF 事件、origin error rate,以及 worker 或 tunnel 限制。
- Postgres 连接数、慢查询、锁等待、连接池行为、索引使用,以及备份或 migration 窗口。
- 一个最小 load test,把缓存读、未缓存读、写入、登录、管理后台路径分开。
通常先坏在哪里
500 RPS 目标很多时候不是单纯算力问题,而是四类隐藏瓶颈之一:太多请求打到 origin、缓存边界不清、数据库连接压力,或者部署/重启路径把短暂突发变成恢复事故。
有用的诊断应该交付什么
- 一个简短瓶颈地图:edge、app、database、deploy 或 observability。
- 不需要生产 credential 的 load-test 计划。
- 小团队能执行的 monitoring 和 alert 清单。
- 把突发容量和低峰基线容量分开的成本控制说明。
- 前一两个改动的可回滚 runbook。
Starter offer
如果这接近你的情况,可以看 99 美元 Flev DevOps 扩容诊断 这个固定小范围 offer,也可以直接从 Flev DevOps intake 开始。
输出会刻意保持克制:给出足够证据来决定第一个安全改动,而不是承诺代管生产环境或处理 secret。