稳定性和效率的建设
定位
- 技术为业务服务,
稳定性
- 设计
- 开发测试流程
- 故障角度
- 预防演练,故障注入
- 提早发现
- 辅助定位
- 快速恢复
- 方法论和工具
效率
- docker化
- 中间件
- 流程优化
稳定性和效率其实是双赢的关系,而不是稳定性如何双赢
上线流程
- 上线流程规范:明确且落地到wiki
- 上线checklist:明确可执行的检查项,必须包含预览机验证环节及灰度发布环节。落地到wiki或沉淀到共享文档
- (可选)预览机验证环节&灰度发布环节实践:有落地沉淀并可以广泛推广借鉴的灰度发布实践,形成带实例的推广材料
- (可选)工具创新及应用:工具的引入或创新,应用指南说明及实践沉淀的分享材料。
Coderivew实践
- 有代码owner机制规范,落地到wiki
- 采用了工具进行Codereview
- 核心代码均采取了强制Codereview策略
- 代码库、代码owner、CR单数据接入星辰平台统计大盘
持续集成
- 接入静态代码扫描,有扫描结果报告
- 接入自动构建和打包(接入Jenkins和SCMPF)
- 自动化测试用例覆盖率达到50%以上,相应的测试报告、测试cas、及自动化测试实例代码,落地到文档或者wiki
- (可选)自动化测试的实践分享材料
稳定性承诺
- 具有明确的sla定义及可度量公式
- 落地到星辰平台且所有核心链路上的调用方均签署完毕
架构设计
- 有架构评审机制及流程规范,落地到wiki
- 有明确的架构评审checklist检查项列表
- 架构评审的结果有文档沉淀或者落地到wiki
- (可选)有落地沉淀并可以分享的优秀架构设计实践实例材料
容量预估
- 压测方案,执行结果及改进方案落地沉淀到wiki或共享文档
- 明确给出容量核心指标:QPS、并发量、平均响应时间、机器规模
- 有明确的容量预估方案并落地到wiki平台,其中必须包含“预估总访问量、预估平均QPS、预估峰值QPS,单机极限QPS”
- 并包含明确的容量预估公示,和3个月内的峰值实际容量与系统压测数据
- (可选)有容量预估系统,容量预警告警建设及机制
服务化实践
- 服务标准化相关设计方案,实践效果沉淀落地到wiki或共享文档
- 分层设计&服务拆分
- 数据库拆分
- 缓存拆分
- API收敛
- 数据流和特征收敛
- 服务全部/核心接口文档
- 服务发现接入:php版本服务发现接入、golang版本服务发现接入
- 其他详细方案及实践【请提供监控指标清单及监控系统链接,wiki页面链接】
监控建设
- 监控标准化Metrics已接入;
- 具备监控大盘:含系统层面、DB层面、业务层面。明确提供监控指标及监控系统链接;
- 核心指标配置了告警策略,有明确的告警后处理流程规范,落地到wiki。
降级实施
- 有降级预案且预案已上线
- 上线前预演生效,预演方案及结果沉淀到wiki
- 有快速降级能力及技术策略并落地到wiki +(可选)有创新工具及可推广的分享技术实践建设
容灾设计和冗余
单元化,双活是它的第二个阶段,多活是第三个阶段
重大的机房或网络坏损灾难的容灾方案,落地到wiki,或共享文档
- 部分容灾预案是可以进行定期预演的
- 有定期预演的结果报告
单元化实施完成,方案需要落地到wiki上