前言

前言、理论,实践请参考 微博增值团队可观测性探索与实践-初探微博增值团队可观测性探索与实践-实践 。强烈建议优先阅读。

提前说明一下,本人现在已经从微博离职了,这篇文章算是对我过去两年多关于可观测性相关工作的反思与回顾吧。换句话说,《微博增值团队可观测性探索与实践》系列也彻底完结了。时间好快,这个项目从立项到现在转眼两年多过去了。在微博工作也都四年了。咳咳跑题了。

截止23年3月末,微博增值团队从上线一站式可观测平台到现在也运行了差不多两年的时间了。在这两年里,团队成员通过一站式可观测平台不断优化和改进服务,提高了整体系统的性能与稳定性(3个9到4个9,tp99 case by case优化,平均下降 100ms),同时降低了问题发现和定位的时间(5分钟发现问题,30分钟内定位问题),从而使开发人员能够更专注于创新和业务发展。

今天本文主要想说一些整个一站式可观测平台发展过程中需要回顾与反思的一些点。在回顾的过程中,我将从以下几个方面进行思考与总结:

  1. 目标与需求
  2. 技术选型
  3. 实施过程
  4. 团队协作
  5. 用户体验
  6. 成本和效益
  7. 风险管理
  8. 组织和文化

项目开发是一个复杂的过程,需要考虑众多因素。因此,在开发过程中需要不断进行反思和总结,及时发掘问题和给出改进方案,为项目的成功发展提供有效保证。由于篇幅较长,为了便于阅读消化,本文将分为上下两篇来进行整理。上篇主要讲一下目标与需求、技术选型、实施过程和团队协作。

目标与需求

在项目开发过程中,项目的目标和需求是开发的基础。确立好项目目标和需求后,才能从根本上保证项目的开发方向和成果符合用户的期望。在项目开发过程中,需要充分考虑用户的需求和期望,以此为基础制定项目的目标。同时,项目的目标应该具有明确性、可量化性、可操作性和可验证性等特征,以便于评估项目成果是否达到预期目标。在整个开发周期中,需要不断关注用户需求和反馈,及时调整项目目标和需求,以确保项目的持续适应性和可持续发展性。审视我们当初设定的目标和需求是否得到了满足,是否有新的需求和挑战出现,以便对现有解决方案进行持续优化和改进。

回顾目标:

  1. 寻找更趁手的工具,让开发人员更专注于开发本身。(缺少排查问题工具、开发人员人肉或凭经验排查问题。频繁代码上线 debug。)
  2. 希望90%的问题能通过报警主动发现,而非用户反馈。(减少异常影响范围)
  3. 期望问题从发现到定位的耗时缩短至15-30分钟,缩短MTTR(平均修复时间)。