V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
5261
V2EX  ›  程序员

大厂的同事们,你们是怎么定位线上故障的?

  •  1
     
  •   5261 · 7 天前 · 11136 次点击

    我先分享下我们小厂是怎么玩的

    所有服务节点都接了 pinponit ,然后结合 kibana 收集的线上日志+traceid

    分享几张今天新鲜出炉的 bug 图

    今天发现根据这个 pp 的日志就很快定位到有查全表的场!

    第 1 条附言  ·  5 天前
    这个帖子还是很牛的,每个人都分享一种模式

    这样每个都都有 N 种处理思想了
    125 条回复    2025-05-07 11:07:52 +08:00
    1  2  
    mbeoliero123
        101
    mbeoliero123  
       6 天前
    @seth19960929 #58 小厂应该没有必要上 tracing 吧?只需要有 log id 串联就行?
    totoro52
        102
    totoro52  
       5 天前
    @alphagao 什么各种神仙监控,各种监控大屏,还不如 tail -f xxx.log | grep "" 来的直接说是在。。。🤡
    prosgtsr
        103
    prosgtsr  
       5 天前 via iPhone
    @whoami9426 压力拉满
    5261
        104
    5261  
    OP
       5 天前
    @njmaojing 你这个日志告警是触发后走钉钉机器人推送过去的?还是有其他方式呢
    seth19960929
        105
    seth19960929  
       5 天前
    @mbeoliero123 看需求
    gotkx
        106
    gotkx  
       5 天前
    啊,
    第一步 ,上 sls ,获取全部请求的 trace_id ,和调用情况
    第二步,上 arms ,查看整体的服务状态,可以直接拿第一步的 trace_id 追溯
    第三步,上 mse 限流,查不出异常的接口和功能,直接限流

    我一直以为大家都一样呢,看了下评论才知道。。。。
    5261
        107
    5261  
    OP
       5 天前
    @gotkx 你说的这几个 sls 、arms 、mse 我是真第一次听说,老哥给介绍下全名或者说是啥平台的服务呢?
    iClass
        108
    iClass  
       5 天前 via Android
    大厂没有同事 只有同行 还有某些同志 👯‍♂️
    huzhizhao
        109
    huzhizhao  
       5 天前
    外包仔路过
    log

    测试环境尝试复现
    本地 debug
    zoharSoul
        110
    zoharSoul  
       4 天前
    @5261 #107 都是阿里云的
    gotkx
        111
    gotkx  
       4 天前
    @5261 全都是阿里云的产品
    starlion
        112
    starlion  
       3 天前
    Prometheus + SkyWalking + grafana
    saltpi
        113
    saltpi  
       3 天前
    以前开发 iOS ,线上生产 App 崩溃,Xcode 打开就可以收到崩溃通知,点开具体版本,可以定位到具体崩溃的源码行和出现错误时的本地变量值
    5261
        114
    5261  
    OP
       3 天前
    @saltpi 我们这块也是类似,都是 app 把崩溃日志上传到服务端
    5261
        115
    5261  
    OP
       3 天前
    @starlion 高端
    njmaojing
        116
    njmaojing  
       1 天前
    @5261 #104 走 ELK ,然后 watcher 上写规则去匹配,满足条件的调飞书的 API
    ala2008
        117
    ala2008  
       1 天前
    @yibo2018 说真的,自建了 elk 和 skywalking 都没用上,还浪费了服务器
    5261
        118
    5261  
    OP
       1 天前
    @ala2008 这玩意就真的就是冗余,需要的时候总不能临时搞,关键来没有事故现场
    pulutom40
        119
    pulutom40  
       1 天前 via iPhone   ❤️ 2
    大厂也没这么牛的工具,坐标百度,bug 定位全靠 grep 。什么你问线上几千台机器怎么 grep ?那就写个脚本把命令发到每天机器上去 grep 。结果 grep 命令过滤没写好,日志拉太多,把机房网络 io 干满了,喜提新事故一个。

    不信你去百度面试看看,上来就是问 diff awk gerp 命令,入职前我还纳闷,这些破命令问这么细干嘛,入职后才知道,原来不精通这些命令,根本找不出 bug 在哪。
    yrzs
        120
    yrzs  
       1 天前
    OTEL 全链路追踪+EFK
    5261
        121
    5261  
    OP
       1 天前
    @pulutom40 咱百度那么扣嘛,也不给开发整套 日志定位系统啥的
    pulutom40
        122
    pulutom40  
       1 天前 via iPhone
    @5261 定位系统不存在的,线上服务器操作系统 centos4 ,线上 php 版本 5.4 。这些东西年纪都基本上跟我一样大了,你觉得可能有啥牛逼东西么。大厂只是大,不代表技术有多牛
    pulutom40
        123
    pulutom40  
       1 天前 via iPhone
    日志系统越大的公司越不愿意做,再说一个我呆过的公司,月活用户亿级别。早期日志系统是 elk 那一套,光日志系统,es 的年维护成本是十亿+人民币。

    然后在降本增效的社会背景下,日志降本第一个被提出来,为此基础平台部先做了 es 魔改加了各种压缩算法,但是收效甚微。于是又把 es 换成了 ck ,但成本也没少多少。再后来又把日志成本分摊到各个部门,要求各个部门自己治理。但是大家能怎么治理,而且迁到 ck 后使用体验已经很差了,于是各部门纷纷下线日志收集。最终日志也和百度变成一样的,查问题全靠 grep 。

    这样相当于绝大部分部门直接下线了日志系统,日志成本治理顺利完成,在老板看来,大家 bug 照样改,但是研发成本每年降低 xx 亿
    5261
        124
    5261  
    OP
       1 天前
    @pulutom40 elk 那套成本确实高,人间真实!而且我们还是 业务 es 和 日志 es 两套独立系统,这成本就是更加翻倍!

    等哪天需要降本增效,第一刀应该也是砍 elk 这套了
    littlesky87906
        125
    littlesky87906  
       9 小时 51 分钟前
    @weilai99 占用资源并不算多,4c16g 就妥了。访问量 1000rps 左右
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3057 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 12:59 · PVG 20:59 · LAX 05:59 · JFK 08:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.