大厂的同事们，你们是怎么定位线上故障的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

我先分享下我们小厂是怎么玩的

所有服务节点都接了 pinponit ，然后结合 kibana 收集的线上日志+traceid

分享几张今天新鲜出炉的 bug 图

今天发现根据这个 pp 的日志就很快定位到有查全表的场！

第 1 条附言 · 5 天前

这个帖子还是很牛的，每个人都分享一种模式

这样每个都都有 N 种处理思想了

pinpoint

kibana

traceid

125 条回复 • 2025-05-07 11:07:52 +08:00

1 2

❮

❯

101

mbeoliero123

6 天前

@seth19960929 #58 小厂应该没有必要上 tracing 吧？只需要有 log id 串联就行？

102

totoro52

5 天前

@alphagao 什么各种神仙监控，各种监控大屏，还不如 tail -f xxx.log | grep "" 来的直接说是在。。。🤡

103

prosgtsr

5 天前 via iPhone

@whoami9426 压力拉满

104

5261

5 天前

@njmaojing 你这个日志告警是触发后走钉钉机器人推送过去的？还是有其他方式呢

105

seth19960929

5 天前

@mbeoliero123 看需求

106

gotkx

5 天前

啊，
第一步，上 sls ，获取全部请求的 trace_id ，和调用情况
第二步，上 arms ，查看整体的服务状态，可以直接拿第一步的 trace_id 追溯
第三步，上 mse 限流，查不出异常的接口和功能，直接限流

我一直以为大家都一样呢，看了下评论才知道。。。。

107

5261

5 天前

@gotkx 你说的这几个 sls 、arms 、mse 我是真第一次听说，老哥给介绍下全名或者说是啥平台的服务呢？

108

iClass

5 天前 via Android

大厂没有同事只有同行还有某些同志 👯‍♂️

109

huzhizhao

5 天前

外包仔路过
log
猜
测试环境尝试复现
本地 debug

110

zoharSoul

4 天前

@5261 #107 都是阿里云的

111

gotkx

4 天前

@5261 全都是阿里云的产品

112

starlion

3 天前

Prometheus + SkyWalking + grafana

113

saltpi

3 天前

以前开发 iOS ，线上生产 App 崩溃，Xcode 打开就可以收到崩溃通知，点开具体版本，可以定位到具体崩溃的源码行和出现错误时的本地变量值

114

5261

3 天前

@saltpi 我们这块也是类似，都是 app 把崩溃日志上传到服务端

115

5261

3 天前

@starlion 高端

116

njmaojing

1 天前

@5261 #104 走 ELK ，然后 watcher 上写规则去匹配，满足条件的调飞书的 API

117

ala2008

1 天前

@yibo2018 说真的，自建了 elk 和 skywalking 都没用上，还浪费了服务器

118

5261

1 天前

@ala2008 这玩意就真的就是冗余，需要的时候总不能临时搞，关键来没有事故现场

119

pulutom40

1 天前 via iPhone

大厂也没这么牛的工具，坐标百度，bug 定位全靠 grep 。什么你问线上几千台机器怎么 grep ？那就写个脚本把命令发到每天机器上去 grep 。结果 grep 命令过滤没写好，日志拉太多，把机房网络 io 干满了，喜提新事故一个。

不信你去百度面试看看，上来就是问 diff awk gerp 命令，入职前我还纳闷，这些破命令问这么细干嘛，入职后才知道，原来不精通这些命令，根本找不出 bug 在哪。

120

yrzs

1 天前

OTEL 全链路追踪+EFK

121

5261

1 天前

@pulutom40 咱百度那么扣嘛，也不给开发整套日志定位系统啥的

122

pulutom40

1 天前 via iPhone

@5261 定位系统不存在的，线上服务器操作系统 centos4 ，线上 php 版本 5.4 。这些东西年纪都基本上跟我一样大了，你觉得可能有啥牛逼东西么。大厂只是大，不代表技术有多牛

123

pulutom40

1 天前 via iPhone

日志系统越大的公司越不愿意做，再说一个我呆过的公司，月活用户亿级别。早期日志系统是 elk 那一套，光日志系统，es 的年维护成本是十亿+人民币。

然后在降本增效的社会背景下，日志降本第一个被提出来，为此基础平台部先做了 es 魔改加了各种压缩算法，但是收效甚微。于是又把 es 换成了 ck ，但成本也没少多少。再后来又把日志成本分摊到各个部门，要求各个部门自己治理。但是大家能怎么治理，而且迁到 ck 后使用体验已经很差了，于是各部门纷纷下线日志收集。最终日志也和百度变成一样的，查问题全靠 grep 。

这样相当于绝大部分部门直接下线了日志系统，日志成本治理顺利完成，在老板看来，大家 bug 照样改，但是研发成本每年降低 xx 亿

124

5261

1 天前

@pulutom40 elk 那套成本确实高，人间真实！而且我们还是业务 es 和日志 es 两套独立系统，这成本就是更加翻倍！

等哪天需要降本增效，第一刀应该也是砍 elk 这套了

125

littlesky87906

9 小时 51 分钟前

@weilai99 占用资源并不算多，4c16g 就妥了。访问量 1000rps 左右

1 2

❮

❯