大厂的同事们,你们是怎么定位线上故障的?

12 天前
 5261

我先分享下我们小厂是怎么玩的

所有服务节点都接了 pinponit ,然后结合 kibana 收集的线上日志+traceid

分享几张今天新鲜出炉的 bug 图

今天发现根据这个 pp 的日志就很快定位到有查全表的场!

11381 次点击
所在节点    程序员
125 条回复
Charlie17Li
12 天前
纵坐标是啥,我们都是 SLS 查关键字
tudou1514
12 天前
牛逼的用眼看,其余的 grep -i xxx.log |less
iguess
12 天前
第一阶段: 看日志
bli22ard
12 天前
@whoami9426 #40 这个是不是 javaagent 实现的?
whoami9426
12 天前
@bli22ard 基于 aop 实现的, aop + git blame + webhook
spinlock
12 天前
代码注释 二分查找
alphagao
12 天前
@ala2008 我云服务公司也是这么查的。。。甚至有的容器日志没有映射,还得现查日志文件路径
Alliot
12 天前
总的来说就是可观测性那一套 Metrics+Log+tracing.

用得多的就是 Promethues 全家桶,ELK 那套日志, 加 APM.

往细节上,
除去系统性能指标那些,还加上了应用/业务指标的监控。
网关层面的状态码监控。
再加上数据库慢 SQL 之类的监控。
最后还有就是波测,SaaS 多地监控。
bli22ard
12 天前
@whoami9426 #85 git blame 只有在编译阶段才有吧, 难道你们每次编译生成了一个代码行和 git blame 的对应关系,出现异常 ,用堆栈类+行号 取找 git blame 的信息,然后生成通知信息?
whoami9426
12 天前
@bli22ard #89 是直接请求 git 平台的 git blame api , 根据仓库,分支 实时读取的最新的代码
bli22ard
12 天前
@whoami9426 #90 厉害了。
zcl0621
12 天前
@weilai99 量大 selfhosting 的 sentry 能搞死你,我折腾了俩月,才扛住 50W 日活的 app
JoeDH
12 天前
@zcl0621 #92 大概需要多少服务器资源,我有个项目也想用用这玩意
quzard
12 天前
完全用 SLS 来排查和运维
caqiko
12 天前
@lepig 最近学习的 grep "error" *.log -ni --color=always
zcl0621
12 天前
@JoeDH kafka ,redis ,pg ,clickhouse 全部拆出去部署;需要修改 selfhosting 的脚本,compose 文件,还有几个 py 文件;以及手动去执行 kafka ,pg ,clickhouse 的初始化文件;其他那些组件都跑在一台 16c 还是 32c 的机器上(目前离职一段时间了,我不太记得了);还需要调整 container 的数量。总之 selfhosting 的坑贼多,文档也很少,只能自己摸索。
wogogoing
12 天前
jukanntenn
12 天前
我们公司是
try:
...
except:
pass

没有报错就没有 bug
kid1412621
12 天前
@proxychains #73 加下 —no-pager😂
kid1412621
12 天前
没人折腾这个吗? LGTM

https://github.com/grafana/docker-otel-lgtm

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1129060

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX