大厂的同事们,你们是怎么定位线上故障的?

12 天前
 5261

我先分享下我们小厂是怎么玩的

所有服务节点都接了 pinponit ,然后结合 kibana 收集的线上日志+traceid

分享几张今天新鲜出炉的 bug 图

今天发现根据这个 pp 的日志就很快定位到有查全表的场!

11384 次点击
所在节点    程序员
125 条回复
mbeoliero123
11 天前
@seth19960929 #58 小厂应该没有必要上 tracing 吧?只需要有 log id 串联就行?
totoro52
11 天前
@alphagao 什么各种神仙监控,各种监控大屏,还不如 tail -f xxx.log | grep "" 来的直接说是在。。。🤡
prosgtsr
11 天前
@whoami9426 压力拉满
5261
10 天前
@njmaojing 你这个日志告警是触发后走钉钉机器人推送过去的?还是有其他方式呢
seth19960929
10 天前
@mbeoliero123 看需求
gotkx
10 天前
啊,
第一步 ,上 sls ,获取全部请求的 trace_id ,和调用情况
第二步,上 arms ,查看整体的服务状态,可以直接拿第一步的 trace_id 追溯
第三步,上 mse 限流,查不出异常的接口和功能,直接限流

我一直以为大家都一样呢,看了下评论才知道。。。。
5261
10 天前
@gotkx 你说的这几个 sls 、arms 、mse 我是真第一次听说,老哥给介绍下全名或者说是啥平台的服务呢?
iClass
10 天前
大厂没有同事 只有同行 还有某些同志 👯‍♂️
huzhizhao
10 天前
外包仔路过
log

测试环境尝试复现
本地 debug
zoharSoul
10 天前
@5261 #107 都是阿里云的
gotkx
10 天前
@5261 全都是阿里云的产品
starlion
9 天前
Prometheus + SkyWalking + grafana
saltpi
9 天前
以前开发 iOS ,线上生产 App 崩溃,Xcode 打开就可以收到崩溃通知,点开具体版本,可以定位到具体崩溃的源码行和出现错误时的本地变量值
5261
8 天前
@saltpi 我们这块也是类似,都是 app 把崩溃日志上传到服务端
5261
8 天前
@starlion 高端
njmaojing
6 天前
@5261 #104 走 ELK ,然后 watcher 上写规则去匹配,满足条件的调飞书的 API
ala2008
6 天前
@yibo2018 说真的,自建了 elk 和 skywalking 都没用上,还浪费了服务器
5261
6 天前
@ala2008 这玩意就真的就是冗余,需要的时候总不能临时搞,关键来没有事故现场
pulutom40
6 天前
大厂也没这么牛的工具,坐标百度,bug 定位全靠 grep 。什么你问线上几千台机器怎么 grep ?那就写个脚本把命令发到每天机器上去 grep 。结果 grep 命令过滤没写好,日志拉太多,把机房网络 io 干满了,喜提新事故一个。

不信你去百度面试看看,上来就是问 diff awk gerp 命令,入职前我还纳闷,这些破命令问这么细干嘛,入职后才知道,原来不精通这些命令,根本找不出 bug 在哪。
yrzs
6 天前
OTEL 全链路追踪+EFK

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1129060

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX