大厂的同事们，你们是怎么定位线上故障的？

12 天前

5261

我先分享下我们小厂是怎么玩的

所有服务节点都接了 pinponit ，然后结合 kibana 收集的线上日志+traceid

分享几张今天新鲜出炉的 bug 图

今天发现根据这个 pp 的日志就很快定位到有查全表的场！

11381 次点击

所在节点

程序员

125 条回复

Charlie17Li

12 天前

纵坐标是啥，我们都是 SLS 查关键字

tudou1514

12 天前

牛逼的用眼看，其余的 grep -i xxx.log |less

iguess

12 天前

第一阶段：看日志

bli22ard

12 天前

@whoami9426 #40 这个是不是 javaagent 实现的？

whoami9426

12 天前

@bli22ard 基于 aop 实现的, aop + git blame + webhook

spinlock

12 天前

代码注释二分查找

alphagao

12 天前

@ala2008 我云服务公司也是这么查的。。。甚至有的容器日志没有映射，还得现查日志文件路径

Alliot

12 天前

总的来说就是可观测性那一套 Metrics+Log+tracing.

用得多的就是 Promethues 全家桶，ELK 那套日志，加 APM.

往细节上，
除去系统性能指标那些，还加上了应用/业务指标的监控。
网关层面的状态码监控。
再加上数据库慢 SQL 之类的监控。
最后还有就是波测，SaaS 多地监控。

bli22ard

12 天前

@whoami9426 #85 git blame 只有在编译阶段才有吧，难道你们每次编译生成了一个代码行和 git blame 的对应关系，出现异常，用堆栈类+行号取找 git blame 的信息，然后生成通知信息？

whoami9426

12 天前

@bli22ard #89 是直接请求 git 平台的 git blame api , 根据仓库,分支实时读取的最新的代码

bli22ard

12 天前

@whoami9426 #90 厉害了。

zcl0621

12 天前

@weilai99 量大 selfhosting 的 sentry 能搞死你，我折腾了俩月，才扛住 50W 日活的 app

JoeDH

12 天前

@zcl0621 #92 大概需要多少服务器资源，我有个项目也想用用这玩意

quzard

12 天前

完全用 SLS 来排查和运维

caqiko

12 天前

@lepig 最近学习的 grep "error" *.log -ni --color=always

zcl0621

12 天前

@JoeDH kafka ，redis ，pg ，clickhouse 全部拆出去部署；需要修改 selfhosting 的脚本，compose 文件，还有几个 py 文件；以及手动去执行 kafka ，pg ，clickhouse 的初始化文件；其他那些组件都跑在一台 16c 还是 32c 的机器上(目前离职一段时间了，我不太记得了);还需要调整 container 的数量。总之 selfhosting 的坑贼多，文档也很少，只能自己摸索。

wogogoing

12 天前

看来思路是类似的💪

https://blog.keepchen.com/a/talk-about-api-response-structure.html

jukanntenn

12 天前

我们公司是
try:
...
except:
pass

没有报错就没有 bug

kid1412621

12 天前

@proxychains #73 加下 —no-pager😂

kid1412621

12 天前

没人折腾这个吗？ LGTM

https://github.com/grafana/docker-otel-lgtm

第 5 页／共 7 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1129060

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.