大厂的同事们,你们是怎么定位线上故障的?

11 天前
 5261

我先分享下我们小厂是怎么玩的

所有服务节点都接了 pinponit ,然后结合 kibana 收集的线上日志+traceid

分享几张今天新鲜出炉的 bug 图

今天发现根据这个 pp 的日志就很快定位到有查全表的场!

11328 次点击
所在节点    程序员
125 条回复
Lockroach
11 天前
tail -f xxx.log | grep xxx --color
8355
11 天前
全链路+网关+告警啊
whoami9426
11 天前
@whoami9426 #30 异常直接到群里自动分析堆栈并找到代码的提交人 at 对应的人处理并附带上全链路的日志
VVVYGD
11 天前
skywalking + 自研类似 skywalking 项目 + EBPF + 知识图谱系图数据资产
vincentWdp
11 天前
一边复现, 一边看日志
craftsmanship
11 天前
这帖子看得我笑中带泪啊🥹
Sanow
11 天前
arthas 直接排查
epicSoldier
11 天前
less xxx.log;
xx%;
page down...
layxy
11 天前
日志+监控基本能够排查绝大部分故障
yc8332
11 天前
接口响应时间+服务器的各种监控告警。。
lilyou
11 天前
@whoami9426 q 请问这个怎么实现的
5261
11 天前
@Sanow 这玩意来不及的!我不知道你们线上是怎么靠这个查问题的
billbob
11 天前
docker service logs -t app 打开,测试你再点一下
crackidz
11 天前
线上直接 debug
declandragon
11 天前
php lumen 框架
error handle 写日志
filebeat 收集上报 elk
python 每 20 分钟定时统计,有错误发通知到群里
whoami9426
11 天前
@lilyou readm 中有介绍原理,主要是通过 @AfterThrowing
seth19960929
11 天前
小厂直接上阿里云的 tracing 就行了, 很便宜, 全量 30 天存储一个月几千块


https://www.shiguopeng.cn/posts/2024032815/
不过上了之后, 又发现一个别的 bug >_
seth19960929
11 天前
一个在用的方案:
日志: k8s 容器 (写文件 | 标准输出), 阿里云 SLS 自动收集到对应的服务
链路: 使用标准的 opentelemetry 协议上报到 阿里云 ARMS, 如上图
报警: 总共三层 日志(SLS)聚合, tracing 聚合(p95, HTTP 错误), gateway 错误
gateway (这一层一定要加, 曾经吃过亏, 服务进程卡死, 日志不收集, tracing 也不上报了, 直到 gateway 层 500 错误很多)

supuwoerc
11 天前
less run.log :G :?error
vipfts
11 天前
@0x49 超小微公司, 我们也是

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1129060

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX