大厂的同事们,你们是怎么定位线上故障的?

12 天前
 5261

我先分享下我们小厂是怎么玩的

所有服务节点都接了 pinponit ,然后结合 kibana 收集的线上日志+traceid

分享几张今天新鲜出炉的 bug 图

今天发现根据这个 pp 的日志就很快定位到有查全表的场!

11372 次点击
所在节点    程序员
125 条回复
spritecn
12 天前
@seth19960929 SLS 是不差钱的公司才用得起的
5261
12 天前
@seth19960929 我们有小项目是接的阿里云的日志系统,总感觉没有自己搭建的 elk 灵活
njmaojing
12 天前
1 、站点监控:每个服务 api 探活
2 、日志堆栈告警
3 、链路监控,模拟用户真实请求
先靠这些主动发现问题,具体怎么处理问题,就是 tail -f ,pinpoint ,查看埋点之类的
weilai99
12 天前
@littlesky87906 自托管的 sentry 57 个容器,是认真的吗?
luciankaltz
12 天前
说存 ELK 的能问下数据规模和成本吗(
lu5je0
12 天前
各种监控埋点
lizhengg
12 天前
前端+app 一套探针探测组件性能上报,后端 Apm 探针,堆栈链路分析工具,云 LTS 日志存储检索,基础设施性能,中间件慢日志,队列堆积监测等,可观测性系统加混沌工程定期测试,每个月应急演练。
R77
12 天前
小厂,接口,服务器监控,人肉 log 分析
AmaQuinton
12 天前
kubectl -n namespace logs -f pod-name --since=1h
pigf
12 天前
@MuSeCanYang 尾大不掉
Torpedo
12 天前
@0x49 #24 大厂内部平台也很多这么搞的。很多问题都是用户反馈的
BestPix
12 天前
@whoami9426 感谢分享,很有用!
proxychains
12 天前
journalctl -xeu myapp | grep -i err
5261
12 天前
@luciankaltz 成本确实有点大,光 es 3 个节点 就要不少费用
Grocker
12 天前
SLS
NathanInMac
12 天前
最简单就 Sentry + SLS + OpenTelemetry
yibo2018
12 天前
@ala2008 正儿八经,我发现 tail -f 比查阿里云那个破烂日志好用多了
qbmiller
12 天前
楼主用的 elk 那套吗。 loki 那套 看好多用的
Youko
12 天前
arthas 挺好用
seth19960929
12 天前
@spritecn SLS 还挺便宜的, https://sls.console.aliyun.com/lognext/tools/calculator 100G 30 天保存, 一天 40 块
@5261 #62 没感觉有什么灵活的, 反正比自建省事, 毕竟 k8s 也用阿里云的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1129060

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX