大厂的同事们,你们是怎么定位线上故障的?

12 天前
 5261

我先分享下我们小厂是怎么玩的

所有服务节点都接了 pinponit ,然后结合 kibana 收集的线上日志+traceid

分享几张今天新鲜出炉的 bug 图

今天发现根据这个 pp 的日志就很快定位到有查全表的场!

11387 次点击
所在节点    程序员
125 条回复
5261
6 天前
@pulutom40 咱百度那么扣嘛,也不给开发整套 日志定位系统啥的
pulutom40
6 天前
@5261 定位系统不存在的,线上服务器操作系统 centos4 ,线上 php 版本 5.4 。这些东西年纪都基本上跟我一样大了,你觉得可能有啥牛逼东西么。大厂只是大,不代表技术有多牛
pulutom40
6 天前
日志系统越大的公司越不愿意做,再说一个我呆过的公司,月活用户亿级别。早期日志系统是 elk 那一套,光日志系统,es 的年维护成本是十亿+人民币。

然后在降本增效的社会背景下,日志降本第一个被提出来,为此基础平台部先做了 es 魔改加了各种压缩算法,但是收效甚微。于是又把 es 换成了 ck ,但成本也没少多少。再后来又把日志成本分摊到各个部门,要求各个部门自己治理。但是大家能怎么治理,而且迁到 ck 后使用体验已经很差了,于是各部门纷纷下线日志收集。最终日志也和百度变成一样的,查问题全靠 grep 。

这样相当于绝大部分部门直接下线了日志系统,日志成本治理顺利完成,在老板看来,大家 bug 照样改,但是研发成本每年降低 xx 亿
5261
6 天前
@pulutom40 elk 那套成本确实高,人间真实!而且我们还是 业务 es 和 日志 es 两套独立系统,这成本就是更加翻倍!

等哪天需要降本增效,第一刀应该也是砍 elk 这套了
littlesky87906
5 天前
@weilai99 占用资源并不算多,4c16g 就妥了。访问量 1000rps 左右

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1129060

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX