冠亚和值3至19全包对刷
  • 首页
  • 冠亚和值3至19全包对刷介绍
  • 产品展示
  • 新闻动态

冠亚和值3至19全包对刷

  • 冠亚和值3至19全包对刷介绍
  • 产品展示
  • 新闻动态

热点资讯

  • 三国志11:四类高危叛逃武将,后两类防不胜防
  • 从“能用”到“好用”,星巴克日志平台升级的那些硬骨头
  • 在俄销量跌近30%、出口跌近60%……中国汽车可以怎么办?
  • 看到早期狗仔镜头下的乔治娜 ,才发现,C罗的眼光有多毒!
  • 广州至澳大利亚物流专线

新闻动态

你的位置:冠亚和值3至19全包对刷 > 新闻动态 > 从“能用”到“好用”,星巴克日志平台升级的那些硬骨头
从“能用”到“好用”,星巴克日志平台升级的那些硬骨头
发布日期:2025-12-17 14:50    点击次数:122

文 | 钱钱

编辑 | 阿景

星巴克中国技术部的日志平台团队最近干了件大事。

从2024年9月到2025年6月,这帮人花了近一年时间,把用了好几年的虚拟机日志平台,换成了云原生裸金属k8s平台。

别觉得这是小事,对每天要处理海量日志的业务来说,这相当于给老电脑换了块新显卡,体验直接上了个大台阶。

从“能用”到“卡到爆”,老平台的那些头疼事儿

原来的日志平台是个“老古董”组合,filebeat负责采集日志,logstash当“快递员”接收和消费数据,中间过一手kafka,最后存在ES集群里,用户通过kibana查数据。

展开剩余84%

所有组件都跑在虚拟机上,运维起来就像照顾一群脾气各异的老头,今天这个卡壳,明天那个内存溢出,头疼得很。

最让人崩溃的是查询速度。

用户想查个日志,等10秒以上是常事,有时候页面直接转圈圈到超时。

后台存储也跟着添乱,远程网络存储的IO资源就那么点,业务高峰期日志写不进去,数据堆在那儿跟堵车似的。

那会儿用户投诉“日志延迟”“查询超时”的邮件,技术团队邮箱里就没断过。

平台卡成这样,升级这事儿就不能再拖了。

技术层面得把查询效率和写入能力提上去,不然活动高峰期数据丢了算谁的?成本层面也得想想办法,总不能一直靠买硬件堆性能吧?业务那边更不用说,促销活动一上,日志数据量翻倍,老平台根本扛不住。

升级目标很明确,不光要“能用”,还得“好用”。

具体来说,所有组件都得搬到k8s上容器化运行,版本统一成一个标准,资源能根据流量大小灵活调整,最重要的是,用户查日志得像刷短视频一样丝滑。

为了实现这些,团队还画了张时间表,每个阶段该干啥,节点清清楚楚。

云原生“大换血”,技术团队如何啃下硬骨头

目标定好了,接下来就是实打实的技术硬仗。

新架构得有点新花样,容器化部署是必须的,用operator快速生成pod,组件交付效率直接提了一大截,以前半天搞定的事现在几分钟就完了。

数据处理这块,团队把logstash换成了vector,轻量又能打,资源占用少了不少。

ES也搞起了“分工”,热节点用本地磁盘存最近7天的日志,查得快,冷节点用远程存储存旧数据,省钱。

实施的时候没敢大跃进,而是按索引一个个来。

200多个索引,就像搬家一样,先把这个“房间”的东西挪过去,确认没问题再挪下一个。

旧集群的物理机也没浪费,腾出来的资源慢慢加到新集群里。

为了不让用户查数据受影响,还用上了ES的CCS功能,新老集群的数据能一起查,无缝衔接。

用户体验这块,团队花了不少心思。

Kibana配置了跨集群查询,就算数据在迁移,用户该怎么查还怎么查。

一开始新集群只有9台物理节点,资源紧张,只能慢慢来,加上存储分层策略,总算没出岔子。

数据积压是另一个老大难。

大流量日志涌进来的时候,单条日志太大、kafka分区没设好,都会堵。

团队想了些招,不重要的日志采样处理,超大日志直接过滤掉,kafka参数调了又调,比如把单次拉取数据量和请求大小往上提了提,ES索引分片也控制在20到40GB,还设了滚动策略,数据存满了自动换下一个“仓库”。

消费节点性能也得跟上。

vector替换logstash后,3000多条日志解析规则得一条条迁移验证,光这活儿就熬了好几个通宵。

团队还按业务重要性和数据量分组消费,就算某个组堵了,其他组也不受影响。

存储优化这块,kafka启用压缩,topic清理合并后,存储容量直接砍了一半。

ES更狠,旧集群用gzip压缩能省三成空间,新集群换了zstd压缩,直接省一半。

接入流程也搞了自动化,以前人工配置两小时,现在工单系统对接,配置自动生成,索引自己创建,5分钟搞定,批量接入也不在话下。

升级过程中风险控制不能少。

数据一致性得保证,迁移前后都要校验。

业务不能停,所有操作都选在晚上10点后,等门店打烊了再动手。

压测更是家常便饭,每个参数调完都得跑一遍,确保性能达标。

万一节点故障,应急预案也准备好了,保证能快速恢复。

折腾了近一年,新平台总算跑起来了。

查询延迟降了很多,用户反馈“丝滑多了”。

吞吐能力从原来的每秒45万条涨到90万条,翻了一倍。

存储成本降了一半,vector替代logstash后资源省了大半。

运维成本也下来了,以前天天救火,现在自动化脚本搞定大部分工作。

这次升级让团队明白,技术选型不能跟风,得看业务实际需求。

跨团队配合也很重要,缺了哪个环节都玩不转。

风险管控要做在前面,小步快跑比一口气吃成胖子靠谱。

未来平台还得往智能化走,用大模型支持自然语言查询,把日志、监控、告警整合成一个体系,让运维更省心。

星巴克日志平台升级这事儿,不只是技术架构的更新,更是从“被动应付”到“主动优化”的转变。

对其他企业来说,这套经验或许能当个参考,传统架构向云原生转型,只要找对路子,啃下硬骨头,效果就能看得见摸得着。

发布于:辽宁省

上一篇:在俄销量跌近30%、出口跌近60%……中国汽车可以怎么办?
下一篇:三国志11:四类高危叛逃武将,后两类防不胜防
推荐资讯
  • 2025-05-22宇宙是否经过“精细调节”?
  • 2025-03-07贵州女孩詹青云:宁可贷款百万去读哈佛,,,也不免费上北大,,,现在怎样
  • 2025-02-05避雷!从白百何的穿搭中我发现:秋季这5件衣服,不实穿还难驾驭
  • 2025-05-24张璇:唱念做打“演活”文物_京剧_湖南_传承
  • 2025-09-09广州至澳大利亚物流专线
    友情链接:

Powered by 冠亚和值3至19全包对刷 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024