从“能用”到“好用”，星巴克日志平台升级的那些硬骨头

冠亚和值3至19全包对刷

热点资讯

新闻动态

你的位置：冠亚和值3至19全包对刷 > 新闻动态 > 从“能用”到“好用”，星巴克日志平台升级的那些硬骨头

发布日期：2025-12-17 14:50 点击次数：122

文 | 钱钱

编辑 | 阿景

星巴克中国技术部的日志平台团队最近干了件大事。

从2024年9月到2025年6月，这帮人花了近一年时间，把用了好几年的虚拟机日志平台，换成了云原生裸金属k8s平台。

别觉得这是小事，对每天要处理海量日志的业务来说，这相当于给老电脑换了块新显卡，体验直接上了个大台阶。

从“能用”到“卡到爆”，老平台的那些头疼事儿

原来的日志平台是个“老古董”组合，filebeat负责采集日志，logstash当“快递员”接收和消费数据，中间过一手kafka，最后存在ES集群里，用户通过kibana查数据。

展开剩余84%

所有组件都跑在虚拟机上，运维起来就像照顾一群脾气各异的老头，今天这个卡壳，明天那个内存溢出，头疼得很。

最让人崩溃的是查询速度。

用户想查个日志，等10秒以上是常事，有时候页面直接转圈圈到超时。

后台存储也跟着添乱，远程网络存储的IO资源就那么点，业务高峰期日志写不进去，数据堆在那儿跟堵车似的。

那会儿用户投诉“日志延迟”“查询超时”的邮件，技术团队邮箱里就没断过。

平台卡成这样，升级这事儿就不能再拖了。

技术层面得把查询效率和写入能力提上去，不然活动高峰期数据丢了算谁的？成本层面也得想想办法，总不能一直靠买硬件堆性能吧？业务那边更不用说，促销活动一上，日志数据量翻倍，老平台根本扛不住。

升级目标很明确，不光要“能用”，还得“好用”。

具体来说，所有组件都得搬到k8s上容器化运行，版本统一成一个标准，资源能根据流量大小灵活调整，最重要的是，用户查日志得像刷短视频一样丝滑。

为了实现这些，团队还画了张时间表，每个阶段该干啥，节点清清楚楚。

云原生“大换血”，技术团队如何啃下硬骨头

目标定好了，接下来就是实打实的技术硬仗。

新架构得有点新花样，容器化部署是必须的，用operator快速生成pod，组件交付效率直接提了一大截，以前半天搞定的事现在几分钟就完了。

数据处理这块，团队把logstash换成了vector，轻量又能打，资源占用少了不少。

ES也搞起了“分工”，热节点用本地磁盘存最近7天的日志，查得快，冷节点用远程存储存旧数据，省钱。

实施的时候没敢大跃进，而是按索引一个个来。

200多个索引，就像搬家一样，先把这个“房间”的东西挪过去，确认没问题再挪下一个。

旧集群的物理机也没浪费，腾出来的资源慢慢加到新集群里。

为了不让用户查数据受影响，还用上了ES的CCS功能，新老集群的数据能一起查，无缝衔接。

用户体验这块，团队花了不少心思。

Kibana配置了跨集群查询，就算数据在迁移，用户该怎么查还怎么查。

一开始新集群只有9台物理节点，资源紧张，只能慢慢来，加上存储分层策略，总算没出岔子。

数据积压是另一个老大难。

大流量日志涌进来的时候，单条日志太大、kafka分区没设好，都会堵。

团队想了些招，不重要的日志采样处理，超大日志直接过滤掉，kafka参数调了又调，比如把单次拉取数据量和请求大小往上提了提，ES索引分片也控制在20到40GB，还设了滚动策略，数据存满了自动换下一个“仓库”。

消费节点性能也得跟上。

vector替换logstash后，3000多条日志解析规则得一条条迁移验证，光这活儿就熬了好几个通宵。

团队还按业务重要性和数据量分组消费，就算某个组堵了，其他组也不受影响。

存储优化这块，kafka启用压缩，topic清理合并后，存储容量直接砍了一半。

ES更狠，旧集群用gzip压缩能省三成空间，新集群换了zstd压缩，直接省一半。

接入流程也搞了自动化，以前人工配置两小时，现在工单系统对接，配置自动生成，索引自己创建，5分钟搞定，批量接入也不在话下。

升级过程中风险控制不能少。

数据一致性得保证，迁移前后都要校验。

业务不能停，所有操作都选在晚上10点后，等门店打烊了再动手。

压测更是家常便饭，每个参数调完都得跑一遍，确保性能达标。

万一节点故障，应急预案也准备好了，保证能快速恢复。

折腾了近一年，新平台总算跑起来了。

查询延迟降了很多，用户反馈“丝滑多了”。

吞吐能力从原来的每秒45万条涨到90万条，翻了一倍。

存储成本降了一半，vector替代logstash后资源省了大半。

运维成本也下来了，以前天天救火，现在自动化脚本搞定大部分工作。

这次升级让团队明白，技术选型不能跟风，得看业务实际需求。

跨团队配合也很重要，缺了哪个环节都玩不转。

风险管控要做在前面，小步快跑比一口气吃成胖子靠谱。

未来平台还得往智能化走，用大模型支持自然语言查询，把日志、监控、告警整合成一个体系，让运维更省心。

星巴克日志平台升级这事儿，不只是技术架构的更新，更是从“被动应付”到“主动优化”的转变。

对其他企业来说，这套经验或许能当个参考，传统架构向云原生转型，只要找对路子，啃下硬骨头，效果就能看得见摸得着。

发布于：辽宁省

上一篇：在俄销量跌近30%、出口跌近60%……中国汽车可以怎么办？
下一篇：三国志11：四类高危叛逃武将，后两类防不胜防

推荐资讯

2025-05-22宇宙是否经过“精细调节”?
2025-03-07贵州女孩詹青云：宁可贷款百万去读哈佛，,，也不免费上北大，,，现在怎样
2025-02-05避雷！从白百何的穿搭中我发现：秋季这5件衣服，不实穿还难驾驭
2025-05-24张璇：唱念做打“演活”文物_京剧_湖南_传承
2025-09-09广州至澳大利亚物流专线