佛山坚美铝业,是广东坚美铝型材厂(集团)旗下企业,是全国铝型材行业的引领者之一。坚美铝业集团年生产能力60万吨以上,铝材产品销售覆盖全国30 省市,远销全球70 国家和地区,品牌价值达112.17亿元。
近年来,面对全球新冠疫情危机以及严峻复杂的国内外环境,传统铝型材制造业遭遇到了严峻挑战,但是作为南海区制造业的引领者,坚美铝业积极响应《广东省佛山市落实推动制造业数字化智能化转型发展》的政策号召,攻坚克难,加大对升级建设自动化生产基地的投入,扩大产能,保持企业良好的增长势头。
伴随着业务的蓬勃发展,应用系统及后台服务器数量成倍增加,应用架构越来越复杂,新技术带来的运维门槛越来越高。坚美铝业前期已建设零星的运维工具,如zstack自带监控、h3c(网管系统)等,相对分散,能力不够全面,对运维带来帮助如杯水车薪,运维困境日益凸显:
监控告警工具会产生大量无效告警,缺少有效手段收敛告警风暴,而且未能实现运维的联动,缺少配置-监控告警-工单-自动处理-告警自动关闭的故障闭环管理能力;
已有的运维工具属于竖井式建设,数据打通及联动困难,无法借助工具进一步提升运维运营服务能力,难以满足不断增长的业务系统运维需求;
缺少自动化运维工具,在巡检、资源交付、补丁管理等重复性较多的工作上,仍需要消耗大量的时间;
运维数据分散在各个工具系统,无法统一进行可视化展示、统计和分析,运维服务无法持续度量和优化。
如何快速提升运维管理水平,以更好地保障业务系统稳定运行,是坚美铝业it部门迫切需要解决的问题。it部门负责人曹部长高瞻远瞩,希望通过引进先进的技术和理念,基于一体化运维平台数据打通、扩展性强等特性,将线下的运维工作不断移植固化到平台上来,实现对同行业it管理的弯道超车。
佛山坚美铝业基于一体化运维平台,实现it资源对象可视、可控、可管的建设目标:
建立故障全生命周期的管理体系:提供覆盖资源管理、监控告警、健康巡检、故障自愈等多项功能为一体的运维平台,以故障定位和全生命周期管理为核心,持续保障公司业务连续性。
构建统一的告警中心,避免告警潮汐:接入zstack和h3c(网管系统)的告警信息到weops平台,实现告警统一展现,支持对告警进行收敛,避免告警潮汐。
构建主动服务能力,降低故障发生,提高系统稳定性:利用平台的健康扫描能力,可以定时自动对公司业务应用及it资源进行健康扫描,提前发现系统性能故障及安全隐患,避免故障发生,提升业务应用运行的稳定性。
构建自动化运维能力,提升it部运维工作效率:平台自带数十个自动化运维脚本,可解决常规运维问题,提高运维效率;也支持用户通过作业平台 标准运维,实现自动化脚本工具的自主开发;同时具备自动补丁安装能力,可以实现服务器补丁的批量安装,缓解运维压力。
构建可视化运维管理体系,随时掌握核心业务及应用运行状态:通过平台可实现资源状态大屏、应用墙、核心应用大屏等可视化大屏,可以实现公司整体资源运行健康状态、应用运行健康状态,实现运维的可视化。
经过层层筛选,坚美铝业最终采用嘉为蓝鲸weops一体化运维平台,依托于“腾讯蓝鲸paas平台先进技术支撑”和“嘉为20 年运维实践经验”得天独厚的优势,帮助企业加快实现it系统转型升级。
从前期的项目需求调研,技术方案设计,到平台的部署配置,再到平台功能的上线试运行,整体实施过程控制在2个月内完成,这得益于weops产品的资源管理、健康扫描、监控告警、数字大屏、知识库及自动化运维工具等模块功能开箱即用程度高,内置丰富的运维场景,一键启用。
目前,weops纳管了数百台服务器,覆盖数十套业务系统,通过模块功能之间相互联动,围绕故障全生命周期形成运维闭环管理。
高效管理it资产:weops自动生成发现采集和架构拓扑,覆盖了坚美铝业主机、基础软件等各个运维层面数十种it对象,数百个it资源;同时具有良好的扩展性,支持了第三方数据源的集成对接。
以往坚美铝业信息部门的资产管理,是每位管理员依靠excel表记录各自负责的it资产配置信息,并无统一汇总资源管理,这导致it数据分散,信息准确率低、数据维护工作量大。weops上线使用后,cmdb实现从无到有的突破,运维人员告别手动操作,资产更新实现80%自动化,资产数据准确性提升5倍;并且每月可节约超过1天的人工维护成本,运维人员轻松应对半年度的资产盘点,可以花更多的时间精力在业务系统优化和建设上。
全方位监控告警:weops灵活自定义监控仪表盘,涵盖健康扫描,及时感知故障。
依托事件中心的聚类、抑制、收敛及屏蔽等告警算法,精准告警,避免告警潮汐。
坚美铝业以往没有一套一体化运维平台来帮助监控告警,故障排查,因此运维人员只能通过人工巡检排查,难以快速定位故障原因,来不及修复bug,影响了业务的正常运行。8月下旬weops正式上线,经过一周的密切观察后,重新调整了告警策略,对生产存在的故障和隐患进行了集中处理,9月系统稳定运行。
总结weops近2个月的投产情况:监控的覆盖率提升190%,故障及时发现率提升220%,平均故障处理时长缩短72%,预计每年因故障影响业务运行状态的时间可减少72小时。
运维数据可视化、数字化:数据大屏动态汇总全局状态,运维全局一目了然,管理人员能直观审视业务运营与it运维中的有效信息,提升it管理的效能。
通过weops建设,嘉为科技成功助力坚美铝业业务实现可视、可管、可控,未来也将和坚美铝业持续合作生长,共同为铝型材生产业务注入科技动力,绘制制造业数字化蓝图!
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。