2025年6月26日,“网络根基 中国贡献”第四届下一代DNS发展论坛,同期活动“筑牢网络根基 赋能金融科技”——金融网络基础设施工作会上,中国民生银行高级经理邵凌超,就《面向业务的DNS运维》作主题分享。
邵凌超首先聚焦传统运维模式局限,指出随着金融系统全面域名化,DNS作为关键基础设施的重要性日益凸显,但传统运维模式存在明显短板。如典型故障场景,当某台服务器解析质量下降却未宕机时,传统监控仅关注设备CPU、内存等基础指标,难以快速定位问题。根源在于缺乏对DNS实际服务效果的监控,忽视了对服务对象的实际服务效果的体验保障。
随着民生银行深入推进域名改造,对DNS系统服务连续性提出了更高的要求。为确保DNS服务自身不成为瓶颈,运维能力必不可少。需要建设运维监控分析平台来提升对DNS服务的精细化运维能力。
第一步是做流量的获取。为监控提供数据基础。
第二步是关键指标解析。实现对DNS服务的实时统计和性能指标计算。通过DNS协议可以抓取如客户端、服务端、APP,以及DNS请求的具体内容、响应码等指标,主要的监控指标就是响应量、响应时延以及成功率等。
第三步是定义监控对象。主要分两个维度,设备级与业务级。对于设备级来说,如果是单设备问题就隔离设备,某类角色故障就可切换异构平台/逃生通道。
对于业务级来说,银行实时监控数十个条关键信息系统所在域名,在某一些故障场景下,可快速判断故障场景是否对实际交易及业务造成了真正影响,还是由于特殊域名造成整体响应率的下降,从而辅助快速判断是否要及时采取应急手段。
第四步是制定告警策略及对应的智能分析算法。当触发告警后,同时就会触发智能分析模块,分析这块贡献度最高的域名是哪个,通过历史学习的趋势分析,把本次贡献度最高的客户端展示出来,快速定位事件最大的问题所在。
关于辅助能力建设,如域名拨测能力,域名解析结果异常对业务访问有很大影响,因此在日常运维、重大变更等场景需要通过工具进行拨测,对比分析异构平台的解析一致性、重大变更前后的解析一致性以及变更生效情况统计等;再如应用域名化使用情况校验,当系统做域名化改造时,确认系统是否都已完成域名化调整是一大堵点。通过推动数据中心内部域名化改造,抓取DNS服务器A记录解析情况,结合数据中心网络流量数据,对比分析,展示业务系统通过DNS请求情况。针对未通过DNS访问的客户端,系统运维人员可及时跟踪并推动整改。
针对DNS服务器主备切换分析,同样可以通过工具抓取分析,验证服务器主备DNS配置是否符合规范,以及监控异常时备援请求发起时效等,监督整改相关问题,辅助运维服务稳定安全。
ZDNS
更多专家精彩观点,请持续关注