干货分享 | DNS解析故障实战案例及排查方法

近日,中科三方技术团队成功帮助某大型央企排除域名解析故障。此次故障发生在该公司的网络系统中,对其日常运营造成了影响。故障发生后,该公司相关人员立即与中科三方取得联系,寻求技术支持。中科三方快速响应,并组织技术团队进行会诊,最终成功找到问题所在,排除故障难题,保障了该公司域名解析的正常运行。

通过与该公司的沟通了解到,该公司为了实现IPv4/IPv6双栈及其他域名解析场景,需对其官网的DNS服务器进行迁移。作为该公司的域名服务商,中科三方及时提供技术支撑,进行了SOA记录的设置,成功完成授权DNS服务器的切换转移。但在切换完成后,该公司的技术人员通过测试发现,新的DNS服务器未生效,网站域名仍使用原DNS服务器。

在接到该公司的问题反馈后,中科三方技术团队立即对SOA记录进行了检查,在发现设置无误后,随即通过whois查询工具发现,该公司域名已切换至新的DNS服务器。

在排除了SOA授权出错的可能外,中科三方技术团队使用自研递归解析监测系统对该域名进行了全方位检查,发现多个递归解析节点不生效,随后使用nslookup命令的查询结果也与此一致,由此技术人员判断是由于DNS缓存未刷新,导致新切换的DNS服务器未生效。在等待一段时间,DNS缓存失效后,再次通过测试发现新的DNS服务器生效。

在排查DNS服务器不生效的过程中,中科三方技术人员还发现了两个严重的潜在问题。

一,该公司新切换的DNS服务器未做A记录设置

访客对网站发起解析请求时,会委托递归DNS服务器进行全球解析查询,依次从根域名服务器、顶级域名服务器,最终在权威域名服务器获取最新的权威数据。如果DNS服务器未做A记录,就会导致顶级域名服务器在收到递归服务器的请求时,无法给出该DNS服务器(权威服务器)的地址,从而导致域名解析的失败,影响访客对网站的正常访问。在发现该问题后,中科三方立即反馈给该公司相关负责人,在最短时间内完成DNS服务器A记录的添加,避免造成更严重的影响。

二,存在一条NS记录将主域名指向一台未知服务器

NS(Name Server)记录是域名服务器记录,用来指定该域名由哪个DNS服务器来进行解析,因此在上述场景中,这个未知的服务器充当了主域名的DNS服务器的角色,提供域名解析服务。经过排查发现,该未知服务器不可用,不会对公司域名解析正确性造成影响,但是会因为对DNS服务器的轮询,产生一定的解析时延。在确定该条NS记录对公司业务系统没有影响的情况下,中科三方配合该公司技术人员完成对此条NS记录的删除。

经过数小时的紧张工作,中科三方技术团队成功帮助该公司解决域名解析故障,使系统恢复正常功能,同时凭借专业的经验,排除了两个潜在的安全隐患,避免了更多解析安全故障的发生。该公司对中科三方的技术支持表示衷心感谢,对中科三方团队专业的技术实力和丰富的实战经验给予了高度评价。

DNS解析是互联网中非常重要的基础服务,如果DNS解析发生故障就会对网站的正常运行造成严重影响,因此掌握DNS解析故障排查的思路非常重要。

DNS故障排查思路

当发生解析故障时,首先要检查解析记录是否设置正确,包括域名注册商所提供的SOA记录,尤其需要注意的是使用云解析DNS对默认线路的添加,因解析记录设置错误而导致解析不生效的情况在实际场景中比较常见也比较容易解决。

其次,可以通过whois查询工具,检查域名状态是否正常,如果域名未续费、未实名,就会被域名注册局/商暂停解析,此时域名会出现serverhold、clientHold等状态,这种情况下就会出现域名解析不生效。

第三,检查DNS缓存是否刷新,修改解析记录或者修改DNS服务器,都需要等待DNS缓存失效后,各地DNS服务器才能同步新的记录,可以使用nslookup命令查询缓存是否刷新,如果测试发现权威解析生效,本地解析(公共解析)未生效即代表DNS缓存尚未刷新。

最后,还有一种情况是解析过程受到上级网络设施的强行阻断,可以通过dig+trace测试,本地DNS向根DNS服务器查询时,直接返回IP地址,一般可判断为DNS查询在根DNS服务器处就被阻断,DNS遭到缓存投毒被劫持。这种情况可通过清理DNS缓存或更换本机DNS服务器来解决。

以上就是域名解析故障常用的排查思路,基本上能够解决大部分域名解析不生效难题。但由于实际业务场景比较复杂,具体问题仍需具体分析,在遇到解析故障时,应尽快与域名服务商取得联系,寻求专业的技术支持,才能更快更准确定位问题所在,排除故障解决问题,最大程度降低因域名解析造成的影响。

猜你喜欢

转载自blog.csdn.net/weixin_53018687/article/details/131894599