当前位置:首页 > 新闻中心 > 新闻资讯 感谢一直陪伴的你们!

服务器维护清单中的7个步骤

作者:      时间:2022-05-14 10:19:01

为了有效地维护服务器,服务器管理员必须进行主动的硬件和软件检查。服务器维护清单必须包括除尘、日志检查、软件补丁程序测试等。

即使具有服务器的性能和冗余功能,增加的工作负载集成和可靠性预期也会损坏服务器硬件。

服务器维护清单应包括物理元素和系统的软件层配置。还必须考虑以下事实:彻底维护所需的时间、劳动力时间和测试。使用清单有助于服务器管理员定义目标,并保持IT团队的正常运行。

数据中心

1.制定维护程序

服务器管理员经常忽略计划维护窗口。不要等到出现故障时才开始维护;要留出时间进行例行的服务器预防性维护。

维护频率取决于服务器设备的使用寿命、数据中心和需要维护的服务器数量。例如,设备柜中的旧服务器需要比部署在高效颗粒空气过滤和良好冷却数据中心的新服务器更频繁地检查。

组织可根据供应商或第三方提供商的日常程序制定日常维护计划;如果供应商的服务合同需要每四个月或六个月进行系统检查,则需要遵循此时间表。

2.准备停机

在解决服务器维护清单上的项目之前,首先要制定计划。这包括检查系统日志中是否有需要更直接注意的错误或事件。如果系统日志表明特定内存模块错误,则应订购并安装替换的双列直插内存(DIMM)。同样,如果有可用的固件、操作系统或代理补丁/更新,请在计划维护窗口前进行测试和审查。

制定一个明确的计划,使系统脱机并恢复服务。在虚拟化之前,服务器及其停留的应用程序需要停止维护窗口,但这迫使服务器管理员在晚上或周末进行维护。

虚拟服务器支持迁移工作负载而不是停机,因此服务器管理员可以将应用程序迁移到其他服务器,只要服务器维护在底层主机系统上,它们就会保持可用状态。在维护之前,您需要了解虚拟机的下落,将虚拟机转移到所选系统,并验证每个工作负载是否正常运行,然后关闭服务器进行维护。

此时,服务器管理员可以关闭服务器并将其从机架中移除。

3.检查气流路径

服务器停机后,需要检查其外部和内部气流路径。清除所有可能阻碍冷却空气的灰尘和碎片。

从外部空气入口和出口开始,然后进入系统底盘,检查CPU散热器和风扇部件、内存,以及所有冷却风扇叶片和风道。从机架上卸下服务器后,确保服务器清洁。使用干净、干燥的压缩空气来清除防静电工作区域的灰尘或碎片。

除尘不是一个新的过程,但它仍然是必要的。灰尘是一种绝缘材料,因此除尘尤为重要,因为更换的冷却方案和美国制冷空调工程师的建议提高了数据中心的工作温度。灰尘和其他气流障碍会导致服务器消耗更多的能量,甚至部件故障。

4.检查本地硬盘

服务器依靠内部硬盘进行指导、工作负载启动和存储以及用户数据。磁盘介质问题损坏了工作负载的性能和稳定性,导致硬盘过早故障。使用检查硬盘和rdquo;实用程序和其他工具来验证硬盘的完整性,并尝试恢复硬盘上的任何坏风扇区域。

磁性媒体硬盘并不完美。常见的问题包括损坏风扇区域和碎片化。RAID在保持数据完整性方面取得了很大进展,但较小的1U机架服务器无法提供足够的物理空间来部署硬盘阵列。

只要NT和文件分配表的硬盘文件碎片不会消失,只要文件系统使用第一个可用集群的硬盘空间。碎片会减慢服务器硬盘的速度,导致故障。Optimize-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-Ve-V

5.验证日志数据和事件

服务器在事件日志中记录了大量的事件信息。没有仔细检查系统、恶意软件和其他事件日志,没有服务器维护清单是不完整的。当然,关键的系统问题应该立即引起管理者和技术人员的注意,但无数的小问题可能预示着长期的问题。

在检查日志时,管理员应检查报告设置,并验证正确的报警和报警接收器。例如,在检查日志时,管理员应检查报告设置,并验证正确的报警和报警接收器。例如,如果技术人员离开服务器组,则需要更新服务器的报告系统。

仔细检查联系方式。如果错误发生在工作时间以外,向技术人员所在公司的电子邮件地址提供错误报告将无效。

当日志检查发现长期或重复的问题时,主动调查可以在问题升级前解决。如果服务器日志报告中的可恢复错误,则不会引发严重警报。然而,如果重复表明模块有问题,管理员可以进行更详细的分析来识别即将到来的故障。

如果问题不够严重,服务器就不会关闭,管理员可以在更换硬件之前将服务器恢复到生产状态。

6.测试补丁和更新

服务器软件堆栈(BIOS、操作系统、管理程序、驱动程序和应用程序)必须共同工作。不幸的是,软件代码很少没有问题,所以这个问题经常被修复或更新,以修复错误,提高安全性,简化可操作性,提高性能。

任何软件都不应该自动更新。管理员应确定是否需要修复程序或升级,然后彻底评估和测试更改。

软件开发人员可能无法测试每个可能的硬件和软件组合,因此需要明智地选择补丁和更新,以避免性能问题或工作过程中断。例如,监控代理程序补丁可能会导致重要的工作负荷问题,因为新代理程序占用的带宽大于预期。

向Devops的迁移更新更少、更频繁,增加了出现问题的可能性。组织在部署到沙箱或测试安装程序之前,仍然必须在实验室中测试任何修复程序或更新,并始终有能力恢复原始软件配置。

7.记录所有系统变更

在维护期间,服务器可能会发生很多事情,如硬件、软件或系统配置的更改。在服务器管理员完成服务器维护清单后,仔细检查并记录所有新系统的状态。例如,更改网络适配器、添加或更换内存或更新操作系统将更改系统的配置。

依赖系统配置管理工具的组织可能需要更新或发现任何更改,并在允许系统重新投入使用之前将其记录在配置管理数据库中。服务器管理员必须更新任何强制或需要的状态配置状态,以允许更改。

还需要验证系统的安全状态,如防火墙设置、反恶意软件版本或扫描频率和入侵检测设置。安全检查确保系统软件的更改不会无意中暴露在之前配置中关闭的所有攻击面上。

服务器重新上线后,不要忘记更新任何系统备份或灾难恢复(DR)。

除非需要调整任何相关设置来反映服务器的新用例,否则验证服务器的备份/灾难恢复频率保持不变。



免费客户服务热线:4006-618-418   027-87315200  87315211  业务咨询:15527777548    13260607300(微信同号)
业务咨询QQ:   欢迎光临老兵IDC 27325619   欢迎光临老兵IDC 81455950  欢迎光临老兵IDC 13640069   
技术支持QQ: 欢迎光临网盾科技 908624     技术支持电话:15307140247(微信同号)

公司地址:湖北省武汉市江夏区五里界街五园路16号

网盾运营中心:湖北省武汉市东湖高新技术开发区华师园北路18号光谷科技港1B栋4楼

《中华人民共和国增值电信业务经营许可证》: 鄂B1-20170032   
Copyright © 2007-  武汉极风云科技有限公司 All rights reserved. 鄂ICP备2020016614号-3

请所有客户积极遵守《中华人民共和国网络安全法》要求,合理合规的使用极风云数据的各类IDC云服务产品,网盾科技会遵照安全策略管理和安全制度的执行!