背景
设计可靠系统的重要先决条件是了解故障模式。目前有许多研究,具有更成熟响应方法的故障模式是:
当前,关于失败的失败模式的研究很少,我们称此故障模式(失败慢)sub-Health。较不健康的硬件是指仍然可以正常工作但性能严重降低的硬件。服务器的主要硬件组件可能是可观的。例如,振动会导致硬盘带宽减少3个数量级至100kb/s; SSD固件中的错误会导致操作阻塞几秒钟;由于松弛,NVDIMM卡的性能可以降低到正常性能的25%。由于电源不足,CPU性能可以降低50%;由于缓存数据损坏和重新传递,网卡速度将降低为KBP。
过去,次卫生情况以低频发生。现在,由于在大规模部署和系统操作之前不可避免地耦合,因此副健康系统问题的频率增加了。随着硬件朝着小型化和复杂性发展,这种问题只会恶化。各种失败类型可能会转化为亚卫生:
亚健康的症状可能是持久的,临时的,有时是亚健康的,有时会停止;亚卫生也可能是多个事件相互影响并散布故障的结果。亚身体现象与真正的根本原因之间通常存在扩散链。例如,服务器风扇损坏,导致其他风扇在充满负载下工作,增加振动,从而导致硬盘性能的退化。
次卫生的另一个特征是长期检测时间。主要原因是,许多当前的软件和硬件在设计时不考虑次健康情况,并且主要考虑停止型故障方案。此外,外部环境的影响使得很难找到亚身体的根部,例如高度,温度,噪声,振动等的影响。
对于较低的故障类型,分布式存储具有以下三种类型的检测和处理机制,该机制根据故障资源:
PAN亚卫生测试和处理
OceanStor分布式存储在其使用的主要存储磁盘,缓存磁盘,系统磁盘和元数据磁盘上的全面次卫生状态监视。主要监视内容包括但不限于:
收集上述数据后,可以通过与智能训练,智能聚类算法(机器学习算法)诊断的阈值进行比较来确定磁盘是否处于次健康状态。在隔离之前,我们将首先确定该磁盘上的数据是否具有其他磁盘上的冗余数据。如果不是,则不会触发隔离。基本原则如下:
OSD定期获得磁盘的智能信息,记录IO延迟和IO错误信息;定期对收集的数据进行初步诊断,主要使用多级阈值比较方法,如果存在异常,则将向MDC报告以进行全面诊断。 MDC根据多个OSD报告的信息进行全面诊断,并在诊断完成后报告警报,并决定是否基于数据冗余性隔离次卫生磁盘。网络亚卫生测试和处理
网卡放缓,数据包丢失/错误数据包错误率的增加等等将导致群集网络的性能退化并输入次卫生状态。通过检测网络资源状态的变化,系统定位了受网络子健康影响的节点,执行债券主体安全切换或节点隔离。基本原则是:
1。多层检测机制
节点本地网络迅速检测到异常情况,例如闪存断裂,错误数据包,谈判速度等,并且智能选择节点以适应性地发送检测数据包,以识别诸如链接延迟异常和数据包丢失之类的问题。
2。智能诊断
结合网络模型和异常信息,进行了智能诊断,以识别异常情况,例如网络端口/网卡/链接。
3。逐步隔离和预警
根据诊断结果,进行了网络端口隔离,链接隔离,节点隔离等,并报告了警报。
以网络连接的亚卫生触发本地网络端口切换为例:
1。节点1继续将检测数据包发送到集群中的其他节点,以检测是否存在任何数据包丢失还是增加延迟。
2.节点1发现,当前网络端口发送给多个目标节点的检测数据包具有异常,并且执行网络端口交换操作;网络端口切换后,网络服务返回正常。
节点服务亚卫生测试和处理
在分布式群集节点的操作过程中,软件和硬件问题发生是一种普遍现象。由于节点的软件和硬件问题,节点输入了较低的状态,例如CPU速度降低,重复的内存误差校正,降低访问速度等等。在这种情况下,整个系统的服务延迟受单个节点的影响并降级。对于这种类型的问题情况,系统通过收集延迟信息并隔离问题节点或问题的问题资源来检测在次健康状态下的节点。基本原则是:
1。跨程序/服务检测
a访问b,并计算出A上的访问b的IO延迟。如果延迟超过阈值,将报告全面的诊断。
2。智能诊断
使用每个过程/服务报告的异常延迟,使用基于大多数判断,聚类算法等诊断延迟异常的过程/服务。
3。隔离和预警
隔离诊断异常的过程/服务报告控制节点(将服务分配给群集中的其他过程),并向警报报告。
以OSD流程服务子健康的EDS流程检测为例:
1。EDS过程检测OSD过程的延迟,并计算延迟是否持续和异常增加。
2. EDS检测OSD服务延迟异常并将其报告给MDC。
3。MDC确定大多数访问OSD的EDS是否报告OSD服务延迟异常。如果满足条件,则将为此OSD启动隔离操作。
快速填补机制
快速失败(快速转换和重试)确保单点较高的io延迟是可控制的
每个IO检测是阈值是否尚未返回。如果不返回,将启动转换重试。
要读取IO,请阅读其他副本或降级阅读,以及为编写IO,将其他磁盘上的空间重新分配以存储数据。
以慢速磁盘触发快速失败开关和重试的例子:
1。EDS统计信息IO延迟发送到磁盘,并使用群集算法选择具有更高访问延迟的磁盘,而不是普通磁盘。
2. eds标记了异常磁盘,将读写和写入IO转换为其他健康磁盘,并恢复读写服务的延迟。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请联系本站,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.inakayakusama.com/html/tiyuwenda/9531.html