一、故障描述◆故障描述:基于ESX SERVER的常见数据灾难◆故障表现:(1)因光纤存储设备连接至非ESX环境,共享未互斥,对存储改写 (重装系统,WINDOWS初始化,格式化等),导致存储结构损坏。(2)卷升级、变更时分区表或VMFS卷结构异常。(3)VMFS存储中VMDK误删除。(4)VMFS格式化。 二、解决方案◆检测流程 (1)检测是否存在硬件故障,如硬件故障,转硬件处理(2)以只读方式检测故障表现是否与用户描述相同◆恢复流程(1)备份:以只读方式对故障存储做完整镜像(参考附录)(2)在备份中进行数据分析及恢复操作:按分区表结构、VMFS结构(节点区、索引区、目录及数据区)的顺序依次分析数据损坏情况,并针对性地做重组恢复。(3)通常,恢复后的数据会暂存在另一个存储体上◆验收流程对恢复好的数据进行验证,确认其正确性。如确认,交费–>移交原介质及已恢复数据 –>出具发票(收据)及报告。如无法认可数据恢复结果,交回原介质,不收服务费,可免费出具报告。三、数据恢复的可能性◆针对因非ESX服务器对VMFS改写的情况:这类改写实际上要考虑对VMFS的破坏情况,通常如果仅仅是WINDOWS初始化、划分分区或文件系统格式化(未写入数据文件),数据破坏不严重,可恢复。如果破坏严重,典型的,整个VMFS的前100MB完全覆盖,数据恢复的难度将非常之大----这时候,只能通过文件系统内部关系进行恢复,如果是有结构的数据,如ORACLE或SQL SERVER数据库,可以恢复,但像RAR、gz及多媒体文件将很难恢复。◆针对卷升级、变更时分区表或VMFS卷结构异常:通常此类突发性故障破坏不会很严重,通常可完整恢复,但真正严格的讲是否可恢复,要取决于节点区、索引区、目录及数据区是否破坏(通常VMFS的前100M很关键)。◆针对VMDK误删除VMFS删除VMDK后,如果没有新数据写入,数据依然存储于VMFS中,但存储本身却不会再保留指向数据区的索引信息。这时候,需要对原VMDK文件内部结构进行分析,才可以确定数据恢复的算法及可靠性。如同VMFS破坏严重的情况,如果VMDK内部存储的是像数据库文件一样的规则文件,可恢复性将很高,否则,就需要仔细发现和整理数据恢复的算法了,有些时候,数据可能无法在有效时间内恢复成功。四、数据恢复所需时间1TB以下的VMFS(不是要恢复的数据容量),通常2个工作日内可完成;1TB以上的随存储容量的增加,恢复周期通常也会增加。五、服务费用通常因研发成本较高,数据恢复的费用在10万元以上。具体报价需通过故障类型、复杂程度、消耗时间综合核定。六、故障原因典型的光纤存储分配错误是遇到最多的ESX上的数据故障,因VMFS的CLUSTER是基于几台ESX SERVER之间的约定,故而当存储被非ESX系统接管时,便会以独占的模式进行管理,这会导致存储结构的损坏。 七、如何避免 做好备份方案,尽可能避免单存储备份,如数据非常重要,可考虑异地备份。【小贴士】◆针对软件故障,在数据丢失后,应尽可能减少对存储的操作,有时候,即使是开着机,什么都不做,也可能导致灾难进一步加剧。条件允许的话,在数据损坏后,最好对磁盘或存储卷做完整备份◆针对硬件故障,在设备无法正常工作后,应尽可能少的加电,以避免设备的进一步损坏。