此帖子已超过 5 年
58 消息
0
5813
求助,删除NS-480已损坏文件系统
Hi,
遇到一个celerra的文件系统故障,由于一组RAID中两块硬盘同时故障,raid损坏,对应的文件系统无法删除。
两个文件系统用于另外一台NAS存储向此480的checkpoint。
在web控制台中删除replication下所有的checkpoint等条目删除后,删除文件系统时报错。使用命令删除也报错。
[nasadmin@NS-480 ~]$ nas_fs -d data2
Error 3104: data2 : file system has backups in use.
[nasadmin@NS-480 ~]$ nas_fs -d data6
Error 3104: data6 : file system has backups in use.
有文档提到用命令/nas/sbin/rootnas_fs -delete xxxxx -o umount=yes -ALLOW_REP_INT_CKPT_OP来进行删除,但是仍然无法删除,报错
[nasadmin@NS-480 sbin]$ fs_ckpt data2 -list -all
id ckpt_name creation_time inuse fullmark total_savvol_used ckpt_usage_on_savvol
100 root_rep_ckpt_26_27218_1 04/27/2012-14:46:14-CST n N/A N/A N/A
101 root_rep_ckpt_26_27218_2 04/27/2012-14:46:19-CST n N/A N/A N/A
[nasadmin@NS-480 sbin]$ /nas/sbin/rootnas_fs -delete root_rep_ckpt_26_27218_1 -o umount=yes -ALLOW_REP_INT_CKPT_OP
Error 5005: failed to complete command
[nasadmin@NS-480 sbin]$ /nas/sbin/rootnas_fs -delete root_rep_ckpt_26_27218_2 -o umount=yes -ALLOW_REP_INT_CKPT_OP
Error 5005: failed to complete command
现在不知道是命令不对还是说有其他的需要删除。
Jeffey1
2 Intern
2 Intern
•
2.8K 消息
0
2015年9月17日 23:00
你这种情况属于非法操作,正常流程是先删除前端文件系统,再取消前端和后端的绑定,再删除后端LUN。
你现在先删除了LUN,如果要删除前端文件系统就要改NASDB,这个需要开case让EMC的L2工程师来操作。
Jeffey1
2 Intern
2 Intern
•
2.8K 消息
0
2015年9月11日 03:00
你好,楼主。
Celerra上的文件如果做了checkpoint,需要先删除快照文件,然后才能删除原文件。我看了你之前的操作步骤,基本没有什么问题。之所以你无法删除这个文件,可能是由于各种意外原因(比如:RAID损坏造成)导致NASDB中没有记载这个文件系统存在快照。因此,你可能需要更多的内部命令才能删除这个文件系统,具体操作步骤请参考KB文件: https://support.emc.com/kb/31535(需要partner权限)。
Lu_shaoyong
58 消息
0
2015年9月14日 18:00
Hi,Jeffey
谢谢你的帮助。
你给的KB,方法已经提交给了客户,需等待客户同意才能操作。
Lu_shaoyong
58 消息
0
2015年9月16日 21:00
Hi,Jeffey
根据KB中来做,找不到ckptID。
[nasadmin@NS-480 ~]$ nas_fs -l -a
id inuse type acl volume name server
1 n 1 0 10 root_fs_1
2 y 1 0 12 root_fs_2 1
3 y 1 0 14 root_fs_3 2
4 y 1 0 16 root_fs_4 3
5 y 1 0 18 root_fs_5 4
6 n 1 0 20 root_fs_6
7 n 1 0 22 root_fs_7
8 n 1 0 24 root_fs_8
9 n 1 0 26 root_fs_9
10 n 1 0 28 root_fs_10
11 n 1 0 30 root_fs_11
12 n 1 0 32 root_fs_12
13 n 1 0 34 root_fs_13
14 n 1 0 36 root_fs_14
15 n 1 0 38 root_fs_15
16 y 1 0 40 root_fs_common 4,1,3,2
17 n 5 0 73 root_fs_ufslog
18 n 5 0 76 root_panic_reserve
19 n 5 0 77 root_fs_d3
20 n 5 0 78 root_fs_d4
21 n 5 0 79 root_fs_d5
22 n 5 0 80 root_fs_d6
24 y 1 0 160 data1 1
26 n 1 0 351 data2
27 y 1 0 197 data3 1
29 y 101 0 0 root_avm_fs_group_1
30 n 1 0 394 data6
32 y 1 0 232 data11 1
36 y 1 0 370 data7 1
37 y 1 0 168 root_fs_vdm_VDM2 1
38 y 101 0 0 root_avm_fs_group_3
40 y 1 0 171 root_fs_vdm_VDM1_1 1
41 n 11 0 0 vpfs41
42 y 7 0 174 root_rep_ckpt_40_41 1
43 y 7 0 174 root_rep_ckpt_40_41 1
51 n 11 0 0 vpfs51
52 y 7 0 201 root_rep_ckpt_27_44 1
53 y 7 0 201 root_rep_ckpt_27_44 1
67 y 1 0 245 data8 1
68 y 1 0 247 data9 1
69 y 1 0 249 data10 1
70 y 1 0 252 data5 1
76 y 1 0 293 root_fs_vdm_VDM2_re 1
86 y 1 0 313 data13 1
99 n 11 0 0 vpfs99
100 n 7 0 355 root_rep_ckpt_26_27
101 n 7 0 355 root_rep_ckpt_26_27
102 n 11 0 0 vpfs102
103 y 7 0 373 root_rep_ckpt_36_27 1
104 y 7 0 373 root_rep_ckpt_36_27 1
105 n 11 0 0 vpfs105
106 n 7 0 397 root_rep_ckpt_30_27
107 n 7 0 397 root_rep_ckpt_30_27
108 y 1 0 417 data14 1
109 y 1 0 419 data15 1
110 y 1 0 423 data16 1
111 y 1 0 436 data17 1
112 y 1 0 441 data12 1
114 y 1 0 450 data4 1
[nasadmin@NS-480 bin]$ nas_fs -i data2
id = 26
name = data2
acl = 0
in_use = False
type = uxfs
worm = off
volume = v351
pool = clarata_archive
member_of = root_avm_fs_group_10
rw_servers=
ro_servers=
rw_vdms =
ro_vdms =
auto_ext = no,virtual_provision=no
deduplication = unavailable
ckpts = root_rep_ckpt_26_27218_1,root_rep_ckpt_26_27218_2
stor_devs = FCNCX103100041-003B,FCNCX103100041-0034,FCNCX103100041-0037,FCNCX103100041-0030
disks = d29,d17,d28,d16
[nasadmin@NS-480 bin]$ nas_fs -i data6
id = 30
name = data6
acl = 0
in_use = False
type = uxfs
worm = off
volume = v394
pool = clarata_archive
member_of = root_avm_fs_group_10
rw_servers=
ro_servers=
rw_vdms =
ro_vdms =
auto_ext = no,virtual_provision=no
deduplication = unavailable
ckpts = root_rep_ckpt_30_27886_1,root_rep_ckpt_30_27886_2
stor_devs = FCNCX103100041-0031,FCNCX103100041-001A,FCNCX103100041-0035,FCNCX103100041-002A,FCNCX103100041-0033,FCNCX103100041-002C
disks = d42,d34,d43,d35,d27,d15
[nasadmin@NS-480 bin]$ .server_config server_2 -v "file display ckpt 26"
server_2 : commands processed: 1
output is complete
1442462178: SVFS: 3: fsID 26 is not mounted
1442462178: ADMIN: 3: Command failed: file display ckpt 26
Error 4020: server_2 : failed to complete command
[nasadmin@NS-480 bin]$ .server_config server_2 -v "file display ckpt 30"
server_2 : commands processed: 1
output is complete
1442462185: SVFS: 3: fsID 30 is not mounted
1442462185: ADMIN: 3: Command failed: file display ckpt 30
Error 4020: server_2 : failed to complete command
data2的ckptID是否是下面的100和101。
[nasadmin@NS-480 bin]$ /nas/sbin/rootnas_fs -i root_rep_ckpt_26_27218_1
id = 100
name = root_rep_ckpt_26_27218_1
acl = 0
in_use = False
type = ckpt
worm = off
volume = vp355
pool = clarata_archive
member_of =
rw_servers=
ro_servers=
rw_vdms =
ro_vdms =
checkpt_of= data2 Fri Apr 27 02:46:14 EDT 2012
deduplication = unavailable
stor_devs = FCNCX103100041-0033,FCNCX103100041-002C,FCNCX103100041-0035,FCNCX103100041-002A
disks = d27,d15,d43,d35
[nasadmin@NS-480 bin]$ /nas/sbin/rootnas_fs -i root_rep_ckpt_26_27218_2
id = 101
name = root_rep_ckpt_26_27218_2
acl = 0
in_use = False
type = ckpt
worm = off
volume = vp355
pool = clarata_archive
member_of =
rw_servers=
ro_servers=
rw_vdms =
ro_vdms =
checkpt_of= data2 Fri Apr 27 02:46:19 EDT 2012
deduplication = unavailable
stor_devs = FCNCX103100041-0033,FCNCX103100041-002C,FCNCX103100041-0035,FCNCX103100041-002A
disks = d27,d15,d43,d35
另外 = ,另个ID savvol这个也无法找到。
Jeffey1
2 Intern
2 Intern
•
2.8K 消息
0
2015年9月16日 23:00
从你贴出来的命令输出,我看到文件系统data 2和data 6是unmount状态,这二个文件系统都不能使用。之前你提到有个RAID坏了二块盘需要修复,文件系统data2和data6的数据是不是就保存在这个RAID上面呢?
Lu_shaoyong
58 消息
0
2015年9月17日 00:00
Hi,Jeffey
是的,损坏的是Raid Group 17 ,划分成了两个lun d17和d43 ,涉及到的文件系统就是data2 和data6。由于客户所数据可以不要,所以就没进行数据恢复,准备重新建Raid 和文件系统。在删除data2和data6的时候就遇到了上述问题。
这台存储的data2、data3、data6、data7 四个文件系统用于checkpoint,但是由于曾经升级过ns-480的flare code,所以两台存储间的版本不匹配,造成了功能无法使用。所以目前checkpoint虽然有建立,但是有很长一段时间没进行过同步了。
Lu_shaoyong
58 消息
0
2015年9月17日 02:00
Hi,Jeffe
1、后端存储上的LUN和Raid,在坏盘后进行了删除并重建,后来又将新建的raid和lun都删除了。
2、两台存储间是使用的replication功能
3、四个文件系统不是在同一个raid上面。
4、现在的要求就是将data2和data6删除。
Jeffey1
2 Intern
2 Intern
•
2.8K 消息
0
2015年9月17日 02:00
我想再确认一下目前状态:
1、后端的LUN d17和d43是否已经删除?后端的RAID 17是否已经重建?
2、你提到的二台Celerra存储之间做快照,使用的是replication功能吧?
3、我看到文件系统data3和data7状态正常,data2、data3、data6、data7 四个文件系统是在同一个RAID上??
4、客户现在的需求是不是就是删除文件系统data2和date6呢?
Roger_Wu
2 Intern
2 Intern
•
4K 消息
0
2015年9月23日 00:00
楼主,这个问题后续进展如何?有开case请Level 2工程师介入吗?
Lu_shaoyong
58 消息
0
2015年9月25日 01:00
Hi,
最开始我们也是按照正常顺序来删除的,但是删除了checkpoint、replication后删除文件系统就无法删除了,所以就先删除LUN和Raid Group再来尝试删除文件系统。
Lu_shaoyong
58 消息
0
2015年9月25日 01:00
Hi,Roger w.
由于是过保的存储,开case的话会涉及到一些问题,所以没有开case
最后我们自行修改了一些文件,也不确定是否已经完全删除,但是从存储方面看,原来命令输出有报错的没有了,两个文件系统占用的空间最后也释放出来了,损坏的Raid Group重新创建后也加入到nas并且识别到了空间。
Jeffey1
2 Intern
2 Intern
•
2.8K 消息
0
2015年9月25日 02:00
下次遇到这样的情况,可以先按照你原来的步骤操作,如果无法删除,就用我提供的KB,绝大部分都可以正常删除。
现在这种情况,不能开case就不能该NASDB,那么这个文件系统一直存在DB中。不过后端磁盘已经更换,前面的这二个文件系统不会占用磁盘空间,也不会对系统运行造成影响。只要用户不是强迫症患者,也就没什么关系了。
Lu_shaoyong
58 消息
0
2015年9月28日 03:00
是啊,一开始也准备放弃,不删除了。不过又遇到CS故障,需要重装,安装过程中报错无法通过,所以才不得不删除,以通过CS重装。
幸好,经过你的提示我们找到了一些文件,如pool、disks、volume等里面有原损坏的raid、lun及文件系统等的信息,所以我们尝试修改这些文件,并通过dbchk来检查,最终把这些信息都修改或者删除后正常了,继续进行CS安装也顺利的通过了。
Roger_Wu
2 Intern
2 Intern
•
4K 消息
0
2015年9月28日 19:00
这位朋友也是高手啊,很会触类旁通,举一反三
Jeffey1
2 Intern
2 Intern
•
2.8K 消息
0
2015年11月29日 22:00
楼主问题解决就好,以后有问题可以多到论坛上来提问啊!最近论坛正在举办"VNX专家问答“,有问题快去提哦,活动持续二周。