Lu_shaoyong

58 消息

5813

2015年9月10日 19:00

求助，删除NS-480已损坏文件系统

Hi,

遇到一个celerra的文件系统故障，由于一组RAID中两块硬盘同时故障，raid损坏，对应的文件系统无法删除。

两个文件系统用于另外一台NAS存储向此480的checkpoint。

在web控制台中删除replication下所有的checkpoint等条目删除后，删除文件系统时报错。使用命令删除也报错。

[nasadmin@NS-480 ~]$ nas_fs -d data2

Error 3104: data2 : file system has backups in use.

[nasadmin@NS-480 ~]$ nas_fs -d data6

Error 3104: data6 : file system has backups in use.

有文档提到用命令/nas/sbin/rootnas_fs -delete xxxxx -o umount=yes -ALLOW_REP_INT_CKPT_OP来进行删除，但是仍然无法删除，报错

[nasadmin@NS-480 sbin]$ fs_ckpt data2 -list -all

id ckpt_name creation_time inuse fullmark total_savvol_used ckpt_usage_on_savvol

100 root_rep_ckpt_26_27218_1 04/27/2012-14:46:14-CST n N/A N/A N/A

101 root_rep_ckpt_26_27218_2 04/27/2012-14:46:19-CST n N/A N/A N/A

[nasadmin@NS-480 sbin]$ /nas/sbin/rootnas_fs -delete root_rep_ckpt_26_27218_1 -o umount=yes -ALLOW_REP_INT_CKPT_OP

Error 5005: failed to complete command

[nasadmin@NS-480 sbin]$ /nas/sbin/rootnas_fs -delete root_rep_ckpt_26_27218_2 -o umount=yes -ALLOW_REP_INT_CKPT_OP

Error 5005: failed to complete command

现在不知道是命令不对还是说有其他的需要删除。

回复(15)

Jeffey1

2 Intern

•

2.8K 消息

0

2015年9月17日 23:00

你这种情况属于非法操作，正常流程是先删除前端文件系统，再取消前端和后端的绑定，再删除后端LUN。

你现在先删除了LUN，如果要删除前端文件系统就要改NASDB，这个需要开case让EMC的L2工程师来操作。

Jeffey1

2 Intern

•

2.8K 消息

0

2015年9月11日 03:00

你好，楼主。

Celerra上的文件如果做了checkpoint，需要先删除快照文件，然后才能删除原文件。我看了你之前的操作步骤，基本没有什么问题。之所以你无法删除这个文件，可能是由于各种意外原因（比如：RAID损坏造成）导致NASDB中没有记载这个文件系统存在快照。因此，你可能需要更多的内部命令才能删除这个文件系统，具体操作步骤请参考KB文件： https://support.emc.com/kb/31535（需要partner权限）。

Lu_shaoyong

58 消息

0

2015年9月14日 18:00

Hi,Jeffey

谢谢你的帮助。

你给的KB，方法已经提交给了客户，需等待客户同意才能操作。

Lu_shaoyong

58 消息

0

2015年9月16日 21:00

Hi,Jeffey

根据KB中来做，找不到ckptID。

[nasadmin@NS-480 ~]$ nas_fs -l -a

id inuse type acl volume name server

1 n 1 0 10 root_fs_1

2 y 1 0 12 root_fs_2 1

3 y 1 0 14 root_fs_3 2

4 y 1 0 16 root_fs_4 3

5 y 1 0 18 root_fs_5 4

6 n 1 0 20 root_fs_6

7 n 1 0 22 root_fs_7

8 n 1 0 24 root_fs_8

9 n 1 0 26 root_fs_9

10 n 1 0 28 root_fs_10

11 n 1 0 30 root_fs_11

12 n 1 0 32 root_fs_12

13 n 1 0 34 root_fs_13

14 n 1 0 36 root_fs_14

15 n 1 0 38 root_fs_15

16 y 1 0 40 root_fs_common 4,1,3,2

17 n 5 0 73 root_fs_ufslog

18 n 5 0 76 root_panic_reserve

19 n 5 0 77 root_fs_d3

20 n 5 0 78 root_fs_d4

21 n 5 0 79 root_fs_d5

22 n 5 0 80 root_fs_d6

24 y 1 0 160 data1 1

26 n 1 0 351 data2

27 y 1 0 197 data3 1

29 y 101 0 0 root_avm_fs_group_1

30 n 1 0 394 data6

32 y 1 0 232 data11 1

36 y 1 0 370 data7 1

37 y 1 0 168 root_fs_vdm_VDM2 1

38 y 101 0 0 root_avm_fs_group_3

40 y 1 0 171 root_fs_vdm_VDM1_1 1

41 n 11 0 0 vpfs41

42 y 7 0 174 root_rep_ckpt_40_41 1

43 y 7 0 174 root_rep_ckpt_40_41 1

51 n 11 0 0 vpfs51

52 y 7 0 201 root_rep_ckpt_27_44 1

53 y 7 0 201 root_rep_ckpt_27_44 1

67 y 1 0 245 data8 1

68 y 1 0 247 data9 1

69 y 1 0 249 data10 1

70 y 1 0 252 data5 1

76 y 1 0 293 root_fs_vdm_VDM2_re 1

86 y 1 0 313 data13 1

99 n 11 0 0 vpfs99

100 n 7 0 355 root_rep_ckpt_26_27

101 n 7 0 355 root_rep_ckpt_26_27

102 n 11 0 0 vpfs102

103 y 7 0 373 root_rep_ckpt_36_27 1

104 y 7 0 373 root_rep_ckpt_36_27 1

105 n 11 0 0 vpfs105

106 n 7 0 397 root_rep_ckpt_30_27

107 n 7 0 397 root_rep_ckpt_30_27

108 y 1 0 417 data14 1

109 y 1 0 419 data15 1

110 y 1 0 423 data16 1

111 y 1 0 436 data17 1

112 y 1 0 441 data12 1

114 y 1 0 450 data4 1

[nasadmin@NS-480 bin]$ nas_fs -i data2

id = 26

name = data2

acl = 0

in_use = False

type = uxfs

worm = off

volume = v351

pool = clarata_archive

member_of = root_avm_fs_group_10

rw_servers=

ro_servers=

rw_vdms =

ro_vdms =

auto_ext = no,virtual_provision=no

deduplication = unavailable

ckpts = root_rep_ckpt_26_27218_1,root_rep_ckpt_26_27218_2

stor_devs = FCNCX103100041-003B,FCNCX103100041-0034,FCNCX103100041-0037,FCNCX103100041-0030

disks = d29,d17,d28,d16

[nasadmin@NS-480 bin]$ nas_fs -i data6

id = 30

name = data6

acl = 0

in_use = False

type = uxfs

worm = off

volume = v394

pool = clarata_archive

member_of = root_avm_fs_group_10

rw_servers=

ro_servers=

rw_vdms =

ro_vdms =

auto_ext = no,virtual_provision=no

deduplication = unavailable

ckpts = root_rep_ckpt_30_27886_1,root_rep_ckpt_30_27886_2

stor_devs = FCNCX103100041-0031,FCNCX103100041-001A,FCNCX103100041-0035,FCNCX103100041-002A,FCNCX103100041-0033,FCNCX103100041-002C

disks = d42,d34,d43,d35,d27,d15

[nasadmin@NS-480 bin]$ .server_config server_2 -v "file display ckpt 26"

server_2 : commands processed: 1

output is complete

1442462178: SVFS: 3: fsID 26 is not mounted

1442462178: ADMIN: 3: Command failed: file display ckpt 26

Error 4020: server_2 : failed to complete command

[nasadmin@NS-480 bin]$ .server_config server_2 -v "file display ckpt 30"

server_2 : commands processed: 1

output is complete

1442462185: SVFS: 3: fsID 30 is not mounted

1442462185: ADMIN: 3: Command failed: file display ckpt 30

Error 4020: server_2 : failed to complete command

data2的ckptID是否是下面的100和101。

[nasadmin@NS-480 bin]$ /nas/sbin/rootnas_fs -i root_rep_ckpt_26_27218_1

id = 100

name = root_rep_ckpt_26_27218_1

acl = 0

in_use = False

type = ckpt

worm = off

volume = vp355

pool = clarata_archive

member_of =

rw_servers=

ro_servers=

rw_vdms =

ro_vdms =

checkpt_of= data2 Fri Apr 27 02:46:14 EDT 2012

deduplication = unavailable

stor_devs = FCNCX103100041-0033,FCNCX103100041-002C,FCNCX103100041-0035,FCNCX103100041-002A

disks = d27,d15,d43,d35

[nasadmin@NS-480 bin]$ /nas/sbin/rootnas_fs -i root_rep_ckpt_26_27218_2

id = 101

name = root_rep_ckpt_26_27218_2

acl = 0

in_use = False

type = ckpt

worm = off

volume = vp355

pool = clarata_archive

member_of =

rw_servers=

ro_servers=

rw_vdms =

ro_vdms =

checkpt_of= data2 Fri Apr 27 02:46:19 EDT 2012

deduplication = unavailable

stor_devs = FCNCX103100041-0033,FCNCX103100041-002C,FCNCX103100041-0035,FCNCX103100041-002A

disks = d27,d15,d43,d35

另外 = ，另个ID savvol这个也无法找到。

Jeffey1

2 Intern

•

2.8K 消息

0

2015年9月16日 23:00

从你贴出来的命令输出，我看到文件系统data 2和data 6是unmount状态，这二个文件系统都不能使用。之前你提到有个RAID坏了二块盘需要修复，文件系统data2和data6的数据是不是就保存在这个RAID上面呢？

Lu_shaoyong

58 消息

0

2015年9月17日 00:00

Hi,Jeffey

是的，损坏的是Raid Group 17 ，划分成了两个lun d17和d43 ，涉及到的文件系统就是data2 和data6。由于客户所数据可以不要，所以就没进行数据恢复，准备重新建Raid 和文件系统。在删除data2和data6的时候就遇到了上述问题。

这台存储的data2、data3、data6、data7 四个文件系统用于checkpoint，但是由于曾经升级过ns-480的flare code，所以两台存储间的版本不匹配，造成了功能无法使用。所以目前checkpoint虽然有建立，但是有很长一段时间没进行过同步了。

Lu_shaoyong

58 消息

0

2015年9月17日 02:00

Hi,Jeffe

1、后端存储上的LUN和Raid，在坏盘后进行了删除并重建，后来又将新建的raid和lun都删除了。

2、两台存储间是使用的replication功能

3、四个文件系统不是在同一个raid上面。

4、现在的要求就是将data2和data6删除。

Jeffey1

2 Intern

•

2.8K 消息

0

2015年9月17日 02:00

我想再确认一下目前状态：

1、后端的LUN d17和d43是否已经删除？后端的RAID 17是否已经重建？

2、你提到的二台Celerra存储之间做快照，使用的是replication功能吧？

3、我看到文件系统data3和data7状态正常，data2、data3、data6、data7 四个文件系统是在同一个RAID上？？

4、客户现在的需求是不是就是删除文件系统data2和date6呢？

Roger_Wu

2 Intern

•

4K 消息

0

2015年9月23日 00:00

楼主，这个问题后续进展如何？有开case请Level 2工程师介入吗？

Lu_shaoyong

58 消息

0

2015年9月25日 01:00

Hi，

最开始我们也是按照正常顺序来删除的，但是删除了checkpoint、replication后删除文件系统就无法删除了，所以就先删除LUN和Raid Group再来尝试删除文件系统。

Lu_shaoyong

58 消息

0

2015年9月25日 01:00

Hi,Roger w.

由于是过保的存储，开case的话会涉及到一些问题，所以没有开case

最后我们自行修改了一些文件，也不确定是否已经完全删除，但是从存储方面看，原来命令输出有报错的没有了，两个文件系统占用的空间最后也释放出来了，损坏的Raid Group重新创建后也加入到nas并且识别到了空间。

Jeffey1

2 Intern

•

2.8K 消息

0

2015年9月25日 02:00

下次遇到这样的情况，可以先按照你原来的步骤操作，如果无法删除，就用我提供的KB，绝大部分都可以正常删除。

现在这种情况，不能开case就不能该NASDB，那么这个文件系统一直存在DB中。不过后端磁盘已经更换，前面的这二个文件系统不会占用磁盘空间，也不会对系统运行造成影响。只要用户不是强迫症患者，也就没什么关系了。

Lu_shaoyong

58 消息

0

2015年9月28日 03:00

是啊，一开始也准备放弃，不删除了。不过又遇到CS故障，需要重装，安装过程中报错无法通过，所以才不得不删除，以通过CS重装。

幸好，经过你的提示我们找到了一些文件，如pool、disks、volume等里面有原损坏的raid、lun及文件系统等的信息，所以我们尝试修改这些文件，并通过dbchk来检查，最终把这些信息都修改或者删除后正常了，继续进行CS安装也顺利的通过了。

Roger_Wu

2 Intern

•

4K 消息

0

2015年9月28日 19:00

这位朋友也是高手啊，很会触类旁通，举一反三

Jeffey1

2 Intern

•

2.8K 消息

0

2015年11月29日 22:00

楼主问题解决就好，以后有问题可以多到论坛上来提问啊！最近论坛正在举办"VNX专家问答“，有问题快去提哦，活动持续二周。

查看全部

找不到事件！

综合讨论区

求助，删除NS-480已损坏文件系统