开始新对话

此帖子已超过 5 年

Solved!

Go to Solution

3285

2013年8月28日 21:00

请教巡检工作内容

请教前辈们,备份系统一般巡检的工作内容或者相关流程,个人觉得我们的巡检流程不够科学、完善,请假大家一起讨论下。

包括时间段、内容、文档、故障流程(定义项)等,或者也涉及到项目管理、提升用户服务体验的元素。这个话题可能比较宽泛,欢迎各位前辈各抒己见。

Community Manager

 • 

6.2K 消息

2013年8月29日 00:00

LZ,你这个题目确实太大太宽泛了。不过是很值得讨论讨论的。。

对备份系统做巡检是为了提升备份系统运维的管理维护水平,最大程度上保障客户核心数据的稳定性,从根本上提高客户各项业务的连续性。

对备份系统的巡检,差不多定期需要做以下操作的:

1. 备份系统的维护

Ø  对备份系统进行日常维护,包括数据维护等

·         制定备份策略:

–  按照数据的重要程度对不同备份对象进行分类,对不同的备份对象根据类别制定不同的备份策略。

–  对重大系统数据每天进行备份。

–  数据被大规模更新前后,对数据进行备份。

–  服务器迁移或者数据库升级前后,对数据进行备份。

·         明确备份数据的保留时间:

–  需要长期保存的备份介质,必须按照制造厂商确定的存储寿命定期转储,磁盘、磁带、光盘等介质使用有效期规定为三年,三年后更换新介质进行备份。需要长期保存的数据,应在介质有效期内进行转存,防止存储介质过期失效。

–  存放备份数据的介质必须具有明确的唯一标识;标识必须使用统一的命名规范,注明介质编号、备份内容、备份日期、备份时间、磁带的启用日期和保留期限等重要信息。

–  备份介质存放场所必须满足防火、防水、防潮、防磁、防盗、防鼠等要求。备份介质必须有由专人负责进行存取,其他人员未经批准不能操作。

·         备份恢复的演练

–  根据客户需求,利用备机资源,帮助客户搭建恢复测试环境,针对性制定可操作的应急恢复方案,进行真实的备份恢复演练,以确保备份的有效性和备份恢复的可行性。进而帮助客户真正的做到有备无患。

Ø  记录每天的运行日志,并整理出维护文档

·         “备份策略”

·         “数据保留记录”

·         “备份工作汇总”

·         “备份介质登记表”

·         “备份恢复测试表”

2.  备份系统的调优

Ø  对备份与恢复的效率进行监控与分析,如有异常及时进行调整

3.    3. 存储硬件的扩容

Ø  对备份系统的存储硬件容量进行监控与分析,如有必要提前进行存储硬件容量的扩容,以防止容量不足导致的备份失败

4.    4. 出具备份系统健康检查报告

           Ø  每次结束对备份系统的健康检查后,需要制定相应报告并存档

最后是一些存储备份系统管理建议:

Ø  建立常规备份操作手册

Ø  制定备份系统管理流程

Ø  制定备份故障应急处理预案

4K 消息

2013年8月29日 00:00

我只做技术,就说说我认为最关键的。一个是看备份脚本有没有正常在跑,上一个检查周期内有没有备份失败的记录,还有就是一次备份耗时有没有明显变化(以此为依据调整备份任务开始时间和间隔)。

有条件的话(这个其实更重要,决定了灾难发生时还能不能保住饭碗)还要做一下恢复测试。听到过不少案例,故障发生了,备份的数据不完整或者恢复失败,然后...就没有然后了......

你问到的故障流程定义和项目管理这方面的内容,就需要经常做方案的人来分享些经验了。

1.6K 消息

2013年8月29日 01:00

除了楼上2位技术专家的建议外,我推荐你也可以看看这篇专家问答翻译稿,它从一个客户角度谈怎么做备份的日常管理和监控,我觉得也颇有价值

【专家问答(翻译稿)】由EMC客户来谈论该如何进行NetWorker的日常操作

1.8K 消息

2013年8月29日 02:00

确实是一个宽泛的话题,不过个人认为,框架属于管理,细节属于技术。

一个良好的售后服务机制,是必须在项目实施完成后制定相对应的服务体系,根据项目内容、用户地址位置、用户技术水平、合同条款约定、自身工程师队伍的数量和水平、效益的高与低等等要素去衡量制定的。这个应该是管理层面的。

然后技术层面的,落实到工程师的技术水平、服务质量、沟通、考核等等。

还有些文档规范化的要求吧。

还有就是根据项目内容制定巡检对象,根据内容进行大项的分类制定不同的要素模板。

我讲得可能都比较理论化,具体技术要素可以参考上面几位的建议。

如果要拿备份来说的,根据备份系统的要点,涉及到的软件、硬件的健康检查等,提交总结报告等,必要的调整、调优等。可能讲的比较乱,需要梳理。

450 消息

2013年8月29日 17:00

大拿们说的都很详细。

不过据个人经验和所见所闻,很多的工程师和很多的服务提供商们的服务来看,走过程的居多了一下,外观瞅瞅,看看日志就糊弄完事了。

当然,现在的设备确实是坚实不少了,这么做,隐患也不是很大了。

如果认真的去做巡检,综合楼上的人仔仔细细的做一遍。

3.2K 消息

2013年8月29日 18:00

Roger W大师所说的恢复测试是非常重要的一环,如果您有条件的话还是做一下。偶听说过某运营商在恢复数据的时候触发了veritas的一个BUG结果可想而知。

362 消息

2013年8月29日 21:00

巡检要看是什么级别,首先必须按照合同内容进行服务履行!

技术上:

看状态,收集日志,分析日志,巡检报告,反馈客户信息。

找不到事件!

Top