浏览
帮助
登录
此帖子已超过 5 年
Solved!
yifan
30 消息
0
3317
2013年8月28日 21:00
请教前辈们,备份系统一般巡检的工作内容或者相关流程,个人觉得我们的巡检流程不够科学、完善,请假大家一起讨论下。
包括时间段、内容、文档、故障流程(定义项)等,或者也涉及到项目管理、提升用户服务体验的元素。这个话题可能比较宽泛,欢迎各位前辈各抒己见。
回复(7)
DELL-Leo
Community Manager
•
7.1K 消息
2013年8月29日 00:00
LZ,你这个题目确实太大太宽泛了。不过是很值得讨论讨论的。。
对备份系统做巡检是为了提升备份系统运维的管理维护水平,最大程度上保障客户核心数据的稳定性,从根本上提高客户各项业务的连续性。
对备份系统的巡检,差不多定期需要做以下操作的:
1. 备份系统的维护
Ø 对备份系统进行日常维护,包括数据维护等
· 制定备份策略:
– 按照数据的重要程度对不同备份对象进行分类,对不同的备份对象根据类别制定不同的备份策略。
– 对重大系统数据每天进行备份。
– 数据被大规模更新前后,对数据进行备份。
– 服务器迁移或者数据库升级前后,对数据进行备份。
· 明确备份数据的保留时间:
– 需要长期保存的备份介质,必须按照制造厂商确定的存储寿命定期转储,磁盘、磁带、光盘等介质使用有效期规定为三年,三年后更换新介质进行备份。需要长期保存的数据,应在介质有效期内进行转存,防止存储介质过期失效。
– 存放备份数据的介质必须具有明确的唯一标识;标识必须使用统一的命名规范,注明介质编号、备份内容、备份日期、备份时间、磁带的启用日期和保留期限等重要信息。
– 备份介质存放场所必须满足防火、防水、防潮、防磁、防盗、防鼠等要求。备份介质必须有由专人负责进行存取,其他人员未经批准不能操作。
· 备份恢复的演练
– 根据客户需求,利用备机资源,帮助客户搭建恢复测试环境,针对性制定可操作的应急恢复方案,进行真实的备份恢复演练,以确保备份的有效性和备份恢复的可行性。进而帮助客户真正的做到有备无患。
Ø 记录每天的运行日志,并整理出维护文档
· “备份策略”
· “数据保留记录”
· “备份工作汇总”
· “备份介质登记表”
· “备份恢复测试表”
2. 备份系统的调优
Ø 对备份与恢复的效率进行监控与分析,如有异常及时进行调整
3. 3. 存储硬件的扩容
Ø 对备份系统的存储硬件容量进行监控与分析,如有必要提前进行存储硬件容量的扩容,以防止容量不足导致的备份失败
4. 4. 出具备份系统健康检查报告
Ø 每次结束对备份系统的健康检查后,需要制定相应报告并存档
最后是一些存储备份系统管理建议:
Ø 建立常规备份操作手册
Ø 制定备份系统管理流程
Ø 制定备份故障应急处理预案
Roger_Wu
2 Intern
4K 消息
1
我只做技术,就说说我认为最关键的。一个是看备份脚本有没有正常在跑,上一个检查周期内有没有备份失败的记录,还有就是一次备份耗时有没有明显变化(以此为依据调整备份任务开始时间和间隔)。
有条件的话(这个其实更重要,决定了灾难发生时还能不能保住饭碗)还要做一下恢复测试。听到过不少案例,故障发生了,备份的数据不完整或者恢复失败,然后...就没有然后了......
你问到的故障流程定义和项目管理这方面的内容,就需要经常做方案的人来分享些经验了。
Yanhong1
1.6K 消息
2013年8月29日 01:00
除了楼上2位技术专家的建议外,我推荐你也可以看看这篇专家问答翻译稿,它从一个客户角度谈怎么做备份的日常管理和监控,我觉得也颇有价值
【专家问答(翻译稿)】由EMC客户来谈论该如何进行NetWorker的日常操作
born_chen
1.8K 消息
2013年8月29日 02:00
确实是一个宽泛的话题,不过个人认为,框架属于管理,细节属于技术。
一个良好的售后服务机制,是必须在项目实施完成后制定相对应的服务体系,根据项目内容、用户地址位置、用户技术水平、合同条款约定、自身工程师队伍的数量和水平、效益的高与低等等要素去衡量制定的。这个应该是管理层面的。
然后技术层面的,落实到工程师的技术水平、服务质量、沟通、考核等等。
还有些文档规范化的要求吧。
还有就是根据项目内容制定巡检对象,根据内容进行大项的分类制定不同的要素模板。
我讲得可能都比较理论化,具体技术要素可以参考上面几位的建议。
如果要拿备份来说的,根据备份系统的要点,涉及到的软件、硬件的健康检查等,提交总结报告等,必要的调整、调优等。可能讲的比较乱,需要梳理。
big_lei
450 消息
2013年8月29日 17:00
大拿们说的都很详细。
不过据个人经验和所见所闻,很多的工程师和很多的服务提供商们的服务来看,走过程的居多了一下,外观瞅瞅,看看日志就糊弄完事了。
当然,现在的设备确实是坚实不少了,这么做,隐患也不是很大了。
如果认真的去做巡检,综合楼上的人仔仔细细的做一遍。
liulei_it
3.2K 消息
2013年8月29日 18:00
Roger W大师所说的恢复测试是非常重要的一环,如果您有条件的话还是做一下。偶听说过某运营商在恢复数据的时候触发了veritas的一个BUG结果可想而知。
cxemc
362 消息
2013年8月29日 21:00
巡检要看是什么级别,首先必须按照合同内容进行服务履行!
技术上:
看状态,收集日志,分析日志,巡检报告,反馈客户信息。
戴尔支持资源
查看更多
查看全部
Top
DELL-Leo
Community Manager
Community Manager
•
7.1K 消息
0
2013年8月29日 00:00
LZ,你这个题目确实太大太宽泛了。不过是很值得讨论讨论的。。
对备份系统做巡检是为了提升备份系统运维的管理维护水平,最大程度上保障客户核心数据的稳定性,从根本上提高客户各项业务的连续性。
对备份系统的巡检,差不多定期需要做以下操作的:
1. 备份系统的维护
Ø 对备份系统进行日常维护,包括数据维护等
· 制定备份策略:
– 按照数据的重要程度对不同备份对象进行分类,对不同的备份对象根据类别制定不同的备份策略。
– 对重大系统数据每天进行备份。
– 数据被大规模更新前后,对数据进行备份。
– 服务器迁移或者数据库升级前后,对数据进行备份。
· 明确备份数据的保留时间:
– 需要长期保存的备份介质,必须按照制造厂商确定的存储寿命定期转储,磁盘、磁带、光盘等介质使用有效期规定为三年,三年后更换新介质进行备份。需要长期保存的数据,应在介质有效期内进行转存,防止存储介质过期失效。
– 存放备份数据的介质必须具有明确的唯一标识;标识必须使用统一的命名规范,注明介质编号、备份内容、备份日期、备份时间、磁带的启用日期和保留期限等重要信息。
– 备份介质存放场所必须满足防火、防水、防潮、防磁、防盗、防鼠等要求。备份介质必须有由专人负责进行存取,其他人员未经批准不能操作。
· 备份恢复的演练
– 根据客户需求,利用备机资源,帮助客户搭建恢复测试环境,针对性制定可操作的应急恢复方案,进行真实的备份恢复演练,以确保备份的有效性和备份恢复的可行性。进而帮助客户真正的做到有备无患。
Ø 记录每天的运行日志,并整理出维护文档
· “备份策略”
· “数据保留记录”
· “备份工作汇总”
· “备份介质登记表”
· “备份恢复测试表”
2. 备份系统的调优
Ø 对备份与恢复的效率进行监控与分析,如有异常及时进行调整
3. 3. 存储硬件的扩容
Ø 对备份系统的存储硬件容量进行监控与分析,如有必要提前进行存储硬件容量的扩容,以防止容量不足导致的备份失败
4. 4. 出具备份系统健康检查报告
Ø 每次结束对备份系统的健康检查后,需要制定相应报告并存档
最后是一些存储备份系统管理建议:
Ø 建立常规备份操作手册
Ø 制定备份系统管理流程
Ø 制定备份故障应急处理预案
Roger_Wu
2 Intern
2 Intern
•
4K 消息
1
2013年8月29日 00:00
我只做技术,就说说我认为最关键的。一个是看备份脚本有没有正常在跑,上一个检查周期内有没有备份失败的记录,还有就是一次备份耗时有没有明显变化(以此为依据调整备份任务开始时间和间隔)。
有条件的话(这个其实更重要,决定了灾难发生时还能不能保住饭碗)还要做一下恢复测试。听到过不少案例,故障发生了,备份的数据不完整或者恢复失败,然后...就没有然后了......
你问到的故障流程定义和项目管理这方面的内容,就需要经常做方案的人来分享些经验了。
Yanhong1
1.6K 消息
1
2013年8月29日 01:00
除了楼上2位技术专家的建议外,我推荐你也可以看看这篇专家问答翻译稿,它从一个客户角度谈怎么做备份的日常管理和监控,我觉得也颇有价值
【专家问答(翻译稿)】由EMC客户来谈论该如何进行NetWorker的日常操作
born_chen
1.8K 消息
1
2013年8月29日 02:00
确实是一个宽泛的话题,不过个人认为,框架属于管理,细节属于技术。
一个良好的售后服务机制,是必须在项目实施完成后制定相对应的服务体系,根据项目内容、用户地址位置、用户技术水平、合同条款约定、自身工程师队伍的数量和水平、效益的高与低等等要素去衡量制定的。这个应该是管理层面的。
然后技术层面的,落实到工程师的技术水平、服务质量、沟通、考核等等。
还有些文档规范化的要求吧。
还有就是根据项目内容制定巡检对象,根据内容进行大项的分类制定不同的要素模板。
我讲得可能都比较理论化,具体技术要素可以参考上面几位的建议。
如果要拿备份来说的,根据备份系统的要点,涉及到的软件、硬件的健康检查等,提交总结报告等,必要的调整、调优等。可能讲的比较乱,需要梳理。
big_lei
450 消息
0
2013年8月29日 17:00
大拿们说的都很详细。
不过据个人经验和所见所闻,很多的工程师和很多的服务提供商们的服务来看,走过程的居多了一下,外观瞅瞅,看看日志就糊弄完事了。
当然,现在的设备确实是坚实不少了,这么做,隐患也不是很大了。
如果认真的去做巡检,综合楼上的人仔仔细细的做一遍。
liulei_it
2 Intern
2 Intern
•
3.2K 消息
0
2013年8月29日 18:00
Roger W大师所说的恢复测试是非常重要的一环,如果您有条件的话还是做一下。偶听说过某运营商在恢复数据的时候触发了veritas的一个BUG结果可想而知。
cxemc
2 Intern
2 Intern
•
362 消息
0
2013年8月29日 21:00
巡检要看是什么级别,首先必须按照合同内容进行服务履行!
技术上:
看状态,收集日志,分析日志,巡检报告,反馈客户信息。