网站首页
IC库存
IC展台
电子资讯
技术资料
PDF文档
我的博客
IC72论坛
ic72 logo
搜索关键字: 所有资讯 行业动态 市场趋势 政策法规 新品发布 技术资讯 价格快报 展会资讯
  • 达普IC芯片交易网 > 新闻中心 > 技术资料 > 正文
  • RSS
  • NetIQ灾备应用一键式自动切换软件发布
    http://www.ic72.com 发布时间:2010/1/7 16:28:17

        灾备系统是为广大客户提供不间断的7×24的服务。为了保证灾备系统的服务质量,提高应对突发事件的能力,我们研发了灾备应用自动切换系统(融海咨询NetIQ灾备应用一键式自动切换软件,简称灾备切换软件)。它实现了将传统手工流程变为全自动化操作流程;实现了多个业务系统并发切换,大大缩短了切换时间,提高了切换效率,达到了即切即用的水平。灾备自动切换系统目前主要用于开放系统中核心业务系统的应急灾难恢复,能够在突发灾难等紧急情况下,在极短时间内,在备份机房的备份服务器上恢复生产业务的正常运营。灾备自动切换系统使用后,将大幅度降低人工成本,显著缩短切换时间,减少了人工干预,提高了切换的成功率,能使企业的运维水平和故障应急处理能力上一个新台阶。这套系统可以成为企业中保障IT服务持续性的重要环节,可以主动规避在IT服务中不可预见的风险。

        一、需求与希望达到目标

        目前灾备系统切换控制的范围涵盖了企业各个重要的业务系统。包括UNIX、Windows主机、存储、文件系统、数据库、中间件服务、Web服务器及其他应用服务的切换。

        自动切换软件应该能达到这样的目标:

        a)能够从单一Web入口进入灾备自动切换控制台,无需人工逐一登录各主机进行操作;

        b)对切换进行严格的权限控制,没有登陆权限的人员不可随意登录进行切换操作或查看切换进度;

        c)能够对授权用户的登录保存日志,记录登陆者的IP地址、登陆时间及访问/操作轨迹;

        d)能够通过Web页面启动切换流程,在切换启动时要进行确认再开始操作。

        e)由于生产系统的重要性,其切换启动入口需要特殊授权登陆,否则只能查看进度;

        f)能够根据具体操作流程的要求,以不同用户身份和权限执行指令;

        如:存储及文件系统一般需要root根用户权限,而数据库、中间件、Web服务器等则须使用Oracle数据库用户、WebSphere/WebLogic中间件用户等其他身份进行操作。

        g)能够直观展示切换进度,一旦发生故障可以快速定位,并为操作员提供可操作的手工处理方案;

        h)支持人工交互操作,即:切换中如果发生故障,可以在人工处理后继续自动处理后续流程。

        二、技术难点

        在切换流程中,每个系统都涉及到多台主机的多项操作步骤之间的顺序关系。在人工操作模式下,操作员可以根据流程文档,多次登录不同主机(有可能需要使用不同账号登录),以既定顺序进行操作。比如:某项业务应用中,有Tuxedo和Oracle服务器,Tuxedo服务需要等Oracle服务起来之后才能启动,任务机的作用是等待Oracle服务的状态,当Oracle服务正常起来后,再向Tuxedo服务器发出指令,启动Tuxedo服务。

        而在自动化切换模式下,如何控制并保证各主机的所有操作合乎总体流程的要求,成为首当其冲的问题,也是搭建自动切换控制系统最重要的技术点。此外,监控页面自动动态更新、多重权限控制及安全审计等也是亟需解决的问题。

        三、我们的解决方案

        (一)方案设计

        灾备自动切换软件系统可以分为前台和后台两部分:

        前台——展示和操作部分:当需要进行灾备切换时,操作员从Web页面发出切换指令,启动切换操作;切换开始后, Web页面可以展示切换进度,其内容从数据库中自动更新,因此操作员可以清楚地看到流程各个步骤是否执行完毕,实时监控切换进度;在切换出现故障或者需要人工操作时,Web页面提供人工操作控制的交互入口,可以对切换进度施加人为影响;在切换完成或需要提前中止时,可以停止切换操作;

        后台——控制部分:含后台主控程序及在NetIQ AppManager Agent控制下运行于各主机的任务程序,可以实现以不同用户身份在不同主机系统上执行切换指令。

         (二)体系架构


        本系统中,前台通过IIS Web服务器搭建;后台控制部分则是基于已有的NetIQ AppManager监控体系实现的。在各主机上的切换指令及与主控程序之间的信息传递是由NetIQ AppManager Agent控制完成的。

        (三)技术点解析

        在前台的主要技术点为多重权限控制,包括USB KEY(实体密钥)网页访问控制、授权用户密码登陆权限控制、生产系统切换专用授权(专设用户密码),而网页访问日志记录,可作为不同权限用户行为分析及安全审计的基础。

        1、数据库表等初始信息准备

        本部分内容是实现自动切换流程控制的重要基础。

        (1)基础构架准备说明:

        主控机(Windows主机):

        NetIQ AppManager 控制中心(含QDB数据库);

        切换主机(UNIX主机):

        NetIQ AppManager Agent(连接到主控机NetIQ MS);

        (2)数据库表等的准备:

        在主控机的QDB数据库中创建数据库表;

        含各应用信息及其对应QML知识脚本、应用与服务器对应关系、各主机在流程中的分步步骤的状态等信息、各主机数据更新记录,可作为数据自动更新展示的基础;各主机进度信息,可与主控程序交互控制切换进度;主控程序信息,保证主控程序根据操作员的要求启动或停止,且不会启动多个实例。

        数据库表的初始化操作已形成可执行SQL文件,可在主控机上一次性部署。

        SQL过程,完成数据库智能调度,已经形成SQL文件,可在主控机上一次性部署。

        (3)流程分步步骤逻辑关系分析的程序化:

        根据初始材料《用户操作手册》将应用流程整理分步,并加入各分步之间的等待关系(需要一定量的手工操作),通过Perl程序分析Excel文档制作数据库配置文件。分析过程的程序化大大降低了人工操作的工作量和复杂度,是本系统的重要技术突破。

        (4)其他程序:

        主控机:

        数据库表初始化Perl程序:在系统环境选择后被调用,根据配置文件完成数据库初始化操作;

        切换主控Perl程序:负责与切换主机上的知识脚本交互,控制各主机上的切换进度;同时负责与数据库的信息交互,更新数据库中的切换进度信息,使得页面可以动态展示进度信息,保证操作员正常监控;

        切换结束Perl程序:切换完成或终止时调用,结束主控程序及NetIQ AppManager控制台下的相关知识脚本。

        切换主机:

        流程分步步骤程序(Shell或Perl):完成具体分步操作,与分步步骤的数据库配置文件相匹配。在流程发生变化的时候需要做相应修改并重新部署到目标主机上。

        2、系统环境选择(含数据库信息初始化)

        在使用授权用户密码登陆后,即进入灾备切换主控页面。在左侧可以看到系统环境选择菜单,含测试环境、生产环境和演练环境。当点击“系统环境选择”链接时,右侧页面会显示提示信息,依提示操作即可选择系统环境。

        在左侧菜单中选择要进行切换的系统环境,单击链接后(生产系统须以专用授权信息通过二次认证)会出现确认页面。

        确认后即进入选择的系统环境,此时切换环境已经就绪,可以进入系统切换跟踪,启动具体应用的切换。

        3、切换流程的启动与自动控制

        在完成系统环境选择后,点击左侧菜单中“系统切换跟踪”目录下的任意链接,即可在右侧页面看到响应流程信息。若点击一台服务器的链接,右侧将只展示对应服务器上的流程;若点击应用名链接,则可以看到该应用所包含所有主机的流程。

        如果该应用符合可以启动切换流程的条件,则会在右侧页面下方出现红色字体的“应用切换开始”,点击文字链接后有确认对话框,确认后将启动该应用的切换流程。

        4、系统切换流程跟踪中的信息自动更新展示

        在系统切换启动后,在左侧菜单中点击“系统切换跟踪”链接,可以在右侧页面中看到当前的业务系统状态,包括各应用的名称和位置。在点击其菜单下任意子链接(应用或服务器)时,还可以在右侧页面看到该应用或服务器的流程。

        流程表格中,第一行中的数字指示了机器各步骤之间的先后关系,某一数字下所对应的步骤只能等待所有对应数字更小的步骤全部完成后才能启动。其中,每一步骤都有四种运行状态,每种状态对应一种不同的图标,如下:

        未启动:灰色圆点;

        运行中:绿色圆点,闪烁;

        发生故障或需要人工操作:黄色圆点;

        已完成:绿色圆点。

        5、切换流程人工交互处理

        在灾备应用自动切换流程中的人工交互处理分为两种。一种是在自动切换中的某个步骤在执行中出现了故障,没有完成既定目标,需要人工处理故障;另一种则是被指定为“人工操作”的既定步骤,是机器无法完成的操作或判断等内容,必须由人工介入执行。

        当流程中出现需要人工交互处理的步骤时,主控页面上该步骤的指示图标将变为黄色,操作员可以点击黄色图标进入人工交互处理界面,这里可以看到该步骤的手工操作指南,包括人工执行处理指令及核查结果的方法。据此指示内容完成操作并核查结果无误后,可以在右侧选择该步骤的目标状态为“完成”,点击“确认”标签即可。此时页面将自动跳转返回主控页面,自动切换程序会继续运行后续流程。

        6、切换完成,停止主控程序

        当所有需要进行系统切换的应用都已经完成(此时所有进行切换的应用在主控页面的业务系统状态中都会显示位置在三里屯),或者在发生故障后决定终止放弃当前系统切换操作时,手工结束切换流程。在实际操作中,点击左侧菜单下方的“完成系统切换”文字链接,即可结束所有后台主控程序,并在右侧给出反馈信息。

        如果系统切换程序已经结束,或者在尚未开始切换之前误点击该链接,则系统会给出错误提示信息。

        四、灾备自动切换软件带来的好处

        灾备自动切换控制系统采用了前台展示和操作、后台控制的架构方式。

        (一)安全保障

        前台以Web页面访问方式保证操作员登陆的灵活性的同时,以USB密钥和多重授权登陆的方式最大程度上建筑系统安全壁垒,以多重确认的方式防止用户的操作失误,又在用户登陆和访问人工操作界面时记录访问日志,为安全审计提供预备资料。在此基础上,一方面得到授权可以访问并启动系统切换操作的人员范围大大缩减,减少了非法用户登陆系统的可能性;另一方面,即使得到了合法授权,系统访问者的访问时间、地址及轨迹等记录也都会被记录在服务器的日志中,发生任何操作都有案可查。

        (二)直观表达

        由于采用了Web页面方式展示实时切换信息,以表格的方式直观展示流程中各步骤的顺序关系,以图标的颜色标示分步步骤的运行状态,操作员可以更直观地掌握切换系统当前进度。

        (三)智能交互

        在自动切换过程中,如果某一个步骤的执行发生了故障,或者需要既定人工处理,管理员可以根据图标颜色变化准确定位故障或人工处理需求的发生位置,并根据图标链接页面查询到该步骤的人工处理方案。在完成处理后,修改该步骤状态为“已完成”,即可将后续流程转交自动控制程序继续处理,达到交互处理的效果。

        表现力(图形化),安全(认证Keys),审计(日志),完整(切换、恢复),可靠(自动+人工)

        (四)可靠高效

        流程中的分布步骤都在切换主机本机执行,由NetIQ AppManager Agent调用本机部署的指令集完成。

        (五)配置灵活

        工作流程以数据库配置文件的方式保存,配置和部署过程通过程序完成,很大程度上简化了人工处理,也为日后可能产生的流程变化提供了灵活性。

        五、灾备切换软件的创新处

        (一)灾备切换流程数字化:

        以往流程都是文字描述的,现在的流程是保存在数据库中的,使得对切换流程的控制更精确,避免了自然语言的歧义。

        (二)远程执行切换命令

        不必登录备份系统服务器,而是使用现有的监控系统框架,通过 agent 远程执行切换命令;最大限度的利用了成熟产品,减少了研发风险。

        (三)使用图形界面展示切换过程

        以往切换操作使用命令行的方式进行,整个切换过程不直观,判断切换是否成功比较较难;使用图形界面后,整个切换过程在统一的控制下,直观的显示在页面中,哪个系统切换成功,哪步有问题一目了然!

        六、灾备切换软件的特点

        灾备自动切换系统主要用于开放系统中核心业务系统的应急灾难恢复。能够在突发灾难等紧急情况下,在极短时间内(通常10几分钟),在备份机房的备份服务器上恢复生产业务的正常运营。

        它同以往的手工切换流程相比具有以下显著优势:

        (一)缩短了切换时间,降低了人工成本

        企业中灾备应用系统的手工切换,由于流程的繁琐复杂,多个操作员常常需要较长的时间才能完成几个核心业务系统的切换,现在只要一个操作员在基于web的操作界面上按照流程用鼠标点击切换按钮,10几分钟即可完成数个系统的切换,极大地缩短了故障恢复时间。工效能提高大约4倍左右甚至更多。

        (二)减少了人工干预程度,保证了切换的成功率

        以往手工流程繁琐复杂冗长,操作员执行起来比较吃力,命令多、时间紧,操作员精神压力大,人为出错的几率也就增大,一次切换的成功率无法保证。如果通过自动切换系统替代人工键入命令,便避免了人为出错的可能,一次切换的成功率很高---原则上只要系统环境正常,切换就会成功,真正达到了即切即用的要求。有效保证了企业的业务系统对外提供服务的可持续性。

        (三)操作简单,易用性强

        以往手工操作,执行过程过分依赖操作员的技术水平,当出现问题时,由于操作员技术水平参差不齐,有些问题便无法自行解决。现在灾备自动切换系统为操作员提供了一个简单友好的web交互界面,操作简单,有切换向导且内置了常见问题的解决方案。当需要进行灾备切换时,操作员只需按照Web页面上的提示点击鼠标,就可发出准确的切换指令,启动切换操作;切换开始后, Web页面可以展示切换进度,操作员可以清楚地看到流程各个步骤是否执行完毕,实时监控切换进度;在切换出现故障或者需要人工干预时,Web页面提供人工操作控制的交互入口,可以对切换进度施加人为影响;在切换完成或需要提前中止时,可以自如地停止切换操作。

        (四)系统设计可靠、稳定

        整个灾备切换系统由两台服务器组成主、备控灾备切换控制服务器,可以保证7乘24 小时随时能够进行切换操作。同时整个切换流程保存在数据库中,保证了界面的简单化;人为对流程的干预减少,切换的成功率便得以提高。

        灾备自动切换软件在企业中应用以来,系统稳定性非常高。可以作为保障IT 系统持续性的重要手段之一。

        总之,灾备切换以往都是依靠手工完成。效率低,切换时间长,并且由于人为干预过多导致切换的成功率无法保证。灾备自动切换软件为操作员提供了一个友好的web交互界面,操作相当简单。当需要进行灾备切换时,操作员从Web页面发出切换指令,启动切换操作;切换开始后,Web页面可以展示切换进度,操作员可以清楚地看到流程各个步骤是否执行完毕,实时监控切换进度;在切换出现故障或者需要人工操作时,Web页面提供人工操作控制的交互入口,可以对切换进度施加人为影响;在切换完成或需要提前中止时,可以自如地停止切换操作过程。目前灾备自动切换系统在企业中应用后,减少了人工干预步骤,大大缩短了切换时间,大幅度提高了切换的成功率。使用灾备自动切换系统10几分钟内即可以完成切换,而以前使用手工切换至少需要1小时以上。灾备自动切换系统大大提高了公司的运维水平和故障应急处理能力。这套系统使得以往被动的灾备恢复变为IT服务持续性的主动保障,主动规避在IT服务中的不可预见的风险。


    www.ic72.com 达普IC芯片交易网
  • 行业动态
  • 市场趋势
  • 政策法规
  • 新品发布
  • Baidu

    IC快速检索:abcdefghijklmnopqrstuvwxyz0123456789
    COPYRIGHT:(1998-2010) IC72 达普IC芯片交易网
    客户服务:service@IC72.com 库存上载:IC72@IC72.com
    (北京)联系方式: 在线QQ咨询:点击这里给我发消息 联系电话:010-82614113 传真:010-82614123
    京ICP备06008810号-21 京公网安备 11010802032910 号 企业资质