自动化巡检服务
3387人浏览自动化巡检服务
初期阶段IT基础设施通常处在小规模状态,很多公司都不一定配有专门的运维人员或者部门。随着云时代到来了,IT基础设施迅速发展成几百上千服务器。更多的业务系统上线,运维人员开始专业化,独立成部门。各类孤岛式的运维管理工具上线,提升运维效率。
可是在各类运维工具上线之后,大家发现运维人员仍然时常要充当“救火队员”,收警告、修机器,哪里宕机去哪里。虽然有了运维管理工具自动化收集监控数据之后,但还是有很多问题,让底层物理资源运维工作无法实现完全自动化。
目前,多数客户所选择的运维监控方式都是在操作系统上安装Agent访问设备驱动,读取硬件状态数据。所有监控状态的数据抓取都受限于驱动程序。而驱动程序的编写人员所关注的重点在于设备的正常运行,而不在于设备的状态监控。因此,通过驱动程序所抓取的硬件状态参数始终有限。这也就能解释,为什么很多客户在上线了运维监控软件之后,还是需要人工巡检。
方案内容
从专业的角度来看,网络管理可分为带外管理(out-of-band)和带内管理(in-band)两种管理模式。上述在系统下,也就是客户的生产环境下抓取数据,通过生产网络读取监控数据属于带内管理。这种管理方式,最大的问题就在于当系统出现故障时,机器就无法管理。而且如上所述,获取的监控数据有限。而几乎所有的it设备厂商都为客户提供带外管理口,也就是与生产系统相隔离的管理口。管理口下,设备厂商本身就提供了详细的硬件参数。这些硬件参数直接来自于服务器上百多个sensor,直接从硬件层面获取的状态参数。
方案优势
带外监控通过sensor监视服务器状态,就像在设备上安装了上百个摄像头一样,时刻巡视设备运行状态。冗余电源离线、机器上任一条内存容量、内存频率、内存槽位信息、HBA卡槽位信息等等,这些带内软件无法捕捉的信息,都可以通过带外监控获取,带外监控的轮训周期可以达到秒级,通过带外监控来弥补带内监控的部分空缺,可以极大的提升运维效率,真正意义上实现无需人工巡检。
这一日益完善的架构,不仅仅可以用来做带外管理,还可以利用其优势构建一个完整的底层DCOS(Data Center Operating System)。扬带外之长,实施建造一套完整的底层运维架构。通过DCOS的全生命周期自动化平台管理,实现部署、监控、分析、管理全自动,数据中心的无人值守。尽可能的保证服务过程的标准化,减少其中的人为管理。
客户受益
24小时不间断保障物理设备的正常运行;
更直观、全面,更标准化的视图来简化巡检的管理;
提升基础工作的管理效率;
真正意义上实现无需人工巡检
保证服务过程的标准化,减少其中的人为管理