在云运维过程中主要需要关注如下几个问题:
选择开放架构
云虽然已经到达了可实际部署阶段,但是云平台架构、计算虚拟化技术、网络虚拟化技术、云与大数据的配合等技术依然发展迅速。为保障云运维的持续发展,应该优先选择正在不断演进的开放平台作为基础架构。
CMDB作用愈加明显
在私有云和混合云应用场景中,高度集中的业务、高度集中的设施、广泛应用的虚拟化技术、众多的云设施和软件供应商、多样的云服务消费者,以上这些因素组合在一起,使云运维的复杂度成指数级增长。云数据中心的设备信息、应用信息、策略信息、维保信息、组织信息、负责人等各维度的信息交织成复杂的关系网,实际运维时如果能从这张关系网中将所关注的信息抽丝拨茧,将大幅提升云运维的效率。反之如果没有**手段管理这些关系,云运维可能会变得混乱和无序,运维效率低下,使云服务体验大打折扣。设计合理的CMDB(配置管理数据库)恰恰是解决这个问题的**途径。CMDB自动同步配置项信息,将割裂的各维度信息关联在一起,帮助云运维人员**、准确和及时地了解业务相关的组织、资源、环境和服务等不同维度信息,使运维人员快速准确地了解事件影响范围,作出正确的决策。
使用必要手段全局监控业务质量
在混合云应用场景中,部分开放的业务会部署到公有云上,企业运维人员无法**的监控到公有云的基础设施,在这种情况下,公有云的服务等级SLA就成了一个黑盒,无从监控。所以必须要有**的手段全局监控业务质量,从而间接评价公有云服务等级SLA。
明确云架构下各机构的责任主体
由于企业组织架构是按照传统的网络、应用、计算来划分的,而在混合云场景中,云服务商与企业运维人员也不属于同一组织机构,所以当部署在云上的业务出现故障时,容易出现组织间的推卸责任的问题,从而延长了问题的定位和解决周期。因此企业运维人员要有手段基于业务按照网络、计算、应用等不同维度的出具资源健康度报告,明确问题责任主体。
云场景下如何**控制开销
云应用场景中还有另外一个问题,就是如何使用最小的开销(公有云资源),**限度地保障业务的质量。为了保障业务的稳定运行,企业运维人员通常为每个业务申请一定的资源余量,然而过多的余量会增加财务成本,如何确定这个量,就成企业运维人员关注的问题。一份能将业务运行时所需要的CPU、内存、磁盘等历史信息进行**分析的可度量的业务容量分析报告,将对企业运维人员非常有用。如果在资源不足发生前,有工具能够提前预警,给企业运维人员充分时间调整资源分配策略,将**节省公有云开销。
使用可控的自动化手段提升管理效率
云数据中心的资源规模、业务规模、组织规模远远超过传统数据中心。新设备的快速部署、快速上线、纳管监控、资源编排、定期巡检、升级和配置变更这些原本就颇为复杂的工作在规模和速度的双重压力下都变得更加艰巨。传统的手工方式效率低下,出错风险高,自动化手段逐步成为云运维的**。随着虚拟化、PXE、SDN、Overlay、服务链等技术不断广泛应用,自动部署、自动编排、自动巡检、自动升级等自动化手段越来越多应用于云运维。然而自动化仍然要在可控、可跟踪、可审计、可回退的前提下进行,避免单个错误的扩大化。虽然自动化还存在一定风险,云运维的自动化趋势已经不可逆转。 |