云服务平台的运维服务模式构建

张康宏,艾 林,张芳涛,段 波,陈 磊

(中国移动通信集团云南有限公司,云南 昆明 650000)

云服务平台是运营商为提升通信服务质量所搭建的系统平台,该平台在互联网框架的基础上,通过层次化、模块化的形式构建各业务的服务模块。为促进云服务平台的高效运作,更好地服务广大用户,在搭建平台的同时,还应当制定配套的运维服务模式[1],结合云平台的运作规律,制定完善的运维制度,以服务客户为中心,形成持续的平台质量控制,使云服务平台始终处于稳定的运行状态。

云服务平台的运维服务工作应当涵盖平台的各主要运行环节,有效防控各环节中可能出现的问题,降低故障的发生率。当出现问题时,也有一套规范的应急预案,及时响应并按照应急预案加以处理,使问题以最快速度得到解决,将对云服务平台的影响降至最低[2]。总之,运维服务就是以保障云服务平台的稳定运行为主要原则的基础性工作,需要制定规范化的制度,各类问题的防控及应对办法,为实际工作提供具有指导性的工作参考。

运维服务工作需要设置监控警告岗位,负责云平台的24小时监控,及时监控系统故障,以及受理随时可能出现的客户投诉问题,安排人员轮岗[3]。此外,还应设置负责硬件维护的岗位,负责平台服务器、网络等硬件的日常维护和故障维修,打造一个云支撑团队。

4.1 云平台售后的运维服务

4.1.1 售后模块巡检

定期巡检。对云服务平台资源池开展定期巡检,防止因为故障问题使重要客户资源信息受损,这些信息是售后服务的重要参考。在巡检时主要针对相关软硬件的运行状态、资源使用状况以及资源信息负载情况,定期清理多余的资源信息,避免占用空间。

故障处理。通过定期的巡检工作,能够及时发现存在故障的部分,运维人员岗前培训内容包括各类故障的处理办法,对于一些比较常见的故障可以自行处理。如果是技术难度比较大的故障需要立即上报,由技术人员进行处理。如果是硬件损坏,则需要尽快联系原厂家。

设备运行状态统计。云服务平台能够统计平台的运行状况,如空间占用率、资源使用率等,运维人员可通过这些信息了解动态的系统状况,为运维工作提供参考。

4.1.2 售后支持

解答问题。在售后服务中,客户常会遇到一些不明白的地方,就会向售后人员咨询,运维人员接到客户的咨询后给予解答。这就要求运维人员能够对常见的问题有一定了解,如果遇到自己难以解答的问题,应及时反馈给通信产品技术人员,为客户给出更加专业的答案。

业务变更。客户觉得当前通信产品不太理想,或是想要添加或取消某项业务,就会提出业务变更的需求,运维人员根据客户的变更需求进行处理,并审核客户是否满足使用某一新业务的条件,如果满足条件,就为其变更业务,进行业务的开通、取消等操作。

故障协调处理。遇到客户报修或是在日常运维工作中发现了系统存在的问题,需要及时反馈,如果技术难度比较大,就需要联系云服务平台研发厂家,由厂家专员指导,运维人员配合,尽快将故障问题予以解除。

4.2 云平台售中运维

4.2.1 云资源开通

资源规划。结合客户的需要为客户提供合理的云资源服务规划,配置相关的云资源服务资源。

开通。一是为客户开通已有的固定云服务资源模板,通信公司本身就有一些备选的常用服务模板方案,客户觉得有些模板就能满足自己的需要,就可以直接为其开通。运维人员直接选取客户所需要的某一模板方案,在配置过程中监控是否存在故障,配置完成后检查分配日志记录等。二是为客户开通自定义的云服务资源模式,这是通信公司本身没有的模板方案,客户想自定义添加功能、配置资源。按照客户的需求请答案,将云资源逐项分配,在分配的过程中检查是否存在问题,配置完成并检查没有问题后完成开通工作。

网络配置。按照客户的配置需求,为客户分配网络资源,如公网IP地址、内外网CDN以及负载均衡等相关网络资源。当网络资源配置结束后,检查配置日志、测试资源状态,检查没有异常后再交给客户。

4.2.2 专线开通及测试

专线开通。按照客户的专线开通需要,协调专线接入的厂商为客户开通专业服务,并全程监督专线配置的工作进度,按照规定时间为客户完成专线接入工作。

专线测试。开通完成后,对专线网络进行运行测试,检查是否存在问题,如果有问题就需要及时将问题向专线负责方反映,直到将问题有效解决。

4.3 云平台服务器的运维工作

硬件运行状态检查。定期对服务器的各项指示灯、CPU状态、内存、硬盘、网卡以及HBA卡等的运行情况进行检查,及时发现其中存在的问题。

系统检查。对服务器的日志、磁盘、硬件驱动、交换分区、固件、补丁包版本等系统各部分进行定期的状态检查。

系统性能检查。CPU利用率、内存占用率、网卡以及磁盘的使用性能等。

系统安全检查。主要检查系统日志、登录日志、用户操作日志,以及任务执行日志,检查各日常运行是否存在日常。

巡检工作完成后,汇总存在的问题,或可能存在问题的部分,完成日常巡检报告单的填写。

4.4 云设备操作系统的维护

操作系统的维护工作涵盖操作系统管理、参数配置、性能优化等内容。在日常中还应当做好备份工作,在进行系统参数重新配置、优化前,应当先进行系统的备份,以预防配置和优化出现错误。

4.5 工作流程

工作流程见图1。

图1 服务器日常运维工作流程图

4.6 网络安全的运行维护

(1)信息安全维护。云服务平台中储存着大量重要的客户信息、系统信息等信息资源,为保证信息安全,系统中设置防火墙、VPN、漏洞扫查以及堡垒机等安全设备,通过这些设备来有效保护信息的安全。在为客户开通服务、配置网络资源的同时,需要启动相关的安全设置,保护客户的信息安全。

(2)安全漏洞扫查。运维人员需要定期对云服务平台开展安全漏洞扫查工作,及时发现平台中存在的安全漏洞,并对扫查结果进行分析。对于存在漏洞的部分,进行及时的漏洞修复、加固工作。对于新型漏洞问题,需要及时增加补丁,给予更高的技术支持。

4.7 云平台的备份服务

4.7.1 数据备份

自动备份。云服务平台会自带自动备份功能,主要是配置文件、日志文件等,这类文件会由平台自动完成备份。运维人员无须额外开展人工干预。但是需要定期检查备份的存储空间容量,为避免容量占用较多,应定期删除较早的自动备份内容。如果存储空间量不足,应当通过空间扩展、存储介质升级等方式提高存储容量。

手动备份。手动备份的目标主要是操作系统、系统软硬件的配置文件、临时文件以及一些不能由系统自动备份但也比较重要的数据。具体的备份方法就是利用磁盘、移动硬盘、光驱等保存介质,通过复制、拷贝等方式来及时完成备份工作。对于一些重要数据,务必要进行定期备份。在手动备份时,应当要有至少2个工作人员负责,如果是和客户单位相关的信息备份,也应当由客户单位代表一同陪同。为避免在备份工作中发生问题,还应当有技术人员参与,以应对可能出现的意外问题。

数据的恢复。当因出现使系统安全受到影响的大型事件,导致重要信息资源受到损坏时,可以通过自动备份和手动备份的数据进行修复,提取备份的数据来恢复系统平台。

4.7.2 备份介质的管理

常用的备份介质主要包括有光盘、磁盘等,对这些存储介质都需要进行妥善保存,并做好标记,由云服务平台运维团队集中专门保存。同时,要做好防潮、防虫工作。为避免重要信息泄露,需要专人上锁保管,不能私自调取。

4.8 云平台的资产维护

(1)业务设备资产。这类设备资产主要有云主机、云网盘、物理主机以及云数据库等支持云服务平台正常运作的重要设备。

(2)网络设备资产。这类设备资产主要有云平台的虚拟网络设备、SDN相关软件以及网络物理设备等。

(3)安全设备资产。这类资产主要有防火墙、堡垒机、漏洞扫查、VPN以及WAF等保护云服务平台安全运行的设备硬件及软件。运维人员需要定期对上述三方面的设备进行检修,检查设备的运行状态等,对于老旧的设备需要及时上报,并重新采购,以维持正常的平台运行安全。

4.9 云平台的应急处置

云平台的运维团队在编制应急处置方案,方案中要包括常见突发故障的应急处置办法,需要有细致、明确的内容,有参考性、指导性。此外,排班23小时监控,建立通畅的联络通道,当出现突发事故时,要立即通知运维团队启动应急处置预案。各类故障的应急处置都是以解除故障、恢复使用为首要目标。

本文从云服务平台的售中售后支撑、网络运维、设备维护以及网络安全等方面制定运维服务模式,在云服务平台投入使用的同时,启动配套的运维服务模式,有效防控云平台各运作环节故障的。当出现突发事件时能快速响应,启动应急处理方案,从而保障云服务平台的稳定运行,为广大客户提供更好的服务。■

猜你喜欢 备份服务平台运维 这才叫创业!90后水产追梦人打造一条龙式技术产品服务平台当代水产(2022年4期)2022-06-05基于“云计算+大数据”的工业互联网大数据云服务平台计算机应用文摘·触控(2022年8期)2022-05-25利用云备份微信聊天记录电脑爱好者(2021年18期)2021-09-23高校财务“一站式服务平台”建设探讨科学与财富(2021年34期)2021-05-10如何只备份有用数据而不备份垃圾数据计算机世界(2020年26期)2020-07-23全方位备份,就用Acronis True Image电脑知识与技术·经验技巧(2020年9期)2020-01-16福州首家“奶爸版”母婴服务平台上线海峡姐妹(2019年7期)2019-11-18Windows10应用信息备份与恢复电脑爱好者(2019年8期)2019-10-30基于GPS的电力运维轨迹定位系统信息技术时代·上旬刊(2019年2期)2019-09-10IT运维管理系统的设计及应用科学导报·科学工程与电力(2019年33期)2019-09-10

推荐访问:服务平台 构建 模式