博阳精讯

国内专业基于ARIS提供“卓越业务流程管理”解决方案的咨询公司。

流程管理资讯微信公众号

流程管理资讯网,BPM业界有影响力中立资讯平台。

博阳精讯业务流程管理微信公众号

国内专业基于ARIS提供“卓越业务流程管理”解决方案的咨询公司

中国银行:应对金融 IT 运维挑战 提升安全保障能力
来源: SOHO 作者: 佚名 2017-08-31 阅读数:2431
   跟帖   0

一、金融IT运维安全趋势分析

随着互联网、移动互联网、大数据、云计算等现代信息技术的深度发展和推广,基于新技术的产品和服务创新正逐渐成为传统金融行业的重要课题。互联网金融企业采用的新技术为传统金融企业技术转型指明了方向,也带来了挑战。在IT层面,金融行业正逐步从传统的集中式系统架构向分布式架构、从封闭式向开放式架构转型。同时,随着国家“自主可控”技术发展战略的提出,传统金融行业迫切需要改变严重依赖欧美厂商技术产品的现状,推进后台系统去“IOE”,大力发展和使用较为开放的x86平台技术。但由于传统金融业的系统和业务自身特性明显,金融行业在推广使用x86平台技术过程中存在诸多的机遇和挑战。

金融行业在推广使用平台技术过程中机遇包括以下几点:

1、从之前严重依赖外部力量到自力更生,金融企业能够逐渐掌握技术发展的主动权,从而为后续业务的快速发展奠定基础,也为基于新技术的业务转型提供良好保障。

2、打破少数厂商对技术和产品的垄断,在传统金融行业利润零增长运营压力下,能够有效降低金融IT运营成本,提升投资回报。

3、新技术的应用能够快速应对业务需求,云计算的自动交付、弹性扩展能力能够有效适应不同业务场景需求,快速满足业务发展;在业务精准营销,业务及IT运营风险控制、精细化运维等领域大数据技术提供较好的解决方案。

金融行业在推广使用平台技术过程中挑战包括以下几点:

1、平台单机计算能力相对较弱,随着虚拟化和云计算技术的引入,新系统投产从原来主机和UNIX平台的几个节点扩展到当前几十甚至上百个节点,系统规模和分区数量显著增加,不同分区间协同运行要求提高,风险点同步增加。

2、金融IT技术之前均采用较为封闭的主机平台或UNIX平台系统,其使用场景和企业相对较少,面临的风险敞口较小。随着平台的大规模使用,相关技术和软件产品被广泛使用,熟悉平台技术的专业人员群体庞大,暴露的风险和漏洞较多,风险突增。

3、金融业IT运维既有的流程和规范均基于传统的主机、UNIX平台制定,随着云计算、大数据、移动互联等技术的引入,势必带来使用场景和方式的差异。为适应新技术的推广,既有的管理制度和流程规范亟需面向新技术、新架构进行调整和扩充。

4、传统金融行业熟悉主机和UNIX平台的技术人员相对较多,运维云计算、大数据等新技术的人员较为匮乏。同时,由于缺少传统厂商的支持,运维工作逐步转变为“以我为主”,对于运维人员的技术要求和挑战较大,在新技术推进初期,总体保障水平存在下降风险。

5、新技术对安全管控技术、产品和制度的要求与传统技术有较大差别,需要重新研究和引用新的安全技术和安全产品,制定相关安全运营规范,以保障系统运营安全。

IT运维安全是金融网络安全保障的基石,运维安全环节出现的问题往往比较严重。一方面,运维出现的安全漏洞自身危害较大。运维服务位于底层,涉及到服务器,网络设备,基础应用等,一旦出现安全问题,将带来敏感信息的泄露,直接影响到业务发展。

另一方面,IT运维安全事件的出现,通常反映了企业的安全规范、流程或者是这些规范、流程的执行出现了问题,容易对企业的高效管理和安全信誉带来负面影响。

二、金融IT运维安全应对策略和措施

面对新形势下一系列的机遇和挑战,传统金融行业有必要加快步伐,提出有效的应对策略和措施,推进IT运维安全的适应性发展。在具体措施上,金融行业的IT运维部门应该在运维安全管理流程、运维安全技术创新、运维人员安全管理三方面进行探索和尝试。

1、运维安全管理流程

无规矩不成方圆,金融IT运维部门的安全运行也同样需要一系列的规章制度和流程规范辅助。规章制度流程规范,如用户密码策略管理规范、操作系统安全管理规范、网络安全管理规范、应用系统安全管理规范、漏洞修复流程规范,可以最大程度实现数据中心操作标准化、规范化,进而将可能产生的漏洞和风险降到最低。同时,在出现漏洞时也可以保证数据中心内部以最快速度响应处理问题。

2、运维安全技术创新

运维安全技术创新是在保证系统平稳运行的前提下,提高运维效率,增强运维安全的有效手段。在新技术背景下,金融IT运维部门的运维技术安全创新可以通过大数据技术,国产化、平台化策略等手段实现。

(1)大数据

大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的本质是通过海量数据汇总分析得出一系列结论帮助人们做出更好的决策。在安全领域,可以利用大数据对海量数据进行汇总分析,挖掘出APT攻击、内网隐秘通道、异常用户行为等一系列安全事件。

根据工业和信息化部电信研究院出版的《2014大数据白皮书》,大数据技术基本框架里包括数据收集与准备、数据存储、资源管理、计算框架、数据分析、数据展示六个层次。通过数据收集工具(ETL工具)等将数据从数据源提取、转化、加载后存入关系型数据库或者非关系型数据库(NoSQL数据库、HDFS分布式文件系统等),使用相应的资源管理工具(如Hadoop2.x引入的YARN资源管理模块)对服务器和系统进行资源监控、调度与管理。在数据存储与资源管理之上构建大数据计算框架,通常包含离线批处理、在线流式处理与交互式分析。通过计算框架对大数据进行分析,使用数据仓库、OLAP技术、商务智能分析等手段对用户数据进行数据挖掘,提取出有价值的信息,并对数据进行文字或图形化展示,最终以网页或APP的形式呈现给客户。

在安全领域,金融IT运维部门可以首先通过大数据平台进行大量日志信息、用户行为、应用数据的收集,然后通过大数据平台进行计算和分析,挖掘出潜在风险并可在此基础上可建设为安全决策支持系统,为安全决策提供依据。

(2)国产化

美国“棱镜门”事件后,中国银监会、国家发改委、科技部和工信部四部门联合发布了《关于应用安全可控信息技术加强银行业网络安全和信息化建设的指导意见》(以下简称《意见》)。《意见》提出,将安全可控信息技术应用纳入战略规划,制定配套政策,建立推进平台,大力推广使用能够满足银行业信息安全需求,技术风险、外包风险和供应链风险可控的信息技术。实现中国金融信息的安全可控的唯一途径就是实现信息安全国产化。金融系统数据中心国产化主要从几个层面实现:硬件国产化、系统国产化、软件国产化、应用国产化。国产化技术涉及技术较为复杂,金融数据中心涉及部分为核心技术均由外国厂商垄断,因此对核心技术的攻坚工作显得尤为重要。

(3)平台化

面对新技术的高速衍生和快速演进,对运维人员的要求越来越高。但另一方面,运维人员的水平往往参差不齐,由操作人员误操作导致的金融安全事件层出不穷。为最大程度降低人员误差,金融IT运维部门应最大程度减少人为操作步骤,将大部分手工运维操作变为自动化模式,通过统一的管理平台进行实施和调用,利用平台提供的工作流解决自动化工具或脚本前后依赖关系,实现生产环境变更前检查、变更中实施、变更后复核等操作规范化和自动化,减少因人员操作误差导致的安全风险。

4、运维人员安全管理

对金融IT运维部门而言,运维人员的安全技术水平和安全意识很大程度上决定了部门的安全管理水平。安全规范和标准可以落实到各个部门,以流程的方式强制执行,但是运维人员安全意识问题却很难进行控制。拥有高技术水平安全专家的运维部门抵御外来进攻的能力远胜于对安全一无所知的运维部门。考虑到上述两点,金融IT运维部门对于运维人员的管理可以主要从以下两方面进行:

第一,落实运维安全培训,加强员工安全意识;落实运维安全培训,金融IT运维部门应加强新老员工安全教育培训,并辅之以严格的考核制度。安全培训的目的主要在于让运维人员了解运维过程中不正确的运维操作会带来的故障和风险,如弱口令、用户密码上传至互联网、保密信息泄露等。通过安全教育,加强员工的风险意识,强调数据中心的安全管理规范有助于提高数据中心的整体安全水平,提升安全防御能力。

第二,增强员工安全技术水平,培养安全技术专家。增强员工安全技术水平包括两方面的含义,一方面要加强普通员工的安全技术水平,确保没有短板和漏洞,减少日志泄露密码泄露等问题;另一方面要培养一批高水平高素质的安全技术专家,能够在提前发现漏洞并及时修复。

三、成效分析和未来发展趋势

针对金融IT运维的新挑战,中国银行数据中心采取了多项应对措施,主要包括以云计算为突破,提升IT运维的保障能力;以大数据为载体,增强业务运营能力;建立全流程运维体系,推进管理和制度创新;加强培养运维人才,在新形势下稳步推进中国银行IT运维环境建设和提升。

1、以云计算为突破,提升保障能力

跟随银行私有云建设的浪潮,经过不断努力,中国银行数据中心摸索出了一套云服务的设计模式和设计方法。将传统银行“服务器、网络、存储”的三层IT系统架构,演化成为“以超融合一体化设备为载体,以软件定义的云平台为基础,提供包括存储虚拟化、计算虚拟化、网络虚拟化以及提供统一管理调度平台”的IT架构。通过云平台软件的高可用技术,以基础设施为切入点,使低成本的X86体系实现集群高可用性,提升整体可用性,满足中行关键业务的需求。

以云计算平台的建立为突破,中国银行初步实现了基础设施资源池自动管理,服务的快速交付以及融合IT服务管理流程和运维操作自动化的目标,实现了应用系统上线的秒级交付。一期云平台实现虚拟机交付规模1000+,满足总行办公及运维管理类系统的快速上线及灵活扩容需求;随着业务推广范围的不断扩大,近期正在进行云平台二期建设工作,实现虚拟机交付规模2000+,在满足总行办公管理、运维管理、试点业务系统需求的基础上,为全辖34家分行提供基于服务目录的云平台服务,满足分行日益增长的特色环境需求。

同时,依托于X86服务器云平台项目,在应用系统迁移和部署过程中,使用了云平台提供的Paas组件,开源运维平台项目直接采用了运维管理类平台提供的mysql、postgreSQL、redis等组件。PAAS资源的创建与维护被大大简化了,效率得到极大提升。用户可以很方便的拥有Hadoop/Spark/关系型数据库/缓存/队列与集群服务等各种PAAS资源, 并可以通过界面或API对PAAS资源进行扩容、配臵管理、监控告警以及自我诊断和修复。以最常使用的mysql数据库集群为例: 在使用云平台前,建立一套mysql数据库集群,需要至少4个小时的时间, 现在采用青云平台的PaaS组件,部署一套mysql集群在2分钟之内就可以自动部署成功。

2、以大数据为载体,增强业务安全运营能力

中国银行的大数据发展战略包含“三个着力点和三个平台建设”即以数据为基础,充分整合数据资源,以应用为驱动,深入挖掘数据价值,以人才为核心,提升数据分析能力;逐步建设优化完善大数据技术平台,深化推广客户精准营销平台,探索构建互联网征信及欺诈监测平台,力争通过大数据技术推进业务运营能力的提升。

在大数据成为工作重点的背景下,中国银行数据中心进行了大数据平台建设规划,致力于利用大数据技术,对全量应用和系统日志、服务器监控数据做采集和分析,完成传统技术方式所不能完成之事,保障业务长期稳定、高效地运行。为提升中国银行分布式系统自动化运维、精细化运维能力,充分利用大数据技术挖掘运维数据价值,结合具体的运维目标应用场景,如日志检索、精准定位、多维度统计、异常报警、趋势预测等,中国银行数据中心自主研制了基于开源软件的运维大数据平台,该平台系统架构主要分为三个部分。

第一部分为数据采集部分。该部分通过ELK系统从X86平台和开放平台采集系统日志和应用日志,将系统日志用于运维分析,应用日志用于业务分析。

第二部分为数据汇聚部分。该部分将数据采集端采集到的信息,汇聚到Kafka消息队列中进行缓存,按消息记录发送给数据处理部分。

第三部分为数据处理部分。该部分首先利用HDFS等分布式文件系统存储数据,继而利用查询检索、流式计算和离线批处理等分布式计算技术对缓存和分布式文件系统中的全量数据做处理,其涵盖了异常报警、趋势预测、日志检索、前端展示等多向功能。

目前,ELK日志分析系统已经应用于中银开放平台和HDSS系统中,可为运维人员提供日志集中查询、交易统计分析、故障实时监控等功能,通过运维自动化能力的提升,大大减少了日常运维工作,提升了运维效率。通过ELK处理故障事件和服务请求,可使处理时间缩减70%,工作效率提升50%。目前生产环境ELK部署节点21个,已累计收集了超过5亿条日志,采集6种常用x86平台服务器组件,采集服务器个数44台,稳定运行超过300天。

3、建立全流程运维体系,推进管理创新

在从传统向新技术转型的运维实践中,中国银行数据中心结合自身技术发展状况,以ITIL 20000为理论基础,逐渐建立了一套系统、规范的全流程运维体系。不仅实现了日常检查、事前预警、及时响应、极速恢复,持续优化等运维功能,而且结合银行业务系统运营的特点,实现了IT管理与业务服务的融合,以银行业务的视角来重新定位IT系统,确保IT服务可度量、可管理、可改进。将IT管理与业务管理充分关联起来,从而提高客户的满意度。

中国银行数据中心的全流程运维体系可划分为四个层次。

第一层为数据监控层,主要是通过技术手段实现对系统运行状态的参数提取和监控,监控对象包括主机设备、网络设备、存储设备、备份设备、数据库、中间件、操作系统、应用软件、机房动力环境等。

第二层为规则定义层,主要根据长期以来积累的运维经验和最佳实践,通过测试、分析、提取等手段建立规则,根据规则实时处理第一层获取的参数,生成对应的策略事件。

第三层为事件处理层,主要包括事件管理、配臵管理、问题管理、知识库管理等。负责对运维过程中所有的事件进行定义、跟踪、记录和存档。

第四层为服务管理层,包括流程管理、制度管理、人员管理、服务质量管理等内容。主要实现对流程和人员的管控,促进运维管理工作的系统化和规范化,确保运维工作安全、有序、高效。

中国银行数据中心建立的全流程运维体系以ITIL 20000的流程框架为中心,将定性判断与定量分析相结合,实时数据与运维经验相结合,将技术推进与规范约束相结合,使得IT运维工作在防范业务风险,促进生产安全,优化业务系统方面发挥着越来越重要的作用。

4、结合新技术,培养运维人才

对银行业而言,随着移动互联、云计算、大数据等新技术的广泛应用,新的风险也不断涌现,对运维人员能力的要求也在提升。

中国银行数据中心历来重视面向新技术的运维人才培养,一方面,人才的培养覆盖了新技术背景下的各种运维组件,包括分布式存储,非关系型数据库,基于大数据的分析模型,容器技术等等,随着中国银行网络金融项目群的投产和推广,目前已引入生产运行的开源组件达30余种,覆盖Web层、中间件层、消息层、缓存、路由、数据库、数据工具、集群、文件系统、大数据分析、自动化配臵等技术领域,相比其他金融同业,组件覆盖范围最广,应用场景最全,通过近几年的学习、探索和技能积累,培养了一批掌握这些主流开源组件的技术特点,具备独立承担相关开源组件的运维的技术人才,能够有效应对未来传统系统技术架构转型的要求。

另一方面,在培养方法上采用了多种方式。通过脱产培训、开源社区活动、新技术预研公开课等方式,逐步加强新技术背景下的同业交流和技术预研。同时,在人才管理方面建立了长效的激励机制,促进运维人员主动学习,不断提升技能,为信息系统安全运行提供坚实基础。

  原 文   评 论 分 享
下一篇: 架构引领、流程创新 航空工业管理创新与两化融合工作走向纵深
Copyright Reserved 2005-© | 沪ICP备11014532号-2 | 沪公网安备 31011502016262号