· 公众号:业务连续性+

TSB银行IT迁移崩溃事件

写在前面 :TSB IT迁移事故刺激并加快了英国运营韧性监管政策的推出,因此,在深入学习和实践运营韧性实践时,有必要了解TSB IT迁移崩溃事件的背景、发生发展过程及其影响。以下内容由多篇在线报道和公开资料综合编写。

  1. TSB银行IT迁移事件背景

TSB银行有限公司(TSB Bank plc,以下简称TSB)是一家英国的零售商业银行,总部位于爱丁堡,现为西班牙萨瓦德尔银行集团(Sabadell Group)的子公司。

1810年,TSB的前身信托储蓄银行(Trustee Savings Bank)成立。1995年,信托储蓄银行与劳埃德银行(英国4大私营银行之一,1765年建立)合并成为劳埃德TSB(Lloyds TSB)银行。

2013年,劳埃德TSB银行分拆为劳埃德和TSB两家银行。在分拆后,TSB继续使用劳埃德银行的IT平台获得其核心IT服务。根据TSB银行与劳埃德银行签订的外包协议,TSB银行可以选择在长达10年的时间内(直到2024年7月)继续使用劳埃德银行的IT平台,每年向劳埃德银行支付1亿英磅,也可以选择迁移到一个新平台来退出该协议。

2015年,西班牙萨瓦德尔(Sabadell)银行集团以17亿英磅收购TSB银行。收购的战略目标之一是将TSB的IT服务迁移到萨瓦德尔的Proteo平台以取得预期财务回报。为此,萨巴德尔集团制定了一个时间表,目标是在2017年底前实现迁移。

迁移项目需要设计、建设和测试一个为英国银行市场量身定做(但尚未验证)的Proteo4UK平台(主要基于萨瓦德尔的Proteo Spain平台)。项目承担方SABIS(萨瓦德尔的子公司,它还将负责运维迁移后的平台)在西班牙提供更大、更复杂的平台(Proteo Spain)方面确实有丰富的经验,但考虑到TSB迁移项目的规模和复杂性,两年完成迁移项目(要管理85家外部供应商确保它们符合TSB银行的外包政策,同时将540万客户的数十亿客户记录迁移到新的Proteo4UK平台)的计划过于“雄心勃勃”,在英国即使3年时间建立这样一个新平台也是前所未有的。

不过,没有人质疑该计划是否可以实现?或者这些计划或期望是以什么为基准的?TSB在2016年3月的综合总体规划(Integrated Master Plan)中采用了这一雄心勃勃的时间表,当时,迁移项目已落后了计划几个月。好在虽然没有人挑战2017年底前实现迁移的目标,但TSB始终认为,在准备好之前不会迁移。

2017年9月20日,TSB决定必须重新规划迁移项目。然而,在决定重新规划的9天后(重新规划工作结束前),TSB公开宣布将于2018年第一季度迁移。同时,TSB的董事会也没有充分讨论和质疑包括过于雄心勃勃的迁移时间表、项目落后的原因,以及新时间表是否切实可行在内的问题。

2017年圣诞节前两周,萨瓦德尔银行董事长约瑟夫·奥留(Josep Oliu)在巴塞罗那金融区的一个豪华会议厅宣布了迁移安排,萨瓦德尔银行首席执行官杰米·瓜迪奥拉(Jaime Guardiola Romojaro)向巴塞罗那人表示,“公司给Proteo4UK这个项目投入了大量的人力,有1000多名专业人士参与其中,这在欧洲的历史上是前所未有的。”。

  1. IT迁移事件发生发展过程

2018年4月19日,TSB宣布,它将在4月20日下午4点至22日下午6点之间升级其在线系统。按照计划,数据迁移完成后,只要将公众访问银行账户的开关重新设置好,Proteo4UK平台将正式启动,银行能够像平日一样安全平稳地运行。以下简要列出IT迁移事件的主要时间:

4月20日星期五下午4点 TSB开始了计划已久的IT迁移,将其540万客户记录和账户从劳埃德银行运营的系统转移到新的Proteo4UK平台。TSB警告客户,一些服务,如网上银行和汇款,要到4月22日(星期日)下午6点才能提供。

4月22日星期日 下午6点后(在迁移结束20分钟后),TSB就收到了问题报告,IT迁移显然没有按计划进行。有客户发现自己的钱不见了,也有客户说可以看到属于别人的帐户,还有一系列故障和数据泄露的报道。

一位名叫马修·尼尔(Matthew Neal)的客户向BBC爆料称,周日晚上,他登录TSB手机银行想要查看前一晚在酒吧里的账单。然而令他震惊的是,除了自己的账户之外,他还能看到一个3.5万英镑的储蓄账户、一个1.1万英镑的ISA 账户和一个商业账户。他说 “我不仅可以看到其他账户的帐号、分类代码和交易记录,甚至可以进行转帐交易。但最让我担心的是,如果有人也能看到我的账户,该怎么办?”马修表示自己曾试图给银行打电话提醒他们注意这个问题,但在45分钟无人接听后,他放弃了。之后,他再也无法进入自己的帐户。

而另一位来自苏格兰Paisley的莱姆·麦肯齐(Laim McKenzie)也遭遇了类似的问题。这位年轻人对BBC说:“除了我自己的账户外,我还看到了另一个账户持有人的详细信息。而由于之前的透支,我的余额应该是负数,但我账户里的余额却显示是13000英镑。”当晚7点,他重新启动应用程序发现只能看到自己的帐户了,但余额却显示为零。这一次退出后,他就无法再进入自己的手机银行。

TSB的客户科林·帕特森(Colin Patterson)告诉BBC新闻,他不确定自己是否可以按时支付房租,因为他无法访问自己的在线账户。同时,摄影师保罗·克拉克(Paul Clark)说,他无法知道哪个客户付了他钱。

晚上9点,TSB紧急告知英国金融行为监管局(FCA)自己的系统出了问题,而FCA已经注意到,消费者群情激愤。

4月23日星期一 针对客户在Twitter上的抱怨,TSB淡化了“访问问题”,称其网上银行和移动应用程序出现间歇性问题,影响了数量有限的客户,“我们对昨晚(周日晚)客户无法使用手机以及在线银行的情况深表歉意。现在这两个系统都已经恢复正常使用。”然而,越来越多的客户在Twitter上表达了他们的感受,抱怨他们无法访问自己的账户。

TSB的母公司萨瓦德尔在其网站上发表声明,称其“成功完成了TSB的技术迁移”。

两家英国金融监管机构联系TSB的高管并召开紧急电话会议,他们需要了解到底发生了什么。

4月24日星期二 由于多达190万TSB的在线和移动客户仍处于锁闭状态,无法进行支付,这次迁移已成了一场全面的危机。虽然TSB表示将在白天解决问题,但直到晚上,TSB依然在持续修复中。TSB首席执行官保罗·佩斯特(Paul Pester)当晚表示自己对系统的混乱局面感到“非常抱歉”,称所有人的问题都会被解决,并鼓励人们在遇到任何问题时联系其电话银行团队,但一些客户被搁置了一个多小时。

4月25日星期三 凌晨3点40分,佩斯特在推特上宣布:“我们的手机银行应用程序和网上银行现在已经启动并运行。”他说,对于绝大多数客户来说,“一切都很顺利”,但客户仍在报告问题。TSB表示,没有人会因为IT崩溃而失去资金。

4月26日星期四 TSB客户连续第七天难以访问他们的帐户。佩斯特承认“我们跪了”,并宣布他已经从IBM请了一个专家团队来解决问题。TSB表示,将免除1000万英镑的透支费,并为经常账户支付额外利息,以防止客户大规模流失。佩斯特说,他还没有时间考虑是否应该辞职或放弃因这场惨败而获得的奖金。

4月30日星期一 混乱进入第二周,TSB的一些客户仍然无法访问账户或付款。英国议会财经委员会的议员们宣布,他们已经致电佩斯特和TSB主席理查德·梅丁斯(Richard Meddings)以及西班牙萨瓦德尔的一名代表,要求就IT崩溃提供证据。

5月2日星期三 佩斯特与梅丁斯和萨瓦德尔的米格尔·蒙斯特(Miguel Montes)一起出现在英国议会财经委员会。委员会主席Nicky Morgan指责佩斯特在表示IT升级基本顺利后“异常自满”。梅丁斯表示,佩斯特将放弃与IT迁移相关的200万英镑奖金,但他在2018年仍可能获得高达130万英镑的其他奖金,此外还有130万英镑基本工资、福利和养老金。

5月7日星期一 IT迁移危机进入第三周,陷入困境的TSB表示“正在取得进展”,因为人们担心全面服务可能在数月内无法恢复。

5月15日星期二 TSB在IT迁移崩溃的早期阶段拒绝了劳埃德银行的帮助。劳埃德银行于4月23日上午联系了TSB,但TSB拒绝了这一提议,尽管其客户信息是从劳埃德银行的系统转移到萨瓦德尔设计的系统。

5月20日星期日 在糟糕的IT迁移近一个月后,一些TSB客户仍然无法付款或访问关键账户。

6月6日星期三 佩斯特受到了监管机构的严厉指责。FCA首席执行官安德鲁·贝利(Andrew Bailey)指责佩斯特在IT崩溃后对服务业“描绘了乐观的看法”,并表示该行未能对问题的规模“公开透明”。FCA与审慎监管局(PRA)将联合调查此次迁移事件。

在接下来的几天和几周里,问题仍在继续,TSB努力地恢复系统,但直到2018年12月,也就是事故发生近8个月后,TSB的业务才完全恢复正常。

  1. IT迁移崩溃事件原因分析

在IT迁移崩溃事件发生后,TSB CAO(首席审计官,Chief Audit Office)、CEO、COO、CIO、SABIS、萨瓦德尔集团COO、IBM、安永公司、司力达律师事务所(Slaughter and May)等分别(受邀)就该事件进行了调查、分析和报告;IBM、Nucli、VMWare、CISCO、Citrix、Red Hat、Microsoft和Dell等就相关技术问题进行了评估。

事后调查发现,TSB的所有分支机构及其540万客户中的很大一部分都受到了最初问题的影响,包括数据泄露、数字(互联网和移动)银行服务故障、电话银行故障、分行技术故障以及支付和借记卡的交易问题等。随后,数字服务故障使客户转而尝试电话银行业务,但由于电话银行的其它IT问题以及新系统在前所未有的客户呼叫量下过载,许多客户面临等待时间增加,并因此放弃了呼叫。接下来,由于一些客户在访问数字银行时面临问题,另一些客户无法访问电话银行,遇到问题的客户在分行里排起了长队,又由于许多影响分行的IT故障,造成这些分行的服务运行缓慢。由于对分行银行服务需求的增加,进一步加剧了使用分行服务的客户遇到的问题。

IBM在对该事件的初步评估报告(2018年4月29日)中指出:新应用程序的组合,先进微服务的应用,结合双活数据中心的使用,导致了生产系统的复合风险。IBM认为,为了应对迁移项目的复杂性和风险状况,需要世界级的设计严谨性、测试纪律、全面的运营检查、切换试运行和运营支持安排。TSB银行显然是“载”在了迁移项目的复杂性上,没有管理好与之相关的风险。

司力达律师事务所在其独立报告中指出,迁移事故期间出现技术问题的直接原因主要与IT配置、容量和编码问题有关,并在附录中给出了摘自不同来源报告的观点: 摘自IBM报告 摘自安永根本原因 分析报告 摘自TSB CIO 报告 影响权重 IT配置 “配置是最初确定的双活基础设施的问题之一,造成了客户和员工过程的意外终止 配置错误(如数据中心中的重复IP、安装错误的SSL证书、文件系统的错误权限以及错误的防火墙配置)导致非功能性问题,如代理在呼叫转移时无法听到彼此的声音、欺诈解决方案的间歇性中断、大量呼叫丢失以及无法验证客户安全问题。受影响的服务包括ATM、电话/移动银行和快速支付 配置不一致:事实证明,Proteo4UK平台所在的两个数据中心在一些关键组件的配置上存在严重缺陷,尤其是一些必要的网络组件(如代理、负载均衡设备和防火墙)、数据库以及数字架构的核心组件(如OpenAM,Context Manager,微服务) 38% 容量 已观察到的容量问题,如在SABIS及其供应商管理的网络中,没有足够的容量也没有所需的配置来支持TSB渠道 体系架构、基础设施和平台设计是详细的技术规范,说明在基础设施层提供业务所描述的功能和性能所需的内容 虽然最初中断的原因可以解释为容量不足,但进一步的观察表明,所经历问题的根本原因是配置不一致。不过,网络和IVR20存在严重的容量问题,影响了我们的电话中心,并且在数据中心灾难恢复场景(在单数据中心操作)中,处理桌面的容量不足 27% 代码和应用程序设计 技术代码质量成为不稳定的另一个主要驱动因素,因为微服务代码和前端应用程序代码中的错误对多个渠道的影响很明显 代码级缺陷导致了一些安全或容量方面的非功能性问题 应用程序设计缺陷也导致与应用程序容量相关的非功能性问题 在我们所有渠道(数字、分支机构、电话)使用的Proteo4UK中间件中,已观察到一些代码的系统性问题……一些代码质量问题导致了平台的不稳定 23%

当然,根据英国审慎监管局(PRA)和金融行为监管局(FCA)等机构的全面调查,迁移项目失败还与项目相关的操作风险管理和治理失败相关,反映在项目规划、测试、风险管理、外包和业务连续性管理等方面。简单归纳起来,主要有:

(1) 项目目标太过“雄心”,没有理性和行动支撑,特别是对这个“前所未有”复杂的项目,采用了“大爆炸”(big bang)式上线,结果还真“炸”了; (2) 在没有详细平台设计的情况下,测试作为重要的风险缓解措施,没有得到有效重视,甚至没有安排足够的非功能(即性能)测试,并且直到最后关头,测试和验收确认的权责关系存在漏洞; (3) 将项目委托给SABIS的风险如何?从未在英国运营过的SABIS是否能够管理它将面临的风险?……事后看来,这一系列与风险管理和外包相关的风险并未得到有效认识和妥善管理; (4) TSB准备了业务连续性和危机规划,但其所做的准备与其所面对的准备相比,太小儿科了,因此,……

关于事件分析的IBM初步报告(8页)、司力达独立报告(262页)、PRA事件通告(108页)和FCA事件通告(115页),可到“ 知识星球:业务连续性管理问与答” 下载。

  1. IT迁移崩溃事件后续影响

TSB IT迁移事故吸引了媒体的广泛报道、监管部门的参与和议会(这一事故使英国议会财经委员会向FCA询问有关监管制度是否充分的问题)的关注。一些客户遭受了重大损失,在2018年4月22日至2019年4月7日期间,TSB因迁移事故收到了225 492起客户投诉,在此期间共支付了32 705 762英磅的赔偿金。受迁移事故影响,TSB当年亏损1.054亿英镑。TSB的声誉也因此遭到了重大损害。

2018年9月,面对监管机构和议会成员的强烈谴责,TSB时任首席执行官保罗·佩斯特(Paul Pester)在迁移事故发生几个月后被迫辞职。

迁移事件的乙方、IT提供商SABIS因为这起事故收到了1.53亿英镑的赔偿账单。(而在事件后,2020年1月,TSB宣布与IBM签署价值10亿英磅(长达10年)的外包协议,将其私有云、核心银行服务及整个银行基础设施外包给IBM服务部门)

监管机构认为,TSB未能充分组织和控制IT迁移项目,并管理其与IT公司SABIS的外包安排所产生的运营风险。这一失误“影响广泛且严重”,对TSB很大一部分客户的日常生活产生了真切的影响。PRA负责人表示:“TSB在IT迁移过程中发生的服务中断,未达到我们预期银行应达到的标准。” FCA首席执行官安德鲁·贝利(Andrew Bailey)在致国会财经委员会的信中表示对TSB与客户的沟通不满意,并且担心TSB对问题不公开透明。

2022年12月20日,英国金融市场行为监管局(FCA)和审慎监管局(PRA)宣布,因TSB银行在进行IT改造时风险管理和治理方面的失误,对其处以4865万英镑的罚款, 其中FCA罚款2975万英镑, PRA罚款1890万英镑。

2023年4月13日,审慎监管局宣布,对TSB银行前CIO卡洛斯·阿巴卡(Carlos Abarca,2019年12月已从TSB离职)处以81 620英磅的罚款,因为他未能采取合理措施确保TSB充分管理和监督与迁移事故相关的外包安排。

  1. 与运营韧性监管的关系

重要商业服务不可用和运营中断都有可能对消费者造成广泛伤害,给市场完整性造成风险,威胁企业的生存能力,并导致金融系统的不稳定。因此,确保金融部门的运营韧性对消费者、企业和金融市场都很重要。

从一定程度上讲,TSB IT迁移事故加快了英国运营韧性监管要求的推出(可参考以下事件时间线): 2018年4月 TSB IT迁移项目发生重大事故; 2018年6月英格兰银行、PRA和FCA发布《建设英国金融部门运营韧性》(讨论稿); 2019年12月英格兰银行、PRA和FCA发布《建设运营韧性:重要商业服务的影响容忍度》(征求意见稿) 2021年3月英格兰银行、PRA和FCA发布《运营韧性:重要商业服务的影响容忍度》(正式稿) 2022年12月 PRA和FCA对TSB IT迁移事故开出罚单; 2023年4月 PRA和FCA对TSB前CIO开发罚单。

值得注意的是, 作为第一个受到公开处罚的运营韧性(operational resilience)事件,TSB并没有违反任何运营韧性要求 ,因为这些运营韧性要求直到20222年3月才生效(而迁移事故发生在2018年4月)。

对此,PRA指出:尽管PRA的总体运营韧性框架是在2021年之后引入的,但PRA关于管理运营韧性的要求和期望只是进一步巩固了审慎监管的许多长期和众所周知的领域,这些领域多年来一直是审慎监管规则手册的一部分,如治理、操作风险管理、业务连续性规划和外包关系管理等。

这是一个有意思的信号,FCA和PRA希望传达出来的是,运营韧性是其优先事项,它们对运营韧性是认真的(regulators are serious about operational resilience),它们不会在执行最新的运营韧性要求有任何放松(即使2025年才是达到影响容忍度的最后期限)。

相关链接 : (以下报告也可到知识星球相关链接下载)

  1. PRA发布的最终通告: https://www.bankofengland.co.uk/-/media/boe/files/prudential-regulation/regulatory-action/final-notice-from-pra-to-tsb-bank.pdf
  2. FCA发布的最终通知: https://www.fca.org.uk/publication/final-notices/tsb-bank-plc-2022.pdf
  3. 司力达律所的独立报告: https://www.tsb.co.uk/news-releases/slaughter-and-may/slaughter-and-may-report.pdf

本公众号(ID:bcmplus)专注于业务连续性和运营韧性知识的传播和普及,关注业务连续性、应急和危机管理的朋友可关注本公众号。

由于公众号注册时腾讯已调整政策,未能开通留言功能,希望交流和讨论业务连续性和韧性相关问题,或获取相关资料的朋友,可长按以下二维码加入知识星球留言和讨论(另,公众号每月只能发4次文章,会有一些内容直接在知识星球分享而不在公众号发布)。


原文发表于公众号”业务连续性+” | 原文链接