译 | 复杂系统为什么会失败

Post Views: 1,584

感觉日常工作的并行特点让注意力不断被打散，必须靠周末来重新集中一下。

1、复杂系统本质上是危险的

所有有意思的系统（如交通、医疗、发电）本质上都是危险的。危险发生的频率有时候可以被改变，但在系统里进行的活动本身就具有危险性。正是这些危险的存在才催生了对其的防御，从而塑造了系统。

2、复杂系统成功抵御了故障

故障的严重后果使得随着时间的推移形成了多层防御体系。这个体系有明显的技术部分（如备份系统、设备的“安全”特性）和人部分（如培训、知识），也包括了各种各样的组织、行业、监管层面的防范措施（如政策、流程、认证、工作规章、团队培训）。这些措施提供了一些保障，可以让操作远离危险。

3、灾难需要多点故障 – 单点不够

防御体系是有效的，系统操作一般都能成功。灾难性故障有赖于多个小的、明显无害的故障结合在一起，才能给系统性故障创造机会。每一个小故障对于引发灾难都是必要的，但只有它们结合在一起时才能制造出灾难。换句话说，存在比公开记录更多的故障机会，大多数被安全设计扼杀于萌芽。大部分操作层面的故障激活路径都被操作员成功制止了。

4、复杂系统包含持续变动的潜在故障组合

系统的复杂性导致运行时必然带着瑕疵。因为单个瑕疵不足以引发故障，所以被认为是次要的。根除所有潜在故障的努力是有限度的，首先当然是成本因素，其次是只有当事故发生时才知道潜在故障是如何在其中发挥作用的。故障也在持续变化，因为变化的技术、工作组织、以及根除故障的行动。

5、复杂系统运行在破损状态

对上一个观点的进一步推论是复杂系统运行在破损状态。系统之所以能继续运转，在于有很多冗余，同时人们设计让它在带着瑕疵的状态下也能工作。事后审查几乎总是能发现先前就有快要引发灾难的“原型事故”。基于系统表现的一种天真想法认为，在事故前就应该意识到破损情况。但系统运行是动态的，包括组件（组织、人、技术）的故障和持续进行的替换。

6、灾难始终盘旋在上空

复杂系统都有发生灾难的潜质。潜在故障总是如影随形 – 任何时刻和任何地点都有可能。存在灾难性后果就是复杂系统的特点。不可能终止复杂系统的灾难潜质，因为这种潜质正是系统固有的。

7、事后根因分析完全就是错的

因为事故需要多点故障，所以不存在孤立的原因。一场事故总是有多个问题，每个问题都不可能单独引发事故。只有都失守时才会发生事故。因此可能没有孤立的根因。寻找根因反映出没有在技术层面上理解事故的本质，而只是盲从于社会、文化上归咎于局部因素的需要。

8、事后聪明使得对人的表现的事后分析存在偏见

对后果的知识让人误以为导致后果的事件本应该在事发当时更显眼。这表明对人类表现的事后分析不准确。事后知识干扰了事后观察者重建事发前当事人对这些因素的观感。这样就得出当事人“本应该知道”这些因素会“无可避免地”引发事故。事后聪明的偏见仍然是事故调查的主要障碍，特别是涉及到专业人员的表现时。

9、操作员要扮演两种角色：生产者和故障防范者

从业人员操作系统以生产期望的产品，同时阻止故障发生。系统操作的动态质量，即在生产需要和初期错误之间的权衡是不可避免的。外人很少认识到这种两面性。在无事故时，强调生产角色；在事故发生后，又强调防范故障角色。

10、所有操作都是在赌博

事故后，看起来一切都是无法避免的，因为从业人员操作失误或漠视即将发生的故障。但所有操作都是在赌博，也就是说，操作面对的是不确定的后果。不确定的程度时刻在变化。在事故发生后，再看从业人员的操作就明显是在赌博。通常，事后分析将这些例子视为糟糕的赌博。但从另一面看，操作成功也是赌博的结果，却没有得到感激。

11、在一线的行动消除了所有的模糊

组织总是含糊其辞在产能目标、资源的有效使用、经济、运行成本、轻微后果故障和严重后果故障风险的接受程度，这几者之间的关系。所有的不明确都在从业者对系统的操作中变得明确了。在事故发生后，这些操作被认为是“错误”和“违规”，但这些事后聪明的评估是严重的偏见，忽略了其他因素，特别是生产压力。

12、人类从业者是复杂系统的调整单元

从业者和一线管理人员主动调整系统以最大化生产、最小化故障。这些调整时时刻刻在发生。其中的一些包括：（1）重构系统以减少引发故障的脆弱部分；（2）集中关键资源于最需要的地方；（3）提供路径从预期或非预期的故障中撤回或修复；（4）制定方案在早期探测变化的系统性能以减产或增加弹性。

13、复杂系统里的专业知识是不断变化的

复杂系统对运行和管理的专业化要求高。专业化不仅随着技术变化而变化，而且因为专家的离开而发生变化。在任何情况下，技能和专业知识的培训和精进都是系统运转的固有组成部分。所以，复杂系统在任何时间都包含具有不同专业程度的操作员和实习生。与专业化相关的关键问题来自（1）需要用当前紧缺的专业能力来满足最困难或者最急需的生产需要和（2）发展专业能力以备将来之需。

14、变化会引入新的故障模式

可靠系统的低故障率会鼓励改变，特别是鼓励去采用新技术，以减少低危害的高频故障的数量。这些改变可能正在为新的低频率的严重事故创造机会。当新技术被引入来终结熟知的系统故障或者提升系统性能的精度，同时被引入的还有新的引发大规模灾难的激活路径。通常，相比于被新技术根除的故障，被引入的新的罕见灾难对系统有更大的影响。在实际发生之前很难看到这种新的故障模式，大家的注意力都被改变的好处所吸引。因为这些新的严重事故的发生率比较低，在事故发生之前的一段平稳时间里已经进行过多次系统变更，导致很难认定新技术在多大程度上引起了事故。

15、关于“原因”的观点限制了防范未来事件的有效性

对“人为错误”的事后改进通常建立在对“引起”事故的妨碍性活动上。这些链条末端的措施并不能降低未来事故发生的可能性。事实上，相同事故发生的可能性极低，因为潜在故障模式一直在变化。事后改进并没有提升安全性，相反地，增加了系统的耦合和复杂性。这增加了潜在故障的数量，同时让检测和堵住事故激活路径变得更加困难。

16、安全属于整个系统而不孤立存在于各个部分

安全是系统的涌现属性，不单独存在于一个人、一台设备、一个部门、一个系统上。安全不能购买或制造。它不能独立于系统的其他组成部分，不能像原材料一样进行加工。任何系统的安全状态都是动态的，持续的系统性变化使得危险及其管理都处在不断变化之中。

17、人在持续创造安全

无故障运行是（使系统运行在容许性能范围内的）操作人员工作的结果。在大多数情况下，这些活动是正常操作的一部分，看起来很简单。但因为系统运行并不是故障免疫的，所以操作员应对变化情况的调整在时时刻刻创造安全。这些调整差不多是从可用响应中挑选排练好的套路；但有时也会是对新方法的良好组合或二次创造。

18、无误的操作来自于故障的经历

识别危险并调整系统处于容许的性能界限内，需要和故障有过亲密接触。更稳健的系统性能出现在操作人员能辨别边界时 — 越过边界系统性能开始退化、变得难以预测或不能轻易复原。在本质就危险的系统里，期望操作员能良好处置危险，使整体性能维持在期望的范围里。安全性的提高有赖于提供校准的危险视图。同样也有赖于提供能够揭示操作如何使得系统接近或远离边界的校准。

译 | 复杂系统为什么会失败

于2023年8月13日2023年8月13日由顽石发布

0 条评论

发表回复取消回复

扯淡

译 | JEP 425: 虚拟线程（预览）中

扯淡

译 | JEP 425: 虚拟线程（预览）上

扯淡

译 | JEP 11: 孵化器模块

译 | 复杂系统为什么会失败

于2023年8月13日2023年8月13日由顽石发布

0 条评论

发表回复 取消回复

相关文章

扯淡

译 | JEP 425: 虚拟线程（预览）中

扯淡

译 | JEP 425: 虚拟线程（预览）上

扯淡

译 | JEP 11: 孵化器模块

发表回复取消回复