【摘要】人员可靠性在系统可靠性计算中占的比重越来越大,人因失误事件的分析及其管理也成为安全管理的重要组成部分。为更加有效、准确地进行人员可靠性分析和人因失误事件的管理,提高系统的安全性,建立一个人员可靠性分析及人员可靠性数据管理系统是非常必要的:首先为人员可靠性分析和人因事件管理提供一个有用的计算机辅助工具;再者通过建立具有一定规模的人员可靠性数据库,以便为今后进一步的研究提供良好的数据支持。笔者简述了该系统的一些基本原理和实现的主要功能。
【关键词】人员可靠性分析(HRA) 人因 人因失误 安全 数据库
Study on the Analysis of Human Reliability and Its Data Management System
Gao Wenyu Zhang Li,Prof.
(Institute of Human Factors,Nanhua University)
Abstract:Human reliability is becoming more and more important in the quantification of the complex system reliability.The analysis and management of human error events have been an important part of the safety management.In order to conduct the human reliability analysis and manage the human error events more effectively and accurately,a human reliability analysis and its data management system were developed.These could provide a computer – aided tool for the analysis and management of human error events,and build its database providing the support for future study.Some basic principle and function of the system are discussed.
Key words:Human reliability analysis Human factor Human error Safety Database
1 引言
在现代社会中,人因失误在系统安全中的重要性越来越受到重视。由于随着机械、电子部件可靠性的不断提高,系统安全越来越取决于人的行为。然而人的可靠性及其研究(人员可靠性分析),一直是世界各国可靠性问题专家攻克的一大难题。在这方面,国际原子能机构(IAEA)和美国核管会(NRC)曾做过大量的工作,包括对人员可靠性分析方法的研究和建立有效的人员可靠性数据库[1]。传统方法将机械、电子设备的可靠性分析方法移植到人员可靠性分析中的做法虽有其一定道理和易行性,但至少存在两方面的问题。
一是机械、电子设备由于长期的积累,已有大量可用的可靠性数据,而有关人的可靠性数据,相对而言要少得多,在实践中也更难以收集;
二是简单地将机械、电子设备可靠性研究方法移植到人员可靠性分析中,其合理性仍受到专家、学者的置疑。
计算技术的飞速发展让人们看到了人员可靠性分析工作的曙光。计算机发明以来,一直试图模拟人脑的计算、思维方式;而人们进行人员可靠性分析,也是要充分了解人的思维、行为方式,然后对人的行为进行某种程度的预测和评估。因而可以利用计算机领域的专家们多年积累的关于人的智能方面的知识(如人工智能、模拟和仿真等),将其引入到人员可靠性分析领域,在某种条件下,让计算机来模拟人的行为,从而对人的行为做出更准确的预测。数据库技术和网络技术的发展,给人们提供了前所未有的处理大量数据的能力,充分利用收集世界各地的人因数据进行有效的分析,从而更深刻地发现人的思维和行为的规律性。
2 人员可靠性分析的难点
由于人具有生理和心理因素,并且与系统和周围环境交互性和相关性,导致在某种程度上人的行为不象机械电子设备那样具有确定性,并难以进行定量化描述。因此,对一个复杂系统中人的可靠性的分析相对于对机械、电子部件的可靠性分析就要难得多。目前,许多行业或企业都建立了人员可靠性数据库,但由于数据来源的“匮乏”和缺少对数据有效的、规范化的处理及分析,人员可靠性数据库在人员可靠性分析以及人因工程所起的作用受到很大的限制[2,3]。
人员可靠性分析存在的主要困难可归纳如下:
(1) 缺乏可信的、规范化的大量的数据支持;
(2) 分析方法不足,以往的一些人员可靠性分析方法及其所基于人的认知行为模型,往往不能全面地反映人的行为,因而分析结果难免失之偏颇;
(3) 基于大量现实人因数据或实验数据的人员可靠性分析,需处理的数据量和考虑的因素太多,靠手工处理不仅繁杂,也不方便;
(4) 分析的结果难得以验证,分析结果也很难得到有效的再利用或再验证;
(5) 随着实时概率安全分析(Living Probabilistic Safety Analysis)在大型工业系统中的应用,作为其中重要的部分,人员可靠性分析也面临越来越高的要求。而实时人员可靠性分析(Living Human Reliability Analysis)亦会成为现实性的需要;
(6) 人员可靠性分析过多依赖于专家判断或人员可靠性分析者的个人特性,使得人员可靠性分析标准化程度太差,人员可靠性分析结果的一致性不好,作为一种实用的工程技术来说,就难以接受的。
以上困难,必须在人员可靠性分析理论研究基础上,结合数据库技术,人工智能(推理逻辑),及计算机模拟和仿真技术,构造一个基于大量数据的计算机辅助人员可靠性分析及人员可靠性数据管理系统[3~5],上述问题才有可能得以解决。
为此,笔者结合某核电站的实际情况,开发了一套人员可靠性分析及人员可靠性数据管理系统,以期为该核电站的人因事件管理工作及概率安全分析项目(PSA)提供有力的支持和有益的帮助。
3 系统的功能需求
3.1 系统对数据库的要求
作为人员可靠性分析不可或缺的基础,迫切需要一个有一定规模的、经长期实践(实验)检验的可信赖的数据库的支持。该数据库应具备以下特点:
(1) 数据库设计遵循统一的标准,规范性好,数据格式统一,易与国际上和国内已存在的一些类似数据库系统(如其他的可靠性数据库)进行数据交换。
(2) 初始建库时,数据库应达到一定的规模,这对当前的应用才有一定的价值,因为基于贫乏数据所做的人员可靠性分析是缺乏说服力的。
(3) 由于人因数据的特点,人员可靠性数据库在使用中应不断地更新,包括修正以前不够准确的数据和增添新的内容,最好能够从某些工业运行系统中实时地采集数据,以保持数据量持续、快速增长,大样本数据才能较准确地反映事物的规律。
因此,系统应有数据录入、修改、采集、浏览以及数据库正确性检验的功能。
3.2 系统应具有人员可靠性及人因事件定性分析功能
系统应能对已发生的一些人因事件进行分析,从中找出该人因事件发生的根本原因,亦能根据现实情况,预测可能发生的人因事件。在具体实现时参考人员可靠性分析方法CREAM(Cognitive Reliability and Error Analysis Method)[6],并对其进行必要的扩展和改进。
3.3 系统应具有人员可靠性及人因事件定量分析功能
对人因事件计算其发生的概率,以充分满足LPSA的需要。具体实现时可参考CREAM中的定量分析方法和THERP+HCR(Technique of Human Error Rate Prediction,Human Cognitive Reliability)定量分析方法[2,7~8]。
3.4 系统应具有对外来及现有数据进行维护和再分析的功能。
4 系统涉及的定性、定量分析基本模型和方法
在人员可靠性分析系统中,涉及两种重要的人员可靠性分析方法,以下对其做一简要介绍。
4.1 CREAM定量分析法
CREAM是Erik Hollnagel建立起来的人员可靠性分析方法。它有其独特的认知模型、前因-后果分类方案和分析技术,既可进行回溯性分析,又可进行预测性分析。该法考虑到与概率安全分析(PSA)的结合,提供了一种较好的定量化的方法,可将HRA有机地融入PSA。CREAM的另一个显著特点是把对人的行为的描述置于一个环境背景中(Context),并在分析的早期阶段就考虑环境背景对人的绩效的影响。
4.1.1 模型
CREAM的认知模型称为COCOM模型(Contextual Control Model)。该模型把人的行为按认知功能分为4个基本的类,即观察(Observation)、解释(Interpretation)、计划(Planning)、执行(Execution)。人的行为是在现实的环境背景下,按照一定的预期目的和计划进行的,但是,人又根据环境背景的反馈信息随时调整自己的行为,这是一个多次交互的循环过程。在COCOM模型中,环境背景用控制模式(Control model)来描述,可分为4种控制模式,即混乱的(Scrambled)、机会的(Opportunistic)、战术的(Tactical)、战略的(Strategic),分别表示不同环境背景下对人的行为影响的程度。
4.1.2 分类方案
分类方案定义了后果和可能前因之前的联系,形式类似于产生式规则,因而很容易利用计算机方法进行处理。后果和前因之间可相互转换,如某一后果的一个前因,可能又是另外一个前因造成的后果。
前因又分为一般前因和特殊前因。一般前因指导致某一后果的比较概括的一个前因;而特殊前因则是在各种条件非常确定的情况下,一个非常具体的前因。即一般前因是在许多条件还不确定的情况下,许多同类特殊前因的一个总称。分类方案是CREAM分析技术实施的基础。由于分类方案在CREAM方法中的基础作用,因而其正确性、完备性和有效性是非常重要的,而且其内容针对不同的行业领域也有所区别。在系统实现时,必须根据应用领域的特点,对其进行扩展并进行正确性、完备性和有效性验证。
4.1.3 分析技术
CREAM的分析技术有两种,即回溯性分析和预测性分析。前者主要用于事故和事件分析,从事故现象(模式)推导出造成事故的原因;而后者主要用于人员可靠性分析和预测可能发生的人因失误。
4.2 THERP+HCR定量分析法
THERP+HCR分析技术是综合THERP和HCR两种方法的特点而成的方法[2]。THERP模式主要基于人因可靠性事件树模型,它将人因事件中涉及的人员行为按事件发展过程进行分析,并在事件树中确定失效途径后进行定量计算。人因可靠性事件树描述人员进行操作过程一系列操作事件序列,按时间为序,以两态分支扩展,其每一次分叉表示该系统处理任务过程的必要操作,有成功和失败两种可能途径。因而某作业过程中的人因可靠性事件树,便可描述出该作业过程中一切可能出现的人因失误模式及其后果。对树的每个分枝赋予其发生的概率,则可最终导出作业成功或失败的概率[7]。
HCR是用来量化作业班组未能在有限时间内完成动作概率的一种模式[8]。它基于Rasmussen的三级行为模型,将系统中所有人员动作的行为类型,依据其是否为例行工作、规程书情况和培训程度等情况,分为技能型、规则型和知识型三种。同时它认为每一种行为类型的失误概率决定于允许操作人员进行响应的时间t 操作人员执行时间T1/2之比,且遵从三参数的威布尔分布:
式中,α、β、γ——与行为类型有关的参数。
对THERP和HCR分析可知,两种模式各自解决问题的侧重点是不同的。前者主要针对与时间无关的序列动作;而后者的着眼点恰在与时间密切相关的认知行为上。然而,在现代复杂人-机系统中,人员的行为是多样的。例如,在核电站,当一个需要操纵员响应并干予的事故发生后,操纵员首先要依据各种信息,如报警、显示、记录等对事故进行诊断,并进入相关事故规程,继而按规程的要求实施具体的操作干预。一般而论,复杂人-机系统中人的行为均包括感知、诊断和操作3个阶段。若只用THERP,则可能使人因事件中事实存在的“诊断步骤”度量太粗糙;若只用HCR,对具体操作,又不如THERP可反映出各类操作的不同失误特征。因此,较好的方法是THERP与HCR相结合,在诊断阶段,用HCR方法对该阶段可能的人员响应失效概率进行评价,而对感知阶段和操作阶段中可能的失误用THERP方法评价,两者相互补充,共同构成一个有机整体。
5 系统的总体结构设计
5.1 数据库结构设计
部分数据表中的字段有中、英文两种方式,以便在某些时候使用起来会更方便。主要有以下几大类:
(1) 基本人误数据表类。来源于以前的研究者在长期的研究和实践中总结出来的人误数据,主要包括CREAM方法中提供的数据,以及THERP手册和HCR手册中提供的各类人误数据。以及笔者通过模拟机实验得出的数据和核电站运行实践中统计归纳出来的一些典型的人的行为数据。
(2) 各种前因、后果描述表类。来源于CREAM主法中对各种人因事件的前因、后果的描述。
(3) 前因-后果联系及概率表(知识库)类。来源于CREAM方法中定义的各种原因-结果联系,以及笔者根据核电行业特点补充的一些联系。联系是多对多的网状结构。
知识库分两类:①后果与一般前因的关系知识库,②后果与特殊前因的联系知识库。
(4) CREAM中的其他表[包含如影响人的行为的一般绩效条件(Common Performance Condition,CPC)的定义、描述,认知行为的描述类,认知功能失效的描述类等]。
(5) 核电站特定人因事件的概率类。来源于核电站的PSA(概率安全分析)报告中的人员可靠性分析结果。
(6) 人因事件档案类。记录来自核电站在以往运行中发生的人因事件(通过数据采集),并用来保存每次利用本系统所分析的人因事件的结果。
5.2 系统结构设计
系统采用客户/服务器(C/S)+浏览器/服务器(B/S)方式实现。数据全部存放在服务器上。在客户端,较专业的用户(如人员可靠性分析或PSA分析者)使用专业的客户端界面进行人因事件的定性、定量分析及数据库的维护工作,因为这一部分需要一定的专业背景。而浏览器作为另一个数据访问工具,提供给非专业用户如管理人员等进行一些人因数据的查询及简单的分析工作,如图1所示。
系统服务器的操作系统平台为Windows2000 server或Unix,数据管理系统为Oracle,客户端的操作系统平台为Windows2000或Windows98。通讯协议采用TCP/IP。系统采用数据库应用开发工具Powerbuilder7.0 和Web开发工具开发。在系统的程序功能实现上,有如图2所示结构。
图1 系统结构图
图2 系统功能模块图
CREAM分析模块和THERP+HCR分析模块以数据库为基础完成人员可靠性分析,同时又将分析结果回送数据库,以便对分析结果再利用。数据维护模块通过录入、修改等完成对数据库的更新,同时又可供浏览、查询数据库。数据分析模块则是通过对大量人因事件档案的深层次的自动分析,以期得出或验证一些隐藏于这些人因事件背后的规律或人的行为规律。另外,系统通过一些接口程序完成从核电站其它的信息系统中采集有关的人因数据。
系统功能实现的技术路径如下。
5.2.1 文件模块
[打印]:将数据库中所保存的人因事件(分析)档案转化为人因事件报告(文本文件)并打印输出。
5.2.2 数据维护模块:
[录入]:根据用户选择,启动相应的数据表的录入模块,以便对原有表进行追加、扩充。
[浏览、查询];可分为两部分,一为查询人员可靠性分析用到的有关标准数据,以对人员可靠性分析者提供一个辅助的支持;二为根据用户输入的条件,如人因事件的名称、发生日期或人因事件涉及的内容等,在数据库中模糊查询相关的人因事件或人误数据。
[修改]:根据用户输入的条件,取出相应表中的相应记录供用户审查、修改
[导入]:由外部数据库或文本文件中成批导入数据(主要用于利用国外数据或非核电行业的人因数据)。
[采集]:从核电站的运行值班日志,运行事件单,异常事件单以及EFS(经验反馈系统)中动态采集人因事件数据,放入人因事件表中。
[一致性检验]:主要用于对规则库进行检验,检验规则库的形式合法性。如某些规则之间是否存在闭合回路,因为这样在分析时可能会导致死循环。
数据维护模块主要保证数据库的不断更新、增长,在保证数据正确性的同时,持续、快速地扩大数据的拥有量,一则可提高今后分析的可信度,二则为今后更复杂、更高层次的应用做准备。
5.2.3 基于CREAM的分析模块
CREAM分析模块可分为3个子模块:
1) 定性回溯性分析子模块
回溯性分析的主要目的是根据已发生的人因失误事件的描述获得人因失误的原因。它基于笔者扩展的分类表(即核电行业的人因事件后果-前因规则库),根据所观察到的人因失误事件后果,使用后果-前因分类表中所定义的关系来建立可能存在的后果-前因关系路径。系统按深度优先次序,自动搜索所有可能存在的路径,并根据一些限制条件进行取舍。最后将分析过程和结果存入数据中作为人因事件归档。其实施步骤为:根据事故现象的描述,确定失误模式,以此为起点,在分类表所定义的后果-前因联系表中查找相关的条目,以查得的条目所包含的原因作为结果再到后果-前因联系表中,查找相关的条目,依次类推,直至所查得的前因都为特殊前因,分析终止,所得的全部特殊前因就是回溯性分析的结果,即引起事故的根本原因。
2) 定性预测性分析子模块
预测性分析与回溯性分析相反,是从确定的环境背景中去推导出可能的人因事件后果,即最终事故的故障模式。因而分析的终止条件就是遇到一个确定的故障模式。由于在规则库中,前因-后果的对应关系是多对多的关系,因而在分析过程中,经过多次迭代后,分析路径会迅速增长,数目甚至达到使分析成为不可能。所以在分析过程中要充分运用CPC等现场情况对分析路径进行取舍。搜索方法亦采用深度优先搜索。其过程与回溯性分析类似。
3) 基于CREAM的定量预测性分析
定量预测性分析是在定性分析的基础上进一步计算人因失误的概率值。
首先根据COCOM模型的原则,通过调查、访谈等对现场工作环境的了解,确定一般绩效条件(CPC),并由此得出现场工作环境所处的控制模式,该步骤将影响随后的每一个步骤。通过工作分析将一个总的工作任务分解成小的子任务(子动作);确定每一个子任务(子动作)所涉及的认知行为;确定每一个子任务(子动作)中最可能发生的认知功能失误;根据CREAM中提供的基本认识功能失效概率确定每一个子任务(子动作)的认知失效概率CFP(Cognitive Failure Probability);用CPC和控制模式去修正CFP。根据前面所得的控制模式,使用不同的权重去修正每一个子任务(子动作)的CFP。
最后根据工作分析和工作步骤构成的结构(并联或串联)计算整体失误率,以便将结果用于PSA。
5.2.4 THERP+HCR分析模块
根据前面对THERP+HCR分析方法的描述,基于THERP+HCR方法的定量分析,首先从工作分析入手,将某工作任务分解为小的子任务。然后确定每个子任务是属于诊断或操作,再分别运用THERP或HCR方法对每一子任务进行分析、计算,最后,累加各子任务的失误概率而得整体失误概率。整个分析过程中的有用信息及结果都再将相应的数据表中归档保存,以便进一步的应用。
5.2.5 数据分析模块
主要完成对数据库大量的数据执行自动的、智能化的分析,该部分将在今后的工作中逐步完善。
5.2.6 帮助模块
提供一个对该系统的简要说明和用户操作指南。
6 结束语
笔者进行的人员可靠性分析及人员可靠性数据管理系统研究,在基本原理、主要功能方面作了较深探讨,并提出人员可靠性分析及数据管理系统的构架总思路。
该系统的建立是将计算技术有效地引入人员可靠性分析的一个尝试,同时通过建立一个初具规模的、规范性的人员可靠性数据库,对于今后的研究工作是很有帮助的。但对一些数据处理方法及分析模型的进一步求精,还有待于更深入的研究,并应及时地将一些理论研究成果计算机化。
(收稿:2002年4月;作者地址:湖南省衡阳市;南华大学经济管理学院人因研究所;邮编:421001)
参考文献
1 International Atomic Energy Agency.Human reliability analysis in probabilistic safety assessment for nuclear power plants.1995.IAEA.Safety series(50):10
2 张力.人因可靠性分析方法.中国安全科学学报,2001,11(3):6~16
3 张力.大亚湾核电站人因数据管理系统结构设计.核动力工程,2000,21(2):167~171
4 Kirwan B.The development of a nuclear chemical plant human reliability management approach:HRMS and JHEDI.Reliability Engineering and System Safety 56(1997):107~133
5 Kirwan B.Human error identification techniques for risk assessment of high risk systems-part 2:towards a framework approach.Applied ergonomics 1998,29(5):299~318
6 Hollnagel Erik.Cognitive reliability and error analysis method.Elsevier Science Ltd,1998
7 Swain A D,Guttmann H E.Handbook of human-reliability analysis with emphasis on nuclear power plant applications,1983,NUREG/CR-1278
8 Hannaman G W.Human cognitive reliability model for PRA analysis,1984,NUS-4531