-
0 引言
-
民用飞机在试飞阶段积累了大量的故障和纠正措施等文本数据,这些经验数据蕴含了很多有价值的信息,在很大程度上能为故障诊断提供重要支持,同时在试飞阶段尚未有成熟的手册供工程师直接查询。因此,工程师在遇到故障时可以从已有的经验库中查询是否发生过相似故障及对应解决措施。然而,由于飞机试飞故障案例文本数量大且内容多,人工查找花费的时间长,无法高效利用这些文本的信息价值。为了解决这个问题,可以采用故障案例智能推荐方法。
-
在现有的研究中,机器学习技术在故障匹配中得到了广泛应用。刘科研[1]等提出利用支持向量机比较历史数据和实时数据进行故障判别和匹配;王永坚[2]等提出建立故障朴素贝叶斯网络用于对船舶发动机故障模式进行匹配;徐涯昕[3]等基于故障记录文本数据构建CNN-BiLSTM网络对中小数控机床发生故障的原因进行类别匹配;ZHOU Faguo[4]等基于规则算法对故障案例标题进行了匹配;Shah[5]等则提出聚类算法对故障案例进行匹配和分类。以上研究仅针对故障类别进行匹配以进一步缩小故障原因的判别范围,但未细化到单个故障问题的匹配和推荐。
-
针对单个故障问题的匹配,杨祎[6]等提出改进BERT的故障案例智能匹配方法用于电网故障案例的匹配;唐瑞春[7]等在手机故障案例相似度的任务中提出了一种新的算法;祖月芳[8]等综合考虑词性、语义和词所处位置等因素,提出一种衡量故障文本相似度的算法。上述研究都只从故障文本描述本身出发,未充分考虑设备特性等其他因素。王峻洲[9]等人提出基于相似体系的民机结构超手册维修案例分析方法,通过建立案例相似度体系进行故障案例匹配,但是关键信息需要人工从故障文本描述中进行提取补充。
-
TF-IDF方法是文本相似度衡量中一种经典方法,因其简单有效且可解释性好,在工程领域得到了广泛应用。TF-IDF方法最早由Dierk[10]在1972年提出,后续的改进主要是在词频的基础上考虑位置[11]和语义信息[12]等因素。
-
推荐算法主要有协同过滤推荐和基于内容的推荐[13],其核心思想就是提取出相似度较高的项目集合,而衡量相似度的计算方式包括Pearson相关系数和余弦相似度[14]。
-
民用飞机试飞时,故障记录包括故障文本描述、美国航空运输协会(air transport association America,简称ATA)章节号、运行阶段和解决措施等信息,其中故障文本描述中可能含有机组告警系统(crew alerting system,简称CAS)、机载维护系统(onboard maintenance system,简称OMS)中显示的告警信息,这些告警信息在很大程度上代表这条故障文本的含义,也是故障描述文本的关键词句。因此,在利用TF-IDF方法计算故障文本相似性的基础上,构建包含CAS、OMS信息、ATA章节号和运行阶段等因素的指标体系,并建立正则表达式方法将CAS、OMS信息从故障文本中自动取出,提出一种基于指标体系的相似故障问题推荐方法。此外考虑到民用飞机设计领域存在许多专有词汇,因此在分词时引入民用飞机设计领域专有词汇库,以提高故障案例匹配度。
-
1 指标体系构建与相似度计算
-
1.1 指标选取
-
试飞阶段一份故障记录信息通常包含架机号、任务编号、任务名称、运行阶段、故障件名称、故障件件号、问题现象描述、ATA章节号、纠正措施、问题关闭状态等字段,故障记录字段含义如表1所示。
-
选择的指标应当具备代表性、独立性和可及时获取性。代表性是考虑对相似故障判断是否有显著影响;独立性是指两个指标之间是否强关联;可及时获取性是考虑信息在故障发生时能否直观获取,例如故障件及件号在故障发生时大概率无法直接判断。最终选取的指标包括运行阶段、ATA章节号和故障现象描述,选取这些指标的原因如表2所示。
-
1.2 运行阶段相似度计算
-
参考中国民用航空局发布的《运行阶段和地面阶段》[15],飞机可能发生故障的运行阶段有行前准备、推出/牵引和起动、滑出、起飞、初始爬升、航路爬升、巡航、下降、等待、进近、着陆、滑入和航后,各阶段主要特征如表3所示。
-
表3(续)
-
一般来说相似故障发生的运行阶段也相似,差别较大的运行阶段,如地面和空中发生的故障,差别也较大,因此对各个运行阶段按照表4进行赋值。
-
根据公式(1)计算运行阶段的相似度:
-
式中:Sphase表示运行阶段相似度;pi表示阶段i赋值;pj表示阶段j赋值。
-
1.3 ATA章节号相似度计算
-
ATA章节号由系统、分系统和单元体三个层次六位数字组成。在试飞故障问题记录中,ATA章节号一般只填写了系统层次的两位数字。相似故障问题的ATA章节号是相同的。依据公式(2)计算ATA章节号相似度,当ATA章节号一致时,ATA章节号相似度取值为1,当ATA章节号不一致时,ATA章节号相似度取值为0:
-
式中:sATA表示ATA章节号相似度,取值范围为0~1。
-
1.4 故障文本相似度计算
-
故障文本是试飞故障问题记录中核心的字段,是对所发生故障的文字描述,相似故障的文本描述一般也是相似的,所以衡量故障文本的相似度是识别相似故障的重要组成部分。本文使用TF-IDF方法建立故障文本向量模型,采用余弦相似度衡量故障文本向量之间的相似度。
-
故障文本相似度计算步骤如图1所示,包括文本预处理、分词、去停用词、制作语料库、TF-IDF建模和相似度计算。文本预处理包含去除前后空格和删除换行符等。在分词时考虑到民用飞机设计领域存在许多专有词汇,因此引入民用飞机设计领域专有词汇库。分词完成后根据常用停用词库去除停用词,例如“啊”、“的”等。将所有词合并成一个关键词集合形成语料库,在此语料库的基础上利用TF-IDF方法建模,最后用余弦相似度进行计算,得到故障文本相似度值。
-
图1 故障文本相似度计算步骤
-
TF的计算方法如公式(3)所示:
-
式中:F表示词频;m表示关键词集合中的一个词在一份文档中出现的次数;M表示一份文档的总词数。
-
根据文献[16],IDF的计算方法如公式(4)所示:
-
式中:I表示逆文档频率;D表示语料库的文档总数;d表示包含该词的文档数。
-
TF-IDF的计算方法如公式(5)所示:
-
式中:T表示TF-IDF的值。
-
根据TF-IDF的值,将每条故障文本描述转化为向量,再用余弦相似度进行计算,计算如公式(6)所示:
-
式中:stext表示故障文本相似度;n表示关键词集合的长度;i表示词频向量的第i个值;A表示故障A描述的词频向量;B表示故障描述B的词频向量。
-
部分故障文本描述中会包含有CAS、OMS等信息,CAS作为民用飞机机组告警系统,提供综合化机组告警功能。CAS信息在故障文本中是一串英文字符,一般由四部分组成:具体的子系统或位置标识、系统名称、系统的功能或设备和状况的性质,例如“速度超过330 kn后出现REFUEL DOOR NOT CLSD的蓝色CAS信息”。OMS作为机载维护系统,主要用于故障检测和状态监控等。OMS信息在故障文本中也是一串英文字符,例如“ECU供电后,OMS报49-91010 APU LOP Indicator Fault”。CAS信息和OMS信息相同,代表所发生的故障是相似的,因此CAS信息和OMS信息作为故障文本的关键词句,当它们存在的时候,应基于TF-IDF方法提高CAS信息和OMS信息在计算故障文本时的权重。因此,利用正则表达式,设计一种在故障文本中自动提取CAS信息和OMS信息的脚本程序。伪代码如图2所示。
-
图2 CAS、OMS信息自动提取伪代码
-
根据Jaccard相似度计算思想[17],依据公式(7)计算故障文本中CAS和OMS信息相似度:
-
式中:sinfo表示CAS和OMS信息相似度;j表示从0开始依次递增1的整数;c表示数组k中存在于数组m的信息数量;lm表示数组m的长度;lk表示数组k的长度;k表示存有CAS和OMS信息的数组;kj表示数组k中任意一个值;m表示另一存有CAS和OMS信息的数组。
-
1.5 综合相似度计算
-
综合考虑运行阶段、ATA章节号和故障文本等指标,最终故障相似度的计算方法如公式(8)所示:
-
式中:s表示故障综合相似度;α,β,μ,λ表示影响因子。结合层次分析法和专家打分,最终确定当故障文本中含有CAS或OMS信息时,α取值0.1,β取值0.1,μ取值0.2,λ取值0.6。当故障文本中不包含CAS或OMS信息时,α取值0.2,β取值0.3,μ取值0.5,λ取值0。
-
2 相似故障问题推荐
-
2.1 整体流程
-
相似故障问题推荐的整体流程主要包括新发生故障文本输入、基于指标体系的综合相似度计算、按相似度大小排序、选取TOP-N历史故障案例形成推荐集。整体流程如图3所示。
-
图3 文本分类流程
-
2.2 TOP-N推荐集选取
-
TOP-N推荐集选取工作即选取按照综合相似度s从大到小排序后前N个故障。N的实际大小可人为规定,同时考虑综合相似度大小,根据实际工程经验,若综合相似度小于0.3时,可认为两个故障之间不具备相似性。那么当最大综合相似度值小于0.3的时候,可认为在历史故障中不具备相似故障。
-
2.3 评价指标
-
故障问题推荐结果评价指标为准确率A。准确率表示的是推荐集中的故障属于验证集的比例,一般来说随着推荐集数量N增大而变大,但是N太大会导致推荐集中有许多相似度较小的故障。召回率对推荐集中推荐了多少正确的相似故障的衡量,即验证集中有多少故障在推荐集中,一般来说随着推荐集数量N增大而变小,但是N太小会导致推荐的故障不够全面。
-
准确率A的计算公式[18]为:
-
式中:U表示推荐集;V表示验证集。
-
召回率R的计算公式[18]为:
-
3 实例验证
-
3.1 数据集构建
-
飞机试飞故障问题数据集来源于某型号飞机试飞过程中记录的故障问题。首先由于数据来源渠道众多存在重复问题,因此需要对获取的数据去重,再对数据进行清洗,包括去除前后空格和无意义不明字符等,最后得到2 325条历史故障数据。选取3条故障数据作为测试数据,并人工从历史数据中分别找出这3条数据的相似故障数据作为验证集。
-
3.2 N值选取
-
N值分别选取1到50,对3条数据进行相似度大小计算,从大到小排序后取前N条数据,再计算准确率和召回率,最后取准确率和召回率的三次平均值。图4表示准确率和召回率随着N值变化的情况。
-
图4 准确率和召回率随着N值变化情况
-
结合计算结果和图像可知,当N取11的时候,准确率和召回率的值综合来看是较优的。
-
3.3 算法对比
-
将本文提出的基于指标体系的相似故障问题推荐方法与去除CAS、OMS指标体系的推荐方法和只采用TF-IDF推荐方法进行比较,比较结果如表5所示。相较于其他两种方法,本文提出的算法在准确率上分别提高了约25%和28%,在召回率上分别提高了约27%和31%。
-
4 结论
-
1)针对试飞故障问题文本数量大、内容多、人工查找花费时间长、无法高效利用大量的飞机试飞故障案例的信息价值的问题,提出了基于飞行阶段、ATA章节号、故障文本和CAS、OMS信息的指标体系相似故障问题推荐方法,通过实例验证相对于只选取飞行阶段、ATA章节号和故障文本作为指标的推荐算法以及只使用TF-IDF方法的算法,本文所提算法在准确率和召回率指标上都有较大提升,在准确率上分别提高了25%和28%,在召回率上分别提高了约27%和31%。
-
2)通过设置不同的N值,比较准确率和召回率,确定当N选取11的时候,两个指标的值均表现较好。
-
3)利用正则表达式,提出了一种自动从故障文本描述中提取CAS信息和OMS信息的方法。
-
参考文献
-
[1] 刘科研,董伟杰,肖仕武,等.基于电压数据SVM分类的有源配电网故障判别及定位[J].电网技术,2021,45(6):2369-2379.
-
[2] 王永坚,陈丹,戴乐阳.信息融合与贝叶斯集成的船用中高速发动机磨损故障诊断[J].集美大学学报:自然科学版,2018,23(3):205-211.
-
[3] 徐涯昕,何泽恩,徐绪堪.基于CNN-BiLSTM网络的数控机床故障文本自动分类[J].计算机与现代化,2023,332(4):7-14.
-
[4] ZHOU F G,ZHANG F,YANG B R.Research on Chinese text summarization algorithm based on statistics and rules[C]//Proceeding of the International Conference on Asian Language Processing.[S.l.:s.n.],2009.
-
[5] SHAH K,PATEL H,SANGHVI D.A comparative analysis of logistic regression,random forest and KNN models for the text classification[J].Augmented Human Research,2020,5:12.
-
[6] 杨祎,崔其会,秦佳峰,等.改进BERT的故障案例智能匹配方法[J].山东电力技术,2022,49(2):47-53.
-
[7] 唐瑞春,张肖南,郭双乐,等.一种基于粗糙集和欧式距离的手机故障案例匹配算法[J].中国海洋大学学报:自然科学版,2015,45(12):125-130.
-
[8] 祖月芳,凌海风,吕永顺.基于NLP技术的装备故障文本匹配算法研究[J].兵器装备工程学报,2021,42(11):204-208.
-
[9] 王峻洲,王华伟,侯召国.基于相似体系的民机结构超手册维修案例分析[J].系统工程与电子技术,2022,44(9):2978-2985.
-
[10] DIERK S F.The SMART retrieval system:experiments in automatic document processing[J].IEEE Transactions on Professional Communication,1972,PC-15(1):17.
-
[11] 张瑾.基于改进TF-IDF算法的情报关键词提取方法[J].情报杂志,2014,33(4):153-155.
-
[12] 黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864.
-
[13] RESNICK P,LACOVOU N,SUCHAK M,et al.GroupLens:an open architecture for collaborative filtering of netnews[C]//Proceedings of ACM 1994 Conference on Computer Supported Cooperative Work.[S.l.:s.n.],1994:175-186.
-
[14] 薛鹏.基于协同过滤理论的民机智能故障诊断方法[J].中国民航大学学报,2014,32(4):23-26.
-
[15] 中国民用航空局.运行阶段和地面阶段[EB/OL].(2014-01-16)[2023-09-04].https://max.book118.com/html/2019/0212/716012201300200a lgorithm 6.shtm.
-
[16] JOACHIMS T.A probabilistic analysis of the rocchio with TFIDF for text categorization[C]//Proceedings of the Fourteenth International Conference on Machine Learning.[S.l.]:Douglas H.Fisher,1997.
-
[17] JACCARD P.The distribution of the flora in the alpine zone[J].New Phytologist,1912,11(2):37-50.DOI:10.1111/j.1469-8137.1912.tb05611.x.
-
[18] 周志华.机器学习[M].北京:清华大学出版社,2016.
-
摘要
针对试飞故障问题数量大、内容多、无法高效利用其信息价值的问题,提出基于运行阶段、ATA章节号、故障文本和CAS、OMS信息的指标体系相似故障问题推荐方法。依据各指标特征,设计不同的相似度计算方法。此外,利用正则表达式,提出一种自动从故障文本描述中提取CAS信息和OMS信息的方法。最后通过实例验证相对于只选取运行阶段、ATA章节号和故障文本作为指标的推荐算法以及只使用TF-IDF方法的算法,本文所提算法在准确率上分别提高了25%和28%,在召回率上分别提高了约27%和31%,可以为相似试飞故障问题的推荐提供参考。
Abstract
In response to the problem of a large number of test flight fault problems and the inability to efficiently utilize their information value, a recommendation method for similar fault problems based on the index system of flight stages, ATA, fault text, CAS and OMS information was proposed. Similarity calculation methods were proposed for each indicator based on their characteristics. In addition, a method is proposed to automatically extract CAS and OMS information from fault text descriptions using regular expressions. Finally, an example was used to validate the recommendation algorithm that only selects flight stage, ATA, and faults text as indicators, as well as the algorithm that only uses TF-IDF method. The algorithm proposed in this article has improved 25% and 28% in accuracy, 27% and 31% in recall. It can provide reference for the recommendation of similar flight test fault problems.
Keywords
fault recommendation ; indicator system ; CAS-OMS information ; TF-IDF