基于深度学习的招标标准知识库构建研究
2022-04-06
编者按 :本文提出了一种基于深度学习的招标标准知识库构建方法。该方法运用自然语言处理技术对国家法律、企业制度进行分析和理解,提取其中的知识点;用知识图谱技术对知识点进行存储和组织,形成标准知识库;利用该标准知识库对招标文件范本进行自动审核和建议,建议结果的文本相似度超过75%,从而验证了标准知识库的有效性。
为完善招标文件编制规则,国家发展改革委联合九部委共同编制了《标准设备采购招标文件》等5个标准招标文件,依法必须进行招标项目的招标人需在此基础上编制招标文件。中国神华国际工程有限公司(以下简称工程公司)以标准招标文件为基础,结合国家法律、集团制度规定的内容编制了招标文件范本(以下简称范本),并且将范本作为招标文件的编制规范基础。但目前编制范本所参考的文件尚未结构化存储,无法快速检索,导致人工编制范本占用大量的专家资源,耗费人力物力。
本文通过对工程公司现有招标数据的分析,并结合专家编制范本的经验,提出基于深度学习的招标标准知识库构建方法,旨在利用技术手段为知识库在招标领域的研究应用提供理论和实践经验,解决编制范本耗时耗力的痛点,同时确保范本合规合法。
一、相关工作和技术
自然语言处理技术和知识图谱技术发展日趋成熟,使得机器对文件的理解和分析能力进一步提升,加速将非结构化的数据转变为结构化的知识,为建立招标领域标准知识库提供了有效的技术支撑条件。
当前知识库已广泛应用于各个领域。从2012年起,中国石油天然气集团有限公司开始进行招标投标知识库研究,以提高招标文件编制效率,使即使是非专业招标人也能在其指导下高效地完成工作。2016年,北京市高级人民法院对法律知识库进行了研究,其核心数据是以司法审判、司法行政等文件构建的法律知识库,可以提取历史案件的特征,并与新案件自动配对,自动生成裁判文书,极大地提高了司法人员工作效率。
这些案例为我们构建招标领域标准知识库提供了思路和信心。本文对招标领域的国家法律、企业制度进行研究,借鉴专家编制招标文件范本的思路,深入分析文件间的逻辑关系,并从文件中提取知识点,形成招标标准知识库。
二、招标文件编制问题描述
招标文件编制是招标活动的重要环节。目前编制招标文件主要面临两个问题,一是国家标准招标文件的发布规范了招标市场,但局限于其通用性,无法满足集团制度等专用规定,专家需要根据公司要求编制范本,费时费力;二是招标文件的合规性目前主要由专家检查,缺乏系统管理手段,人工检查容易出现条款遗漏和数值错误问题。
以上问题可通过建立标准知识库进行解决。在编制招标文件时,通过选择基于标准知识库创建的范本文件,可以保证招标文件避免发生法律规范条款遗漏的问题。基于标准知识库的招标文件合规性检查,可以有效地解决人工检查容易遗漏和出错的问题,已成为招标文件质量保证的新手段。
关于标准知识库的构建方法,我们针对招标领域定义了知识点和标准知识库两种类别。知识点是为求解某个问题,经过推理而形成特定答案的条目,由属性名(Key)和属性值(Value)构成。 标准知识库是将标准招标文件、国家法律、企业制度文件提取知识点后,进行结构化存储,是知识点的集合,也是管理和组织知识点的仓库。
三、方案实现
(一)方案概括介绍
本方案基于深度学习技术构建知识点提取模型,从非结构化的数据中提取知识点,构建标准知识库。知识点作为标准知识库的基础单元,通过属性名和属性值进行表示。
要构建一个知识点提取模型,首先需要解析标准招标文件、国家法律、集团规定等文件内容,对文件内容按语句拆分。然后挑选部分语句进行标注,这些标注数据是训练知识提取模型的数据集。最后通过命名实体识别、实体消歧和实体关系抽取技术对知识点提取模型进行训练(见图1)。
(二)知识点提取模型
1. 命名实体识别
本文主要利用AttBi-LSTM模型和CRF识别文件中的实体。
通过命名实体识别对当前语句进行实体定位,并对已定位的实体分类为预先定义的类别。选取标准招标文件、国家法律文件、集团规定文件的内容作为语料库,对各类文件的部分语句进行预训练(见图2)。
(1)数据标注。在本实验中,模型训练集的标签是每个字向量对应标注的类别标号,标注标签的分类一共有四类,即KEY、R、VALUE和O。其中KEY表示知识点属性名;R表示知识点属性名和属性值的关联词;VALUE表示知识点属性值;O表示非核心实体,可以忽略不处理。例如针对“招标有效期为90天。”这个语句,标注结果为“招标有效期/KEY 为/R 90天 /VALUE 。/O”。
(2)命名实体识别语言模型构建。首先,在预训练部分,将待训练的文本序列进行文本向量化,将其每个字转换为对应的有特定意义的固定长度的向量;再将处理好的词向量序列输入Bi-LSTM,提取文本双向长距离依赖特征;然后利用Attention机制抽取输入序列和输出序列之间的关联性,根据重要度算法获取语句特征;最后用线性CRF层处理标签之间的状态关系,得到全局最优标注序列。
例如:针对“招标代理机构为中国神华国际工程有限公司。”语句,处理结果为[<“招标代理机构”,“KEY”>,<“为”,“R”>, <“中国神华国际工程有限公司”,“VALUE”>]。
2. 实体消歧
主流的实体消歧思路是使用待消歧的指称上下文同标准知识库的候选实体向量进行结合,构建深度排序模型,从而实现实体消歧,其中实体向量是使用实体知识描述进行离线训练得到的。
本文通过实体消歧将文件中识别出的实体链接到其在标准知识库中的相应实体,其对应着自然语言中的一词多义。例如<“招标代理机构”, “招标机构”>,<“投标资质”,“投标资格”>(见图3)。
3. 实体关系抽取
本文将知识点之间的关系描述为三元组<E1,R,E2>,其中E1和E2表示为知识点,R表示为知识点间的关联关系。实体关系抽取的主要目的是从语句中识别出知识点并提取它们之间的关系。
本文采用实体关系抽取的方法,语句经过命名实体识别、实体链接、关系触发词识别3个预处理过程,将判定为知识点的数据存储在数据库中(见图4)。
4 .知识点提取算法
本文采用基于深度学习的知识库迭代自增式扩展算法进行知识点提取。 通过对招标领域的部分语料进行标注,构建知识点基础数据集, 每个知识点对应属性名和属性值。算法自动发现标准知识库中已有的属性名和属性值的特性,然后不断识别新的知识点并更新标准知识库。
迭代自增式扩展算法是针对标准知识库不断更新知识点的算法,该方法以卷积神经网络为基础,设计了噪声检测模型,能够准确地识别噪声。首先给出招标领域的一个初始标准知识库,其中包含项目名称、招标代理机构、招标机构、招标方式、资金来源等属性名和属性值。最终从招标领域文件语料中识别更多的知识点,得到一个扩充的标准知识库(图5)。
5 .知识库存储
本文使用图形数据库Neo4j存储知识点。Neo4j在保存知识点的同时,也保存了不同知识点之间的关联关系。通过这类关系,为后面的实体消歧、知识融合提供数据支持(见图6)。
四、实验结果
(一)实验设计
1. 实验目标
训练一个知识点提取模型,从标准招标文件、国家法律文件、集团规定文件中提取知识点并构建一个标准知识库,最终通过生成范本的文本相似度验证标准知识库的有效性。
2. 实验数据
本文从工程公司提供的9个国家标准招标文件、7个工程公司实用化母本,6个国家法律、5个工程公司管理制度提取数据,构建知识库(见图7)。
3. 实验方法
对部分标准招标文件、国家法律文件、集团规范和制度文件的知识点进行标注。将包含知识点的语句作为正样例数据,不包含知识点的语句作为负样例。通过输入正负样例语料,训练知识点提取模型。
(1)输入文件结构化。对输入的文件进行结构化处理。解析文件中的章节目录信息,表格信息、正文信息。章节目录信息按树状结构化处理,并确保段落正文都能关联到正确的章节目录。最后对所有的段落正文以语句为单元进行拆分,并标记对应的下标值。
(2)标注数据。首先将文件中的数据拆分成语句,从而得到一个语句集合。然后对拆分后的语句进行标注,将能够标注出知识点的语句标记为正样例数据,将未能标注出知识点的语句标记为负样例数据。
(3)构建标准知识库。将正样例数据和负样例数据作为输入数据,按照本文所述构建知识点提取模型的步骤训练知识点提取模型。训练完成后,通过调用知识点提取模型,以标准招标文件、国家法律文件、集团规定文件的文本集合内容作为输入,提取知识点数据,构建标准知识库。
(4)关键指标。通过文本相似度(Acc)来衡量生成范本的质量。文本相似度的分母是机器自动生成范本的语句条目数A,分子是条目数A中能够在专家编制的实用化母本条目数B中找到的相似条目数。
(二)实验结果及分析
为验证所构建标准知识库的可行性和有效性,本文对提取的知识点进行多次分批抽查,以验证结果。
1. 实验结果分析
从文件中提取的知识点数据统计见表1。通过对提取的知识点数据进行分析,标准招标文件和国家法律文件提取的知识点准确率最高。因为相对于集团规定文件,标准招标文件、国家法律文件的文件格式和内容更加规整(见表2)。
2 .验证方法有效性
经过人工对生成的范本进行验证,文件相似度均超过预定的70%的指标,证明本文所述方法构建的知识点提取模型切实可行(见表3)。
3. 分析方法待提高的部分
(1)通过提升知识点标注数量提升模型精度。随着知识点标注数量的增加,模型精度会有所提高。
(2)通过人工反馈的方式完善模型基础数据。对提取不正确的知识点及未能提取的知识点进行人工反馈,将正确的知识点数据反馈给模型,使模型拥有自主学习的能力。
五、结论
本文提出一种基于深度学习的招标领域标准知识库构建方法。该方法通过建立一个知识点提取模型,从文件中实现知识提取,并且能够通过人工标注和反馈不断优化模型。实验结果表明,该方法可有效提取知识点,基于标准知识库对范本内容进行自动审核和建议,建议结果的文本相似度超过75%,验证了标准知识库的有效性。除范本生成外,标准知识库还可以应用于合规检查、文本审核、文件对比等业务场景。
作者:王进强 卢 爽
作者单位:中国神华国际工程有限公司
来源:《招标采购管理》2021年第9期