机器写作招标投标文件理念与方法
2019-11-25
作为招标投标活动的主要参与者,无论是招标人还是投标人都要进行大量的文字工作,传统采用的人工写作方式,即便是具有专业背景的职业人士,也要消耗大量的人力、物力成本,严重消耗了社会资源,而机器写作能够快速完成海量文本的智能化创作,一定程度上可以替代人力完成原创程度不高的一般性招投标文件的撰写,应用前景广阔。
一、引言
招标投标工作是一个复杂的脑力劳动过程,期间要产生大量的文字材料。比如,招标人要根据项目特征、设计标准和工期需求撰写招标文件,投标人要结合经营状况、承揽能力和投标意愿编写投标文件,这些文件的编写要耗费专业人士大量的时间、精力。但是,由于每一次项目的招标投标特征不同,对应产生的文本材料也不尽相同(基本属于一次性材料),因此这些文字成果既没有精雕细琢、反复酝酿的需求,也没有重复利用、长久保存的价值。简言之,这种人工写作方式的投入产出比严重不对称。
随着人工智能技术的发展,机器写作的出现为替代人工写作方式提供了有效的解决途径。
“机器写作”也可以称为“机器人写作”或者“智能写作”。其原理是机器把大量数据积累和聚合后,重新进行整理,通过监督学习/半监督学习(强制学习)方法,最终分类聚合成相应专业的文本。机器之所以能够写作,并且能够快速成稿,离不开人工智能知识图谱技术。知识图谱在庞大的数据基础上,能够构建一个相当完整、庞大的知识网络,使得所有的数据串联起来,当知识图谱应用到招标投标行业,便可以做到内容的抓取、聚合,从而进行内容的再生产。
二、国内机器写作应用的现状及其工作机制
目前,我国的机器写作主要用于新闻、资讯领域。例如Giiso资讯机器人,依托智能语义技术、知识图谱两大核心技术,具有编辑、写作、审核、个性化推荐、智能追踪五大功能,已有南方在线、深圳之窗等1000多家媒体在使用Giiso资讯机器人。
2015年9月,腾讯财经发表的署名为机器人Dreamwriter的一篇报道《8月CPI同比上涨2.0% 创12个月新高》引起了社会各界关注,由此拉开了国内新闻界机器人新闻写作的序幕。
2015年11月,新华社宣布“快笔小新”投入使用,这台机器可以快速完成体育、财经类新闻的自动写作。
里约奥运会上,机器人Xiaomingbot (张小明)首次露面,“张小明”的核心——写稿模块由北京大学计算机研究所万小军团队和今日头条媒体实验室联合研发。张小明在结合了最新的语言处理机器学习和视觉图像处理的技术之后,通过语法合成与排序完成新闻写作。
以上这些写稿机器人基本都采用大数据为基础的人工智能技术。这个处理过程是先将所得数据录入数据库中,再将这些数据按照语句出现频率和新闻关键词加以整合,制作出一个符合该媒体稿件风格的模板,随后带入具体的“who、where、when、what、why+how”新闻五要素,即可以生成一篇完整的新闻稿件。机器新闻写作遵循“提取数据—套用模板—生成稿件—人工把关”这一模式化的生产流程,可以在几秒甚至几毫秒内生产出一篇新闻报道。遗憾的是,至今在招标投标文件撰写过程中,未有机器写作参与其间,一方面固然是因为招标投标文件的撰写有特殊的行业要求和行文习惯,另一方面,与新闻稿件不同,招标投标文件内容的个性化需求多,不确定因素也较多,难以简单地由新闻类写作机器人担任复杂的写稿工作。
三、机器写作的优势和缺陷
机器写作相对于人工写作有着先天的成本优势。它依靠前沿的人工智能技术为支撑,拥有更快的速度和更高的效率,能大幅降低人工和成本。因此,机器写作的优势十分明显。
(1)创作效率高
机器写作突破了传统的创作模式,全程无人工编辑(包含少量的人工干预),机器自动生成,速度快,可以实现“秒出”文稿。
(2)素材库专业
利用机器学习(半监督学习)方法,将海量的招标投标文件作为写作素材“输入”机器知识库,素材专业,覆盖面广。
(3)文章质量好
从词语、句子乃至段落层面,做语义解析、训练模型和语言生成,并通过深度学习、强化学习等自动学习算法,及时形成知识积累,输出符合需求的文稿。
(4)适用性强
从发展水平来看,对于有固定写作模板,有一定行文规范的文稿,机器写作优势尤为明显,而招标投标文件恰恰符合这一原则。我国对于招标投标文件都有统一的示范文本可遵循,只要经过少量的监督学习过程,机器写作就能“执笔上阵”。
但是同样不可否认的是,机器写作也存在一些缺陷。
(1)语言生硬,行文单调
机器写作客观真实,不掺杂感情色彩,这既是优势,也是缺陷,特别是样本数量少、质量低的训练状况下,易停留在简单的信息和材料拼贴阶段,流水线机械化运作,没有感性思维,也没有感情色彩,难以创造“出彩”的优质文稿。
(2)监督学习过程艰难,原创性弱,存在一定的法律风险
机器写作的前提是要有优异的监督(或者半监督)学习训练,然而样本的选择、评价指标的选取都有一定的难度,这对机器学习产生了不小的阻碍。即便是受到了良好的学习训练,机器写作的原创性依然较弱,囫囵吞枣甚至生搬硬套是常见现象,一些错位的观点和分析可能会“跑偏”,造成方向性的差错;对他人观点和学习成果的直接引用,易造成侵权行为,带来法律问题。
从优势和缺陷两方面来分析,决定机器写作好坏的关键是机器学习的样本和训练方式,我们可以通过加大样本数量、改善监督学习方法和辅之以人工校验的办法来弥补缺陷,发挥其长处。
四、招标投标文件机器写作实现方法
中文语言的机器写作,核心技术是自然语言处理,同时涉及数据挖掘、机器学习、搜索技术、知识图谱等多项人工智能技术。自然语言处理(Natural Language Processing,简称NLP)是指机器理解并解释人类写作、说话方式的能力。目标是让计算机/机器在理解语言上像人类一样智能,最终能弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。
1.实现方法
NLP的机制涉及两个过程:自然语言理解(Natural Language Understanding,简称NLU)和自然语言生成(Natural Language Generation,简称NLG)。本质上,写作机器是一个自然语言生成系统,主要有三种实现方式:字典式、提取式和自然生成式。
(1)字典式
字典式是目前应用最广泛也是最容易实现的一种通行方法。
当前字典式的机器写作方法,主要是通过优化算法,智能选择不同的模板组合进行文稿生成。具体的实现过程包括:基于输入的知识点与模板库进行库内字典检索;利用优化算法进行智能模板筛选,确定最终使用的字典组合;基于筛选得到的字典组合生成文本。
以投标文件撰写为例,至少要通过五个步骤:建设样本数据库,基于数据库的机器学习,基于主题元素的具体写作,以及最后的机器审核和人工校验。
首先,投标人需要为写作机器构建一个内容丰富、具有海量数据的投标文件样本数据库,比如针对不同的工程项目专业特征建立全套的数据库,从项目概况、总投资、人员安排、施工组织、环境因素、气候条件、业绩优势数据等各个细分维度,对数据进行归类、整理,形成一个分类明晰、内容精准的数据样本库,成为机器自动生成投标文件的原料仓库。
在完成样本数据库建设的基础上,相关的大数据技术就会基于数据分析和算法设计,对于数据仓库中每一项数据所对应的写作模板进行学习和理解。基于字典的机器写作学习过程如下图所示。
比如市政道路工程施工项目,机器数据接收模块会在前期的学习过程中,去理解市政工程施工过程中的具体施工工艺,包含了场地平整、沟槽开挖、基层加固、面层摊铺以及侧平石铺筑等基础语料,写作机器会将这些关键的分部分项工艺进行合理拆装和有机组合,同时结合不同的地质水文条件及“三通一平”等外部因素特点,变成招标文件的内容表述样本数据库。
采用无监督自由学习方式生成的文字组合,内容会出现严重的差错,因此必须要求机器基于样本数据库中的文本内容进行大量的训练学习(一般采用半监督学习),最终使得机器的写作水平能够接近甚至达到标准投标文件的水平(利用评价指标进行泛化评价)。
字典式写作主要局限于具有通用要求的一般的投标文件的撰写,由于这类投标文件的文字结构相对固定(基本采用国家或省市推荐的示范文本撰写),对机器来说,写作难度并不大,但面对有个性化或者特殊需求的项目招标,机器写作的水平就难以保证了。
(2)提取式
投标文件的撰写方式选择上,还可以从海量的被专家已经认定为“优秀”的招标文件文本素材中直接提取重要篇章、段落,进行“有机拼装”,这也是一种常见的文稿生成方法。
一个典型的提取式自然语言生成场景是,基于提取式的文本自动摘要生成。它能够帮助投标人在短时间内从海量数据当中提取重要信息内容,生成核心摘要内容。
比如,当投标人通过关键词搜索“管道施工 基础换填”相关内容时,在投标文件的样本数据库推荐列表中,标题下会有一个对应的简短内容摘要呈现给投标人。通过浏览摘要的内容,就能大致了解整个投标文件的主要内容,并且帮助投标人对投标文件章节内容从相关性、新颖性、冗余程度等几个维度进行快速对比,从而最终确定“合适”的最优组合,形成最终的投标文件推荐文稿。
首先,搜索系统根据投标人意图从招标文件样本数据库中搜索出所有“管道施工 基础换填”有关的投标文件样本,先进行预处理,包括词、句和段落的处理,将投标文件打散并拆分成词、句、段的集合。
接下来基于一系列算法实现对于句子的重要性排序,根据句子长度、句子位置、关键词得分、是否包含标题词等,通过TextTeaser算法得出句子的重要性得分。比如“基坑支护”的短摘要中,必须看到摘要里面的内容都是跟“基坑开挖”或者“支护措施”保持相关性的内容,其他冗余信息均作为惩罚因子处置。
在求得句子的相关性基础上,通过引入惩罚因子集合,将句子的原创性、新颖性作为加权分值计入最终的排序当中。为了保证可读性,需要按照原文中的顺序,将排序之后的句子按原文顺序输出,在一定程度上保证语义上的连贯性。
(3)自然生成式
前面两种技术在新闻资讯领域的应用较为常见。而自然生成式,在现阶段尚无应用先例。
自然语言生成,主要指通过序列的深度学习和增强学习技术,根据现有文本生成模型,比如说机器会把数据库里某些更新的信息用自然语言的形式写成文稿。当然,这种文稿不需要特别深入的前期准备工作,也不需要去了解各个事件的详细背景,理论上可以由机器来完成。
我们注意到,市场上已经出现了一些基于人工智能技术的自主学习工具:例如,用写诗机器人tensorflow模仿李白的诗歌来做训练,就能生成李白飘逸灵动的诗歌语言;利用佛经做训练,模型也能生成类似佛教用语的句子来;还有基于TF利用RNN算法实现机器写歌词等。这类产品必须引入深度学习模型,基于大量文本集进行学习,然后自动生成一些比较接近于人类日常表达方式的成果。目前这种方式尚处于理论探讨阶段,虽然在少数领域取得了一些成绩,但是距离应用到生产实践中还有不少困难。
2.实例说明
笔者在经过比较后发现,字典式生成的文本过于呆滞,缺少灵活性和原创性,而自然生成式由于技术难度较大,且泛化程度难以控制,也较难应用到实践工作中,因此,提取式生成方法较为实用,下面就以该方法来撰写“沥青路面施工组织设计”为例,对采用提取式方法生成投标文件的机器写作过程进行简要说明。
第一步 分词
句子A : 沥青面层/施工/要/注意温度,也/要/注意/摊铺速度
句子B: 沥青面层/不/要/注意/摊铺速度,但是/施工/要/注意温度
第二步 识别、筛选
沥青面层、施工、要、确保温度、也要、注意、但是、摊铺速度。
第三步 计算词频(这里表示某个词在一个句子里出现的次数)
句子A: 沥青面层1、施工1、要2 、注意2、温度1、摊铺速度1、也1、但是0、不 0;
句子B: 沥青面层1、施工1、要2 、注意2、温度1、摊铺速度1、也0、但是1、不 1。
第四步 构造、比较词频向量
句子A [1 , 1 , 2 , 2 , 1 , 1 , 1 , 0 , 0]
句子B[1 , 1 , 2 , 2 , 1 , 1 , 0 , 1 , 1]
上面构造的是两个多维的向量,其中每个维度的值就是词频,所以计算相似度就是比较两个向量的相似度。两个向量的比较可以通过余弦定理来处理,其公式如下:
然后,可以通过python语言编写代码实现自动比较。其返回值为1,表明两个向量完全重合(夹角为0°),文本完全一致;如果返回值为0,则表明两个向量相互垂直(夹角为90°),文本完全不同。这样就以两个向量的夹角大小(0°~90°)表征文本的相似度。
第五步 特征选择
招标投标文本特征一般都是词语,具有语义信息,使用特征选择能够找出一个特征子集,其仍然可以保留语义信息,但通过特征提取找到的特征子空间,将会丢失部分语义信息。所以招标投标文本的特征选择主要依赖于示范文本、个人经验和专业知识。常见的特征选择方法主要有 DF、MI、IG、CHI、WLLR、WFO 六种。
笔者认为WFO(Weighted Frequency and Odds)方法比较适用于招标投标文本,机器在监督学习过程中,应当历遍样本训练集中的“沥青面层”“施工温度”“摊铺速度”等主要的特征向量,保证高频出现的词汇和类别比例。
第六步 模型训练
在特征向量选择好之后,接下来要做的事情就是模型训练,常用的有 KNN、SVM、Naive Bayes、决策树、GBDT、K-means等训练模型。一般可以选用最常用的分类决策树模型,它是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性(features),如例子中的“施工温度”“摊铺速度”,叶结点表示一个类(labels),如例子中的“沥青面层”。训练时既要注意防止过拟合(如将“沥青混凝土上面层施工”作为不合格样本舍弃),也要杜绝欠拟合(如将“混凝土施工”作为合格样本参与学习)问题,不断提高模型的泛化能力。
第七步 评价指标
训练好的模型,上线之前要对模型进行评估,目的是让模型对语料组合具备较好的泛化能力。主要的参考指标有:错误率、精度、准确率、精确度、召回率、F1 衡量等等。对于二分类问题,可将样本根据其真实类别与学习器预测类别的组合划分为真正例(True Positive)、假正例(False Positive)、真反例(True Negative)、假反例(False Negative)四种情形。有时候也可以采用ROC 曲线或者AUC 曲线指标,如果实际需要在多分类问题中用 ROC 曲线的话,一般先转化为多个“一对多”的问题。
笔者在实际应用中发现,无论采用哪种评价指标,都有可能无法满足既定的泛化目标,必须辅之以人工校验并进行手工调整。
第八步 上线应用
所谓上线应用就是提供服务或者将模型持久化。
第一种就是线下训练模型,然后将模型做线上部署,发布成接口服务以供业务系统使用。
第二种就是在线训练,在线训练完成之后把模型pickle 持久化,然后在线服务接口模板通过读取pickle而改变接口服务。
目前我国大部分地区招标投标活动均在电子交易系统内完成,显然采用线下训练、线上部署方式较为合适,南通市公共资源交易中心计划2019年推出“机器撰写招标文件”系统,解决人工写作效率低、差错率高等问题。
3.适用情形
应用机器写作方式完成招投标文书的撰写目前尚处于初级阶段,无论是现阶段机器写作的智能化水平还是招标项目本身不稳定特征要素的干扰,都决定了适用范围还是以结构化文本或者标准化标的物为主要应用对象。比如,通用型较强的,技术、工艺复杂程度不高的货物服务采购类项目;具有相对稳定项目特征的一般性工程建设项目等。简言之,项目特征可以模块化,招标需求可以标准化,文本撰写可以结构化的,都可以采用机器写作方式来实现招投标文书的自动化撰写。
五、结语
应该讲,自然语言生成,从学术领域的研究,到陆续有一些创新产品和项目应用于工业界,是一种巨大的进步,但仍有很长的路要走。目前机器写作毕竟还处在起步和初级阶段,在新闻、媒体方面的成功运用让人们看到了其潜藏的巨大价值。
对于招标投标行业而言,我国不少地方已经开展了“不见面开标”交易方式,制度性交易成本明显降低,而文稿写作成本也是企业经营成本和管理单位行政成本的重要组成部分,恰当地运用机器写作技术,可以极大地提高出稿效率,特别是对于大量通用性、一般型常规项目招标投标活动,必然极大地减轻工作负担,提升工作效率。
作者: 汤 骏
作者单位:南通市公共资源交易中心
来源:《招标采购管理》