国家能源招标网大数据落地方法论
2022-04-19
编者按:自2012年涂子沛的《大数据》一书出版以来,大数据概念逐渐深入人心,各行各业都跃跃欲试。可喜的是随着《“互联网+招标采购”2017—2019行动方案》的推进,越来越多的招标投标行业从业者积极探索和研究大数据的应用。国家能源招标网建成的大数据平台,在实际业务中发挥了重要的作用,取得了良好效果。在建设过程中不断思考总结,形成了一套方法论。为了共同推动招标投标行业的蓬勃发展,促进大数据在招标投标行业的落地,本文分享大数据落地方面的一些经验,供业内人士参考交流。
2019 年11月,前瞻产业研究院发布了《2019年中国大数据行业研究报告》。报告称,目前大数据已从概念落到实地,在精准营销、智慧医疗、影视娱乐、金融、教育、体育、安防等领域均有大量应用。为了了解大数据在招标投标行业的落地情况,深入研究大数据技术与招标投标业务的结合点,笔者使用“招标”和“大数据”两个关键词在中国知网上进行了文献检索,共找出110条有价值的结果(见图1)。
从上图不难看出,文献发表情况基本上与“大数据”概念的热度走势相符。习近平总书记在中共中央政治局第二次集体学习时强调实施国家大数据战略加快建设数字中国之后,发表文献的数量快速增长并达到峰值。截至2020年9月,发表文献的数量跌回2015年的水平。笔者认为,可能存在三个方面的原因:一是新冠肺炎疫情导致发表文章的意愿下降;二是“大数据”的热度已经被新的热点取代,如区块链和人工智能;三是仍未找到大数据在招标投标行业落地的法门。相比较而言,笔者认为第三种可能是更为主要的原因。因为,大数据在一个新的领域落地确实非常困难。
随着云计算、物联网、移动互联网、5G等新基建快速发展,未来大数据将拥有更为广阔的应用空间。为此,作为招标投标行业的从业者,不能畏惧困难、裹足不前,有必要与志同道合之士共同攻坚克难,促成大数据在招标投标行业的落地,促进行业健康发展。要以大数据作为经济创新发展的新动能,充分发挥信息化驱动引领作用。
一、大数据落地之难
眼看大数据在精准营销、金融、教育等行业红红火火、开花结果,令人羡慕。看别人长袖善舞时总觉得易如反掌,但具体在招标投标行业落地时,却感到不知所措,这也许是大多数招标投标从业人员,面对大数据时的感受。经过广泛的调研和深入的思考,笔者认为大数据落地之难,难在以下三个方面。
1. 对大数据缺乏深入研究
很多人在谈及大数据的时候,其实并未深入思考过“大数据”到底是什么,简单地将“大数据”与“大的数据”等同起来。事实上,它们在英语里的表述是有很大区别的。我们通常所说的“大数据”在英文中是Big Data。若是仅仅为了体现规模之大,用Large Data或者Huge Data可能会更胜一筹。显然,Big Data中的Big是指更加宽泛意义上的大,而绝非仅仅是指容量超过一定阈值。有些人认为只有达到PB(=1024TB=1048576GB=1125899906842624Bytes)级才有资格称为大数据,但这个认识是片面的。更切合实际的理解是利用传统手段难以处理的数据。“难以处理”的原因既可能是数据量太大,增长速度过快,也可能是类型过于复杂。“大数据”的“大”在于,可分析使用的数据范围不断延展,数据量不断增大,通过数据融合可以发现新知识、创造新价值。
任何一项技术、一个人或者一个组织都有其能力圈。对能力圈之内的事情可能会做得很好,但是对超出能力圈之外的事就可能无法胜任。在用大数据之前必须要弄清楚大数据可以做什么,不可以做什么,自己能否驾驭数据技术。目前,大数据技术在自然语言处理(NLP)、图像识别、语音识别、实时计算、关联发现、交叉验证等方面的应用已经较为成熟,但在人工智能和知识工程等方面的高级应用还比较薄弱。所以不能指望大数据解决所有问题。
从实际情况来看,大数据技术可以比较明确地为我们带来两方面价值:一是处理以前处理不了的数据;二是信息的交叉验证。需要注意的是,收集信息也不是越多越好,要和处理能力相匹配。即使掌握了大数据技术,也不可能处理所有信息。毕竟任何一个组织的资源都是有限的,处理信息是有成本的,而且在某些时候这个成本还不低。所以需要一方面根据需求迫切程度筛选数据范围,另一方面按先后次序排列待处理的数据。
还有一个问题需要重视,大数据是一套技术体系,并非一个完整的解决方案,更不是一个现成的产品,不能认为找一个厂商买个产品就可以作好大数据。
2. 对目标和需求认识不足
大数据系统与运营管理系统不同,并非“刚需”,是否使用大数据都不影响正常开展业务。所以在初期阶段,业务部门可能并不会躬身入局、全身心投入,深入思考如何建好、用好大数据,难以找到大数据和实际业务的结合点。
事实上,很多机构一是没弄清自己到底要解决什么问题,二是没有弄清大数据到底能带来什么价值,只是为了蹭热点、赶时髦匆忙上线大数据项目,其结果自然可想而知。因此,在建设大数据系统时,必须要以目标为导向,要弄清楚希望通过大数据技术来解决哪些问题,这些问题能否通过大数据技术得到解决。
在寻找大数据与业务相结合的点时,须以解决问题为导向,即以实际业务中确实存在且有必要解决的问题为突破口,尝试设计包含大数据技术的解决方案。对招标人或招标代理机构而言,提升质量和效率是永恒的主题,不妨以此为突破口,开启大数据之路。
3. 没有形成实操层面的学习交流机制
从检索到的文献不难看出,在招标投标行业大数据方面,尚未形成有效的学习交流机制。一方面公开发表的文献数量不多,另一方面可供借鉴的实践经验更少。也许是因为大数据在招标投标行业的应用还处于摸索阶段,又或者已经有成熟的经验但并未公开分享。
希望能够以此文推动建立招标投标行业大数据实操层面的学习交流机制,特别是在中国招标投标协会电子招标采购专业委员会的主导下,建立长期稳定的技术交流和经验分享机制,共同推动和促进招标投标行业的数字化转型和智能发展。
二、国家能源招标网的落地策略
国家能源招标网的大数据系统在上线平稳运行近一年后顺利通过验收。回顾建设过程,上文所述的每一个问题都没有落下。虽然只是个案,但是也具有一定的普遍意义,大体上能够反映小到一个机构、大到一个行业,在大数据落地过程中可能面临的处境。
国家能源招标网在筹备和建设大数据系统的过程中,采取了截然不同的两种策略。
1. 筹备阶段的“小范围试错”策略
早在大数据浪潮席卷全国的2017年,国家能源招标网(原神华招标网)就专门安排技术和业务人员,学习NLP技术和Python语言,关注和跟踪大数据技术的发展趋势,特别是大数据技术在不同行业实际落地的情况。在持续关注和学习的过程中,始终按捺住跃跃欲试的冲动,没有正式启动大数据系统建设项目的立项工作,而是完全依靠自身技术力量小范围“试错”。经过公司领导、业务和技术人员的反复讨论,最终确定以提升公告质量为目标,以解决26个具体的质量问题为切入点,使用NLP技术和Python语言自主开发公告自检服务。
项目经理在电子招标投标交易平台(下文简称交易平台)上编辑完招标公告后,提交审批时,交易平台自动调用公告自检服务。公告自检服务逐项检查公告中是否存在任何一项质量问题,并向交易平台返回检查结果。
若不存在质量问题,则反馈“通过”。交易平台将继续完成后续业务逻辑,完全不打扰项目经理;若存在严重质量问题,则反馈“不通过”。交易平台提示项目经理错误原因并要求修正相关错误后重新提交;若可能存在质量问题,则反馈“预警”。交易平台提示项目经理预警原因,项目经理可以选择修正公告或者继续提交。若项目经理选择不加修正地继续提交,在审批流程的每一环节都将进行预警。
2018 年9月,公告自检服务正式上线。上线当日,有数十个招标公告被打回订正。上线一周后,困扰多年的公告质量问题基本消除。经过这次“试错”,国家能源招标网尝到了甜头,不仅对大数据有了切身体会,而且更加认识到了大数据技术的威力和价值。
公告自检服务的上线,标志国家能源招标网对大数据技术的理解和应用达到了一个新的层次,建设大数据系统的时机已到。
为了建好大数据系统,国家能源招标网采取“走出去、请进来”的策略,一方面广泛调研相关技术厂商组织深入的技术交流,另一方面邀请大学教授、大数据企业技术负责人到公司,面向全体员工开讲大数据技术和应用案例,帮助大家开启大数据视野,培养大数据思维。
经过近一年的学习、试验、宣贯和筹备,2019年大数据系统建设项目在天时、地利、人和齐备的情况下正式启动。尽管在筹备阶段“做足”准备,但在建设阶段仍然碰到了许多困难。
2. 建设阶段的“先胜而后求战”策略
筹备及项目初期,碰到的最大的问题是如何管理大家的心理预期,为项目设定切实可行的目标,圈定相对合理的需求范围,即明确项目的边界和实施路线图。在经过一段时间的反复徘徊,最终定下了“先胜而后求战”的策略。首先将总体目标根据难易程度进行细分,然后按照从易到难的顺序分步实现小目标,最终完成整个项目的总体目标。对于尚无把握的需求和技术,暂时搁置。以此确保项目的建设过程是从一个胜利到下一个胜利。从总体上讲,大数据项目的建设过程大致分为“从0到1”“单点突破”和“赋能业务”三个阶段。
阶段一:从0到1,脚踏实地定目标。
经过前期近一年的调研、交流、学习和思考,广大员工对“大数据”都寄予厚望,提出了许多需求。面对这些汹涌而来的需求,项目组一时间不知所措。为了确保成功,最终将最初级目标锁定在“激活数据资产”上。所谓“激活数据资产”就是指使用大数据技术处理加工以往业务中产生后但无法有效利用的结构化和非结构化数据。具体包括:项目信息、投标人信息、招标人信息、评标专家信息、招标文件、投标文件、澄清、评标报告、公示、公告、造价成果文件、价格信息等。通过NLP和图像识别等大数据技术,收集、清洗、转换和处理这些数据,形成企业级专有垂直搜索引擎。最终,让需要数据的人可以轻松找到数据。
为了提高搜索的准确性,专门自主研发了新词发现算法,形成了包含超过170000个工业专有词汇的词库。为了提高搜索的便捷性和实用性,自主研发了招标资格要求、招标文件范本等推荐算法。该算法可以根据搜索关键词向用户推荐最合适的招标资格条件和相关范本。
阶段二:单点突破,以质量提升为切入点,围绕具体问题修炼内功。
在完成垂直搜索引擎的基础上,以质量提升为突破口,集中力量解决招标文件、澄清、评标报告、造价和工程咨询成果等文件中存在的质量问题。以历次质量检查中反映出来的具体问题为抓手,结合建设公告自检服务过程中积累的经验,设计开发文件自检服务。依据业务管理部门梳理的检查事项和规则,检查每一份文件,确保所有文件都达到质量标准。检查规则分为形式检查和内容检查两大类。形式检查主要聚焦于文件的格式和完整性;内容检查则聚焦于文件内容的正确性。跟公告自检服务一样,文件自检服务上线之后,也取得了良好的效果。文件自检服务的建设,使技术和业务人员对NLP技术的认识和理解更上一层楼。特别是对Word、Excel、PDF等常见文件的解析、数据抽取和转换等具体技术的应用水平达到了一个新的层次。
阶段三:赋能业务,以知识图谱为抓手,让知识推理防范业务风险。
在初步掌握数据采集技术之后,工作重点开始向数据处理和数据融合转移。首先通过分词、命名实体识别(NER | NamedEntity Recognition)等技术,将非结构化的数据结构化。然后,深入挖掘数据之间的关系。最后,以概念、实体及关联关系构建专有知识图谱。为了充分发挥大数据交叉验证的优势,除了深入挖掘内部数据,还需要采购外部合法数据,并将内外部数据融入一张知识图谱中。基于知识图谱,运用图论计算方法建设具有价值的业务服务。如将投标人在投标过程中产生的数据与其工商注册和失信处置等信息融合后放入知识图谱,然后在知识图谱之上建设投标人关系筛查服务,瞬间检测一组投标人之间是否存在关联关系。
交易平台在开标之后,会将投标人名单提交给该服务。专家在进入评标系统的时候,系统就会自动提示风险,如投标人之间有无关联关系、投标人是否被失信处置等。知识图谱的构建,不仅为防范业务风险找到了新的抓手,而且为未来的智能化发展奠定了良好的基础。
3. 实施效果
大数据系统与交易平台无缝集成,日均为交易平台提供服务2000余次。大数据系统上线之后,不仅满足了业务人员的数据获取需求,而且更大幅提升了招标文件、评标报告、造价成果等文件的质量。招标业务过程中,交易平台自动调用大数据服务进行风险筛查,一旦发现风险会立即中止业务流程并提醒业务人员。如投标人和专家注册审核、购标、开标、评标、定标等节点都会自动调用大数据服务进行风险筛查。大数据系统上线以来,准确预警了多起围标、串标事件,及时消除业务风险。
三、结论
大数据这个概念起源于20世纪80年代的美国,自2015年开始逐步在全国形成热潮,并于2019年开始因被其他热点取代而“退烧”。恰恰因为业界对热炒“大数据”逐渐失去了兴趣,才给各个行业致力于大数据落地的有志之士腾出了足够的空间,让他们有环境思考和研究大数据与本行业的结合点,有时间寻找真正的突破口。在国家能源招标网看来,探索大数据在招标行业的落地之路,与业界同道分享践行大数据发展战略的经验,在招标投标交易网络生态系统中做好本职工作,是我们义不容辞的责任。希望国家能源招标网大数据落地的方法和经验,能够为行业提供一些参考和借鉴。
作者:陈 建
作者单位:中国神华国际工程有限公司
来源:《招标采购管理》2021年第10期