扫码关注官方微信公众号

韩涛:大数据支撑信用监管失信风险预警应用模式初探|《产业转型研究》专刊报道

2022-06-30


导 读

《产业转型研究》专刊前四期刊物在发行后收获了强烈反响,得到了产业界的一致好评。日前,《产业转型研究》专刊第五期刊物已正式刊发。本公众号会对《产业转型研究》专刊第五期中所收录文章进行持续报道,欢迎各位读者关注。

本文为国家公共信用信息中心工程师、博士韩涛发表于《产业转型研究》专刊 2022 年第 5 期 总第 333 期的文章,特此分享,以飨读者。


《产业转型研究》专刊第五期


大数据支撑信用监管失信风险预警应用模式初探

文/韩涛

国家公共信用信息中心工程师、博士

社会信用体系建设是落实“放管服”改革、提升社会治理水平的系统性工程,也是优化营商环境、推动高质量发展的重要抓手。自 2014 年 6 月 14 日国务院出台《社会信用体系建设规划纲要(2014-2020年)》以来,在党和国家的高度重视下,以推进政务诚信、商务诚信、社会诚信和司法公信四大重点领域诚信建设为核心的社会信用体系建设蹄疾步稳,信用法规制度建设有序推进;统一社会信用代码实现全覆盖,实现“一照一码走天下”;信用信息共享水平显著提高,信用承诺和告知承诺制广泛应用,大幅度缩短审批时间;支撑中小企业融资服务,信用贷款规模明显增加。

我国社会信用体系建设工作取得积极成效,为进一步发挥信用在创新监管机制、提高监管能力和水平方面的基础性作用,更好激发市场主体活力,推动高质量发展,提供了有力支撑。2019 年 7 月,国务院办公厅颁发《国务院办公厅关于加快推进社会信用体系建设构建以信用为基础的新型监管机制的指导意见》(国办发〔2019〕35号),指出“充分利用国家‘互联网+监管’等系统建立风险预判预警机制,及早发现防范苗头性和跨行业跨区域风险。运用大数据主动发现和识别违法违规线索,有效防范危害公共利益和群众生命财产安全的违法违规行为”。可见,社会信用体系建设正在推动传统监管方式向新型监管方式转变。

在大数据技术支撑下有效推进信用监管,有利于维护市场主体的合法权益,符合创新社会治理的发展要求,对构建诚实信用的和谐社会和优化营商环境具有重要意义。本文围绕信用监管中失信风险预警的具体应用场景,通过分析当前存在的问题与深层次原因,从技术层面提出了利用大数据技术支撑失信风险预警的有效路径。

当前失信风险预警存在的问题

我国社会经济发展正处在复杂多变的国内外环境中:中美贸易战持续升温、美元处于全球外汇市场强势地位、原油等大宗商品价格大幅波动……特别是随着新冠肺炎疫情的全球暴发,对于国内各行业,尤其是旅游、餐饮、娱乐、出行、零售等产生了严重冲击,深刻影响着社会经济的发展,也为传统的信用监管模式带来前所未有的挑战。

后疫情时代下,传统信用监管模式下的失信风险预警暴露出诸多问题,具体表现为以下三个方面。一是庞大的市场主体规模与风险预警范围不匹配。据国家市场监管总局的公开数据显示,截至 2020 年底,全国登记在册的市场主体已达到 1.38 亿户,其中个体工商户 9287 万余户、农民专业合作社 222 万余户,仅 2020 年新登记市场主体就有 2502 万余户。当前多数行业失信风险监测和预警重点集中在守信主体和严重失信主体,但对于信用状况处于中间水平的庞大市场主体以公示、通报等传统方式监管为主,与全面构建以信用为基础的新型监管机制的要求存在差距。二是精准化风险预警需求与复杂的市场环境不匹配。随着新兴商事主体大量涌现,市场环境也随之呈现主体庞大、关系复杂、难以追踪等特征。通过常规监管手段已难以定位日趋复杂的风险源,监管靶向性弱,不同程度上存在监管被动、滞后、粗放等痛点。然而,部分职能部门对于公共信用数据报送数据项不全导致数据失真的问题一直存在,各类信用数据归集缺乏全面性、准确性,无法满足目前精准化风险预警的需求。三是线上新业态的不断涌现与以线下为主的风险预警模式不匹配。随着互联网的不断发展,各类经济社会活动呈现线上化、虚拟化趋势,诞生了各种“新业态”,导致线上线下均涌现了大量新型监管和风险预警需求,传统模式与手段已经难以应对层出不穷的“新业态”问题,无法适应当前经济、社会发展的需要。

产生上述问题的根本原因,主要是在法律法规标准层面,相关法律法规和标准规范体系尚不健全;在数据归集共享层面,归集共享工作机制尚不完善;在数据治理层面,信用信息的标准化整合尚不全面;在数据应用层面,信用信息数据应用尚不充分。

01 信用信息归集共享相关法规标准体系尚不健全

党的十九届四中全会提出,数据是新型生产要素,并对培育数据要素市场作出部署要求。信用数据作为一类典型的大数据,对于支撑市场监管、公共服务、风险防范等具有重要作用。尽管近年来我国出台了《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等一系列规范数据要素市场环境的法律法规,但信用领域尚缺乏专项法律约束。一方面,各方面针对市场主体活动相关信息记录应纳入信用信息归集的范围,尚未形成共识。另一方面,各单位对于数据共享应用的范围在具体的实践中尚未达成统一。

02 信用信息数据归集共享机制尚不完善

由于市场主体信用信息数据采集、管理等机制尚不完善,信用信息归集缺乏全面性,更新缺乏及时性。同时,因主管机构分散,以及跨地域数据尚未实现完全共享等现实问题,导致“信息壁垒”现象普遍存在,相关数据信息共享不充分,已分散采集的数据难以集中汇聚,无法有效整合应用。此外,社会机构、企业掌握的大量信用信息在数据共享互通上也存在不足。

03 信用信息的标准化整合尚不全面

近年来,在网络购物、共享经济、微商等新业态、新模式下蓬勃兴起了大量具有鲜明“互联网+”特征的市场主体,其行为产生的数据表现形式多样,数据存储情况复杂,有效数据中往往夹杂大量的噪音数据,导致现有的数据治理手段不能很好地整合数据。具体表现在:一是大量信息以文本、图片、视频等多种方式展现,传统的数据处理手段难以处理新型异构数据;二是相关数据量极大且对数据处理的时效性要求极高,传统的数据治理技术在处理数据规模和速度上能力尚显不足;三是在互联网时代,相关数据中通常掺杂着大量无效的数据,对数据清洗效率和准确性提出了更高要求。

04 信用信息数据应用尚不充分

部分部门对大数据、互联网等技术缺乏认识,对信用信息深度分析挖掘和根据不同场景创新应用存在不足,在主动利用大数据进行分析和深度挖掘信用信息方面有待深入,利用客观数据辅助决策开展失信风险预警。甚至有的部门还存在传统监管模式中形成的等待上级命令,被动开展工作等情况。大数据、互联网等技术在加强信用监管方面的作用仍需充分发挥,应用场景仍有待进一步拓展和丰富。

构建大数据支撑失信风险预警模式

针对存在的问题,大数据支撑下信用监管失信风险预警模式,从实现步骤来看,主要分为数据归集、数据治理和数据分析三个阶段。在数据归集层面,支撑政务数据与社会数据充分对接应用。利用大数据采集工具,构建政务数据和社会数据平台化对接机制,可为信用监管提供多源数据支持,将数据源扩大至各部委、新闻媒体、行业协会、信用网站、信用服务机构、微信、微博等互联网渠道,丰富数据资源种类和数量。在数据治理层面,支撑信用数据资源高质、高效、标准化整合。利用大数据分布式管理、政务云存储、异构数据结构化等技术,打破传统数据存储、数据清洗加工、数据关联比对、标准化处理、数据质量评估等环节的局限,满足海量数据综合治理需求,为信用信息分析应用提供重要支撑。在业务应用层面,支撑深层次挖掘多维度信用信息,满足不同应用场景的需求。通过失信主体画像、指标体系设计、信用状态迁徙动态监测、风险预警建模、知识图谱搭建等大数据技术,可满足监测、预警、评价、分析等不同应用场景的需求,实现对失信主体的精准识别和监管。

失信风险预警需要落地在业务应用场景上,因此重点探讨实现大数据支撑失信风险预警的三种模式:主体信息挖掘、时间维度挖掘、风险概率预测。


01 大数据支撑信用主体信息挖掘,令失信主体无处遁形

由于不同的信用主体具有不同的特性,对于信用主体信息的挖掘需要通过大数据技术,从海量的信用数据中分析和挖掘信用主体、关系、事件和特征。然后,通过对信用主体及其行为进行分类,按照行业、区域、领域、重点关注群体的失信守信情况可以进一步探究信用主体风险的原因及风险组成。

主要实施路径为

① 确立监测预警信用主体,整合抽取多源异构数据。对不同类型机构的异构数据源进行数据归一、特征挖掘与指标计算,根据监测预警需求对主体信息进行识别和挖掘,从而对不同类别的失信主体及失信行为特征与指标进行归类统计。这些数据主要包括互联网公开数据、授权第三方数据、政务公开数据等,如企业工商信息、处罚信息、投融资信息、招投标信息、招聘信息、舆情信息、诉讼信息、年报信息、专利信息、开票信息等。这些不同的数据代表着成千上万个风险变量,可根据需求不定期变更监测策略。

② 构建全量标签学习模型,标记市场主体标签信息。通过预设标签直接标记类标签、自主选择指标设定阈值类标签、算法自动学习各类主体标签等方式,为每个市场主体打上属性、信用、经营等各个维度标签。当查询该主体信用信息时,即可看到该主体被标记的正面和负面信用标签,如“资金流动频繁”、“关联结构复杂”“企业欠税风险”“知识产权多”“法律诉讼风险高”“频繁变更”“欠税风险高”等,实现对相关风险的个性化提示。

③ 开展信用主体分类分析,多维展示风险传导范围。通过从不同维度对市场主体进行特征挖掘,实现全方位动态展示主体画像,分析风险传导范围及影响度。一是行业聚类分析与风险提示。通过对市场主体经营范围等内容进行大数据特征挖掘和聚类,实现精准行业分类,并分析不同行业领域主体的失信特征。二是地区分布与风险对比分析。主要实施路径是提取市场主体地域信息和信用信息,用于分析区域协同发展在信用方面的特征表现,如京津冀、粤港澳、长江经济带等。三是时序相关性分析。通过跨时段对比市场主体的风险信息,得到主体触碰风险预警值的概率变化情况,对不同行业、不同地区市场主体的失信风险状况进行动态研判,从而进一步分析政策及监管背景下特定主体及失信行为的治理效果。

02 大数据支撑信用状态实时监测,构建时间多维度、多层次风险预警体系

通过对守信行为和失信行为的挖掘分析,构建区域、行业、领域、特定群体以及信用主体等不同对象的信用状态的失信风险预警模型,实时捕捉信用事件、监测信用状况和迁徙。

主要实施路径如下

① 通过即时状态监测预警,精准识别高风险市场主体。一是建设以“预警+分层管理”为核心的风险管理体系,对信用主体在信用状况分层分类的基础上进行管理,并对不同主体设置多元风险处置手段和提供解决方案。二是通过建立即时状态风险预警模型,实现了对高风险市场主体的精准识别。首先是进行指标构造,根据指标业务特点将指标构建为“当前”类或“新增”类。其次是设定预警阈值,结合专家判断及业内经验,确定该类指标的预警阈值。最后是生成预警信号,不同预警阈值将对应不同预警级别,在信用状态发生改变时即刻触发相应级别的预警信号。

② 搭建信用关联分析图谱,深度挖掘市场主体关联风险。通过大数据技术,深度挖掘市场主体关联关系,全面实现了隐形和深度关联方和关联关系的探查,大大提升了风险预警的前瞻性。从关系类别来看,隐藏关联关系主要包括:交易关系、亲属关系、合作关系、担保关系、控制关系、同联关系【同联关系,即相同联系方式。代表了企业间的紧密相关性,是进行“壳公司”调查的重要线索。通过大数据算法,可对全国工商注册企业的联系方式进行匹配,精准识别出强关联的企业团簇。】股权关系、历史投融资、借贷关系、竞争关系等,并按关联关系紧密性和层级范围分为一度、二度、三度和四度关联。从具体实施层面来看,一是多源异构抽取关联关系。基于海量异构数据,采用自然语言处理技术实现关联关系抽取和整理。在此基础上,对市场主体的多层关联网络进行融合,精准构建涵盖历史信息的多源关联网络。二是大数据关联图谱构建和可视化表达。基于大数据算法,实现对关联路径的深度解析,构建企业间的多米诺风险网络,生成关联图谱,并进行实时、动态、多维的可视化呈现。

③ 实施专项行为监测预警,深度挖掘企业重点领域风险。通过人工智能、机器学习等技术处理结构化及非结构化大数据,从多来源的不同结构的数据中提取高相关性风险因子,构建可量化的行业特征风险模型,搭建基于大数据的失信风险预警平台,实现提前预警潜在风险事件和风险企业,并实时掌握企业风险动态,协助查询、分析和研判风险。例如,利用大数据技术打击非法集资专项行动中,全国已有多个地区通过深度挖掘非法集资疑似企业的关联要素数据、投资区域、投资领域、资金去向,构建非法集资风险识别模型,生成能够反映企业非法集资风险疑似度和活跃度的风险分数,对线上和线下非法金融行为进行实时监控,提高风险识别和量化的精准度。

④ 开展信用状态迁徙监测,实时捕捉信用状况劣变迹象。在监管领域,通常需要从有限的数据中第一时间锁定在当前时间或未来某个时间点前变成“坏”状态的目标,在其劣变前作出预测或者在其触发劣变指标时第一时间发出预警信号。在实施过程中,通过对信用行为的挖掘分析,构建针对不同对象的信用状态的监测分析和信用风险预警模型,实现对特定监测对象的信用状况劣变迹象的实时捕捉。

⑤ 监测信用领域舆论状况,实现信用舆情预警推送。通过大数据爬虫与储存技术,抓取并储存微博、微信、新闻、论坛、博客等互联网传播渠道中信用相关舆情数据,发现识别信用主体相关的敏感舆情,并从话题热度、舆论基调、传播趋势、网民期待等多个维度自动生成舆情报告。从实施方式看,主要从信用服务机构舆情监测预警、信用热点话题监测预警、信用工作敏感舆情监测预警等模块展开监测,主要分析维度为舆情热度与影响度、舆情传播趋势、传播地区分布、舆论情绪分布、舆论发布来源分布、热点话题关注占比、热点舆情排名等。针对特定专题的舆情设置预警规则,当新增舆情信息中包含自动预警对象或超出预警阈值时,自动推送有关舆情信息。

03 大数据支撑信用状况动态评估,构建主体违法违规概率模型

基于主体的历史行为,对主体当前现状进行客观评价,并预测其未来一年守信的概率或劣变的概率。

实施企业违规概率预测的主要实施路径为:通过大数据技术构建企业行为违规预测模型,将已违规的企业黑名单根据违规距今的时间进行分类,挑选与违规相关的特征指标并使用余弦相似度算法对任意一家企业与历史归属类别进行判别,得到判别概率,基于该判别概率并考虑时间衰减等相关因素的影响对企业的违规概率进行综合加权评分,得到企业的违规发生概率等级。模型构建流程为指标池构建、指标 WOE(Weight of Evidence)分箱、模块内逻辑回归、模块间遗传算法,信用预测评分模型效果分析主要从指标分箱 IV(Information Value)值分析、模块逻辑回归效果分析实现。例如,分析借贷违约失信行为概率,需提取出企业所对应的裁判文书中案由包含相关关键词的数据,如“金融”“借贷”“借款”“债务”“债券”“追偿权”“典当”,且案件结果为“部分胜诉”或者“原告胜诉”(即被告败诉),从企业基本信息、企业信用表现、关联方规模和结构、关联方信用水平四个维度搭建指标体系,用于预测违约概率。

内容来源|《产业转型研究》2022年第五期 总第333期

编辑|段文秀

审核、责编|杨帆