大数据与互联网金融讲座系列简报之二

发布日期:2016-06-13 10:18    来源:北京大学国家发展研究院

杨凯生:互联网金融的问题部分源自对大数据的认识偏差

——大数据与互联网金融讲座系列简报之二

简报2016年第016期(总第1259期)

 

背景介绍:2016年4月28日,作为第55次【朗润•格政】活动,大数据与互联网金融讲座暨北大互联网金融发展指数(第二期)发布会在北京大学国家发展研究院朗润园举行。我们将分两期期简报报告本次会议。本次简报报告北大互联网金融研究中心特约高级研究员、中国工商银行原行长杨凯生的演讲内容。

版权声明:未经允许,请勿全文刊发或转载本简报。如希望全文刊发或转载本简报,请联系tangjie@nsd.pku.edu.cn,并经主讲人本人审阅。

 

2013年被称为中国的互联网金融元年。在那时候,我就认为不能简单的把互联网金融看作是金融创新的唯一代表。今天互联网金融出了不少问题,我觉得也不应该把金融风险全部归咎于它。

前不久有关部门出台了《关于互联网金融风险专项整治的实施方案》,整治内容包括第三方支付、P2P网贷、股权众筹、互联网保险、投资理财、互联网跨界资管甚至互联网广告等。总的看来,人们对整治互联网金融基本上都是赞成的,一些不同的意见似乎也只是在整治方法、整治力度上面。和两三年前相比,政府部门、监管机构、专家学者、社会公众、媒体舆论,也包括从业人员,对互联网金融的理解都有了新的提高。这是我国互联网金融下一步规范发展的重要前提,是促进我国互联网金融健康成长的重要基础。

前段时间互联网金融之所以出现了一些问题,除了法规不够健全、监管不够有力、行业自律比较薄弱、投资者教育有所欠缺等等原因之外,还有一个原因是我们对互联网、对大数据的理解和认识存在着偏差。

现在常说我们处于互联网时代、处于大数据时代,应该有互联网思维、大数据思维。互联网思维被诠释成共享、普惠、开放、包容、高效、去中心化等等。因此有关互联网金融的一些概念,比如说P2P网贷,股权众筹等等,就被从哲学、从社会学的高度来总结和升华,认为它们代表了互联网思维。

这些说法有一定的道理,但是我们似乎没有注意到所谓的互联网思维和大数据思维还有另一层含义。互联网时代、大数据时代为社会进步和经济发展创造了新的条件,同时也提出了更高的要求,赋予了更多的约束,需要处理好碎片化的信息和完整性的数据之间的关系,需要处理好结构性的数据和非结构性的数据之间的关系。作为企业,还要处理好客户的个性化意识和社会化的共同需求的关系。在这些关系中,忽略了哪一个方面都是不行的。

 

一、大数据未必名副其实

近期一些从事互联网金融业务的公司,尤其一些P2P网贷公司,频频出现失败的案例。其中一部分属于蓄意行骗,但多数可能还是因为没有搞清楚究竟什么是大数据,没有掌握好数据的挖掘技术、建模技术和评估技术,过分高估自己的数据处理能力,并且普遍存在急功近利的倾向。这些问题并不仅仅是技术问题,实际在相当程度上也是思想方法和认识方法的问题。

例如有些人经常以为自己拥有了某一方面的大数据,但他没有仔细的想一下所掌握的数据究竟是全量的,还仅仅只是可及的。如果是可及数据,就应该再问一下这是全部的可及数据,还是部分的可及数据。如果是部分的可及数据,就要问有没有可能得到全部的可及数据。如果得到的是部分的可及数据,那就需要知道样本范围是怎么确定的、方法是否科学合理。一个思想方法上的误区在于,把在一个样本范围内得出的结论就等同于对某一个事物的规律性的认识。事实上在一个样本范围内得到的结论,既使是正确的结论,也不一定能够简单的外推。

一些互联网企业刚刚开张,往往宣传自己运用大数据技术来控制风险。实际上,互联网企业所能够做的是把自己客户群的一些行为数据保留下来。这些数据不是总体数据,也不是一个具有充分代表性的随机样本,由此得出的结论也是经不起推敲的。这些公司拥有的数据究竟能不能用、应该怎么样用于风险识别和管控,并没有经过认真的可行性研究,也没有经过反复验证的风险计量模型和科学有效的数据分析技术。建模、数据分析、数据挖掘等都是专门的学问,都需要下硬工夫来学习,并不是有了一两台服务器、招了几个人就具备了大数据的研究分析能力。巴塞尔III要求银行业机构积累的客户违约概率和违约损失率的数据必须长于五年,而却还要经过严格的数据清洗。这就是为了避免因为数据的缺陷而导致的失误。

信用风险的评价要借用大量的模型。但在经济生活中,由于客户的个性差异非常大,仅靠模型是远远不够的,有时还需要借助必要的专家判断。工商银行在利用计算机系统审批贷款时,建立了模型并设置了阈值,采用的规则是高分段自动接受、低分段自动拒绝、中分段结合机器识别以及必要的人工干预。这个方法的原理就在于人不能成为机器的奴隶,因为机器和模型都是要为我所用、为人服务的。有些互联网金融企业在媒体上宣传,他们的贷款审批发放都是在瞬间完成的。如果所有的贷款都这么发放,那么互联网金融企业的风险管控的有效性就值得考量。

 

二、不能轻视对于小数据的开发和利用

至今为止并没有关于什么是大数据和什么是小数据的权威统一的定义。大数据和小数据的主要区别不是数据量,当然过小的数据难以称之为大数据。大数据的重要特征在于它既包括结构性的数据,也包括那些在生成的时候表现为非结构性数据的信息。小数据主要是指传统的二维结构性的数据。应该说大数据有大数据的长处和不足,小数据有小数据的欠缺和优势。

传统的小数据有比较成熟的数据分析的理论和方法,其数据挖掘技术也早就成型了。相比之下,大数据特别是非结构性数据的采集、挖掘、使用,到今天为止其管理理论和分析方法都还处在一种快速发展的一个阶段,还没有十分的成型。

大数据有一个很大的特点,就是随着数据量的急剧增加,其中的数据噪音也会有很快的增长,而且有的时候数据噪音的增长幅度还快于数据量的增长幅度,因此大数据的挖掘、筛选、清洗的成本比小数据要大得多。

大数据通常反映的是事物的相关关系,而小数据往往得出的是事物的因果关系。在很多情况下,相关关系并不能简单的代替因果关系。小数据可以抽取事物的最核心、最基本的内容。和大数据相比,小数据的单位信息容量更大。

比如说银行的数据经常是二维的、以会计为基础的小数据,反映了交易活动的最核心内容和最终结果。但是客户进行这个交易的决策过程、行为路径,在传统的小数据中就反映不出来,而这些方面是大数据的优势。

由于大数据和小数据各有各的特点、各有各的长处和不足,简单的肯定一个、否定另一个恐怕不是科学的作法。只有把它们融合起来,把小数据方法的完备性、准确性与大数据分析的多维性、及时性融合起来,才能给管理工作带来质的飞跃。

身处互联网时代、大数据时代,我们只有学会客观的看待数据、审慎的选择方法,才能从这个复杂的社会中提炼出比较有价值的结论。也只有这样,我们才能说自己具备了互联网思维和大数据思维。

(唐杰 编辑)