普林科技CTO王储:大数据在金融领域的应用
(function(){
var cover = "http://mmbiz.qpic.cn/mmbiz/dcEP2tDMibcdOAOoNMEkiaY0Yzt3iaAU7sgGlU9OeE10HxNcDzmdJvNzIzobK3mQ7iaAS14x2jR3qWOfsTbLZBv1Yw/0?wx_fmt=jpeg";
var tempImg = document.createElement('img');
tempImg.setAttribute('class', 'rich_media_thumb');
tempImg.setAttribute('id', 'js_cover');
tempImg.setAttribute('data-backsrc', cover);
tempImg.setAttribute('src', cover);
tempImg.setAttribute('onerror', 'this.parentNode.removeChild(this)');
document.getElementById('media').appendChild(tempImg);
})();
本文原地址: http://xtecher.com/Website/Article/view?aid=100
普林科技是一家专业从事大数据建模与分析,为金融、移动运营商、交通物流、医疗卫生等相关领域客户提供服务的咨询服务公司。普林科技在北京、上海均设有办事处,并拥有位于美国普林斯顿的研发中心,公司核心成员均拥有世界顶尖高校教育背景及顶级大数据企业工作经历,涵盖国际应用数学、计算机和金融领域专家。基于大数据技术,普林科技为客户提供模型、算法和系统支持。自公司创立以来,我们基于大数据分析技术,在金融、运营商、交通物流和医疗卫生等领域都进行了相关的探索。下面我先简单列举一些我们做过的各领域的案例。
金融大数据领域案例:在2014年与Lending Club 的合作中,普林科技基于平台历史上的借款人背景信息和贷款数据,建立平台风控模型,帮助平台预测未来借款人的坏账概率并对借款人进行信用分级。基于2007年到2012年的历史贷款数据,普林科技建立了一整套提供信用分数评估,坏账概率预测和用户分级建议的大数据模型。在截止2014年7月的测试中,同比减少坏账率39.8%。
运营商大数据领域案例:在与某运营商的合作中,普林科技基于用户通信历史数据,地理位置信息,增值业务使用信息等一系列用户维度数据,建立起了一整套用户画像特征提取和业务导向建模的流程。在去年12月份的一次短信平台推荐测试中,普林科技构建的模型使得游戏广告推荐的转化率从0.1%提升到2.5%。同时,相应的ARPU值从20元提升到35元。
物流交通大数据领域案例:今年年初,普林科技联合北京大学,清华大学及中科院与北京交通信息中心合作,基于北京全部6万辆出租车GPS数据分析为北京路况交通做大数据分析。通过数据时序特性及空间特性上的跟踪挖掘,普林科技建立的车流量预测模型在实际测试中,预测未来30~45分钟车流量等指标的误差稳定保持在17.3%以内。
医疗大数据领域案例:2014年,普林科技与北京三家医院合作开展研究PCI术术前指标并构建对PCI术患者术后“无复流”现象的预测模型。在三个医院的患者样本上,普林科技构建的预测模型达到了84%的预测准确率。
我今天分享的主题是大数据技术在金融领域的应用案例。分享这个题目一方面是希望让更多人了解大数据技术究竟能够解决哪些问题,另一方面是想强调大数据技术在金融领域的重要性。
第一个案例是基于大数据技术的信贷风控模型。这里以P2P贷款公司Lending Club为例,介绍大数据技术究竟能为风控过程带来什么。Lending Club的运作模式想必大家已经熟悉。借款人向平台提出借款需求并提交个人信息,平台审批并将合格的借款需求公开发布,最后投资人将资金分散地借给上述借款人。
抛开借款人和投资人的开发和宣传等工作不谈,Lending Club要做好的一件核心的事情就是在借款人中筛选掉劣质高风险的人群,并把可放贷的人群划分为若干档位并给与对应利率。
在这个过程中,Lending Club可以使用的数据主包括三大部分:1.借款人基本信息,2.借款人信用报告,3.本次贷款情况。大数据技术首先要对各类数据进行规整化和特征提取,然后根据已有用户贷款数据学习各特征与坏账率之间的关系,建立相应的风控模型。在历史数据集上,普林科技优化了Lending Club之前的算法,准确率和稳定性大幅上升。
Lending Club将贷款用户分为七级,每级又分为五个子级,一共35级。普林科技的算法更加能够保证高级别的用户组对应较高的坏账率。
另一方面,用户分级应该具有稳定性,即不同时间点上同一个级别的贷款者的坏账率应该基本一致。普林科技的算法较Lending Club算法在稳定性上有显著提升。
国内的P2P信贷平台及类似的贷款机构往往可以掌握借款人更多的基本信息,例如住房数据、私家车数据、通讯数据、家庭成员数据等等。同时,各大电商拥有大量网购数据,各大app运营者拥有大量的移动互联网数据,各类社交网站拥有大量社交数据。更多的数据如果配合优秀的算法和模型,往往可以带来更好的风控效果,但是这对大数据技术本身带来了极大的挑战。专业的大数据技术的进驻在必要性上主要有如下这些:
A可利用的数据字段数量激增。如果我们的存量数据字段少,那么传统的风险评估手段就可以起到一定的作用。绝大多数银行、保险公司等金融机构都在采取这样的方法。随着大数据时代的到来,可以利用的字段多且繁杂,已经远远超出了基于经验的传统风控方法的能力范围。这时候能够应对激增数据字段的大数据分析建模技术将不可或缺。
B用户特征稀疏。举个简单例子,有些贷款者用过淘宝,有些则没用过。那么这两种用户放在一起去分析时,没用过淘宝的用户的数据就会出现大量空白。这样的稀疏性使得很多传统的风控手段失效,也成就了大数据技术进驻的必要性。
C风控目标多且繁杂。从风控的角度看,也许预测贷款个体(贷款人,小微企业等)的坏账概率是建模和数据分析的目标。但事实上,随着数据的大量积累,人们对于数据所产生的价值的期望也越来越“贪婪”。除了对坏账概率的预测,我们可能还希望知道逾期还款的可能、还款能力的评估、还款周期的定制、利率的评估等等。基于小数据和经验的传统风控方法针对大量、动态的风控目标需求是无能为力的,这也造就了大数据技术进入金融领域的必然性。
第二个案例是普林科技与某基金合作推动的项目:基于文本情绪与语义分析的股价指数。新闻媒体和社交网络里每天都充斥着大量与各家上市公司相关的新闻报道、评论等文本信息。虽然任何一条这样的信息与股价之间的关联是十分微弱的,我们仍可以通过大数据技术整合和挖掘这些微弱的关联,提供与股价走势相关的评估指数。
举个这方面的简单例子,如何通过一家上市公司员工的微博信息发掘这家上市公司未来的股价走势呢?这个过程大致需要三个步骤。
A文本数据结构化。对微博消息进行分词、词性标注、命名实体识别等分析。结合情绪词典、否定规则、转折规则、情感标签、标点符号等提取结构化的基本情绪特征(词语特征、标点符号特征、情感词特征、表情特征)。
B数据特征提取。利用大量的弱标注数据(情感标签),设计深度学习模型,学习微博常用词语、短语、句子的情感向量表示。得到微博消息的情感向量特征表示。
C公司情绪指数计算。根据提取的基本情绪特征和情感向量特征,训练情绪分类器。结合个体员工情绪,员工之间的关系网络结构,以及各种情绪的覆盖度等信息,生成整个公司的情绪分布指数。
第三个案例是有关隐私保护这个话题的。在各种金融模式发展爆棚的今天,人们没有太多精力去关注这个问题,但是随着这个领域的发展和体系的完善,隐私保护相关的问题就会逐渐显露出来。
现在金融信贷乃至其它各种领域对隐私的保护仅仅局限在简单的“脱敏”上。“脱敏”一般指的是抹掉姓名、电话、身份证号等信息,替换成无意义的代号或ID等。
《科学》杂志今年初推出了一套专刊讨论这方面的问题,其中一个有趣的研究结果是这样的:设想我们拥有一百万左右的人的信用卡消费信息,那么想在这一百万人里识别出一个个体,只需要知道这个人大约四次的消费记录,而且不需要太精确的信息,只需要消费的日期,消费的大致类别(餐饮/娱乐/超市等)和大致的金额区间。
为了能够保护隐私,我们需要对数据进行加密。一方面,我们要保证加密后的数据不再暴露隐私,另一方面,加密后的数据还需要保留其原有的价值,不能因为加密而导致数据贬值。普林科技的数据科学家一直在做这方面的研究,希望金融大数据行业在蓬勃发展的同时也能够健康发展。
★喜欢这篇文章?
欢迎转发至朋友圈或您的好友。
★对本文有想法?
回到首页,在“发送”栏输入观点。
长按该图片,扫描二维码,即可以一键关注本公众号。
欢迎加小编铁哥个人微信562763765