MyException - 我的异常网
当前位置:我的异常网» 互联网 » 大咖 | 王汉生:从数据到价值的转化,回归分析的“

大咖 | 王汉生:从数据到价值的转化,回归分析的“说”与“术”

www.MyException.Cn  网友分享于:2013-12-18  浏览:0次
大咖 | 王汉生:从数据到价值的转化,回归分析的“道”与“术”

点击有惊喜

阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

 

学过统计学的同学们都知道一件事情,回归分析师数据分析的一个非常重要的模型方法。而且这些模型很可能是线性的、非线性的,也可能是参数的、非参数的,甚至是一元的、多元的,低维的、高维的,不尽相同。所以,把数据转化为价值,需要一个非常重要且精妙的思想方法:回归分析。

另外,这些都是在“术”的层面讨论回归分析。除了“术”,回归分析还有一个更高的“道”的层面。

回归分析的“道”

在这个层面,回归分析可以被抽象成为一种重要的思想。在这种思想的指引下,人们可以把一个业务问题定义成一个数据可分析问题。什么样的问题可以被看作数据可分析问题呢?只需要回答两点:第一,Y是什么;第二,X是什么。

Y,俗称因变量,即因为别人的改变而改变的变量。在实际应用中,Y刻画的是业务的核心诉求,是科学研究的关键问题。

举一个征信方面的例子。对于征信而言,业务的核心指标是什么?就是隔壁老王找我借钱,结果有两种:他还给我还是不还给我。如果还,定义老王的Y=0,这说明老王是好人;如果不还,定义老王的Y=1,这说明老王是坏人。这就是征信的核心业务诉求,即因变量Y。在这种情况下,因变量是一个取值为0-1的变量,俗称0-1变量。

2389abc8f35d10edf6ca4d54d944194219246bbd

而对于车险而言,业务的核心指标就是是否出险。比如隔壁老王买了我家车险,接下来12个月,他是否会出险呢?如果他出险,定义老王的Y=1,这说明老王是个马路杀手;如果他不出险,定义老王的Y=0,这说明老王是个天使。这种情况下,因变量Y又是一个取值为0-1的因变量。

f0f3e2312fed5a6994d12cbda6a7b03741f51b19

对于车险而言,还有一个核心的业务指标,就是赔付金额。也就是说,一旦出险,保险公司到底要赔多少。例如,老王、老李都买了我家车险,结果这两个客户都出险了。老王属于轻微刮蹭,保险公司赔付600元。那么,对于赔付金额这个业务指标而言,老王的因变量Y=600(元)。老李在高速公路上出了一次大车祸,人和车都伤得不轻,保险公司赔付60000元。那么,老李的因变量Y=60000(元)。这种情况下的因变量,即赔付金额,是一个连续的取值为正的因变量。如果再取一个对数,那么就是一个取值可以是正负无穷的、连续的因变量。

人类医学的一个重要使命就是攻克癌症,为此,科学家需要理解不同类型癌症的形成机制。隔壁老王,还有马路对面的老李,平时看起来身体都倍儿棒,吃嘛嘛香。可是,老王得了某种癌症,而老李没有。对于这个问题,老王的因变量Y=1,表示老王是个倒霉蛋;而老李的因变量Y=0,表示老李不是倒霉蛋。因此,这又是一个取值为0-1的变量。

af112d3e6a9d715be3b1643f3fe01ae2d3d80621

所以,我们可以得出结论:Y就是实际业务的核心诉求,或者科学研究的关键问题。

X是什么?

X就是用来解释Y的相关变量,可以是一个,也可以是很多个。我们通常把X称作解释性变量。回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。那么,X到底是什么样的?

对于征信而言,我们已经讨论了,Y=0或者1,表示隔壁老王是否还钱,这是业务的核心指标。当老王找我借钱的那个时刻,我并不知道老王将来是否会还钱,也就是说,我不知道老王的Y。怎么办?我只能通过当时能够看得到的,关于老王的X,去预测老王的Y。这种预测是否会100%准确呢?答:基本不可能。但是,希望能够做得比拍脑袋准确,这是非常有可能的。为此,我们需要寻找优质的X。

举一个例子,假设老王想找我借1万元现金,我得想想,他会还吗?此时,如果知道他家境富裕,房产价值几千万元,我就不会担心他不还钱。因为如果他不还钱,可以用他的房子进行抵押。这说明充足的实物资产,尤其是可以抵押的实物资产,是有可能极大地影响一个人的还钱行为的。如果这个业务分析是正确的,那么可以定义很多X,用于描述老王的财产情况。例如,X1表示是否有房;X2表示是否有车;X3表示是否有黄金首饰可以抵押,等等。这些X都是围绕老王的实物资产设定的。

除了实物资产,老王还有哪些特征有可能影响他的还钱行为呢?如果老王月工资收入10万元,那么还款1万元,不是小菜一碟吗?相反,如果老王月工资收入1000元,估计吃饭都有问题,哪来的钱还呢?这说明老王的收入可能同他的还款行为有相关关系。那么,是否可以构造一系列的X,用于描述老王的收入情况呢?例如,可以重新定义X1是老王的工资收入;X2是老王的股票收入;X3是老王太太的收入,等等。于是,朴素的业务直觉又引导产生了一系列新的X变量,它们都是围绕老王的收入设定的。

除了实物资产、收入,老王还有什么值钱的呢?有,老王有自己在社交圈中的尊严。就像电影《老炮儿》里面的顽主六爷那样,面子老大了,不会为了万把块钱去赖账,然后让街坊邻居、同事朋友都笑话,丢不起那人。如果老王是一个这样的人,那他的还款意愿会很强烈。这个朴素的业务直觉说明,一个人的社交圈即他的社交资产是可以影响他的还款行为的。如果这个直觉是对的,那么哪些指标能刻画一个人的社交资产呢?例如,定义X1是老王的微信好友数量;X2是他的微博好友数量;X3是他的电话本上的好友数量;X4是他的QQ好友数量,等等。又可以生成一系列新的X变量,它们都是围绕老王的社交资产设定的。

由此可以看出,对于征信这个业务问题而言,简单地进行头脑风暴,就产生了许多X变量。所以,依赖于人们的想象力以及数据采集能力,可以产生成千上万,甚至上百万、上千万个X变量。有了X,也就有了Y。至此,回归分析“道”的使命已经完成,因为一个业务问题已经被定义成数据可分析问题。

回归分析的“术”

接下来,从“术”的层面探讨,回归分析还要完成什么使命。一般而言,至少对于参数化的线性回归模型来说,它要完成三个重要的使命。

使命1:回归分析要去识别并判断,哪些X变量是同Y真的相关,哪些不是。而那些不相关的X变量会被抛弃,不会被纳入最后的预测模型。因为不干活的人多了会捣蛋,即没有用的X不会提高Y的预测精度,而且会狠狠地捣蛋,拉后腿,所以必须抛弃。关于这方面的统计学论述很多,以至于统计学中有一个非常重要的领域,叫做“变量选择”。

使命2:有用的X变量同Y的相关关系是正的还是负的。也就是说,要把一个大概的方向判断出来。例如,对于老王的借贷还款行为而言,老王的股票收入同他的还款行为可能性是正相关,还是负相关?如果是正相关,那么老王的股票收入越高,还款能力越强,我越敢借钱给他;如果是负相关,那么老王的股票收入越高,说明他赌性越大,我越不敢借钱给他。

使命3:赋予不同X不同的权重,也就是不同的回归系数,进而可以知道不同变量之间的相对重要性。例如,老王、老李都找我借钱。老王每月基本工资X1=1(万元),但是股票收入X2=0。老李恰恰相反,没有基本工资,因此X1=0,但是每个月股票收入X2=1(万元)。请问哪一个还款能力更强?请注意,他们的月总收入都是1万元。但他们的还款能力恐怕是不同的。此时,如果我们能够通过数据建模,赋予X1和X2不同的权重,也就是不同的回归系数,这个问题就容易回答了。

这就是回归分析要完成的三个使命:识别重要变量;判断相关性的方向;估计权重(回归系数)。

简单总结一下。什么是回归分析?从“道”的层面而言,回归分析就是一种把业务问题定义成一个数据可分析问题的重要思想。而从“术”的层面,回归分析要完成三个重要的使命。

再举一个例子,有一次参观一家世界500强的制造企业,对方意识到,数据之于企业非常重要。因此,集团特意成立了大数据部门,购买了几百台高性能服务器,并配备所有需要的存储、软硬件环境,以及人才。

然后,数据部门的老大非常骄傲地介绍他们这个部门计算机有多牛,做了哪些有趣的分析。但是,从熊大的角度看,这些分析都是趣味性很大,可没有朴素的业务价值。

熊大终于忍不住问了一个问题:“请问,咱们大数据部门,在集团内部主要支持哪些业务部门?”对方腰板一挺,大声回答:“所有业务部门!”

大家觉得可信吗?反正我不信。企业这么大,实话实说,一定有大量的甚至大多数业务部门同数据无关,至少现在是这样。就在这时,旁边的一个业务部门的老大忍不住了,说:“不对啊,我们就觉得你们对我们支持不够!没什么支持啊!”数据部门老大很生气:“你提需求啊!只要你提需求,我都能帮你搞定。”结果业务部门老大一脸懵圈:“我提不出需求啊。”

这是一个非常典型的问题。业务部门就是数据部门的客户,可是,客户只知道自己需要数据分析支持,但是提不出需求。为什么?大家还记得回归分析的理念吗?即从道的层面帮助我们把业务问题定义为数据可分析问题。而业务部门的绝大多数人员没有受过这样的训练,因此,无法洞见自己正在操心的业务问题,其实是数据可分析的。为此,他只需要把Y定义清楚,给一些关于X的想法,剩下的事情,数据分析的小伙伴们就可以全力以赴了。

所以,从这个角度看,数据之于企业的价值,最需要被普及教育的,不是数据分析部门,而是业务部门。当然,数据分析部门也需要。只有全员都具备朴素的数据价值观,都使用同一种回归分析的语言,需求才有可能被说清楚。

 

 

点击有惊喜

文章评论

聊聊HTTPS和SSL/TLS协议
聊聊HTTPS和SSL/TLS协议
亲爱的项目经理,我恨你
亲爱的项目经理,我恨你
团队中“技术大拿”并非越多越好
团队中“技术大拿”并非越多越好
5款最佳正则表达式编辑调试器
5款最佳正则表达式编辑调试器
程序员的一天:一寸光阴一寸金
程序员的一天:一寸光阴一寸金
Java程序员必看电影
Java程序员必看电影
“懒”出效率是程序员的美德
“懒”出效率是程序员的美德
Java 与 .NET 的平台发展之争
Java 与 .NET 的平台发展之争
2013年美国开发者薪资调查报告
2013年美国开发者薪资调查报告
程序员和编码员之间的区别
程序员和编码员之间的区别
老程序员的下场
老程序员的下场
 程序员的样子
程序员的样子
代码女神横空出世
代码女神横空出世
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
程序员眼里IE浏览器是什么样的
程序员眼里IE浏览器是什么样的
程序员周末都喜欢做什么?
程序员周末都喜欢做什么?
我的丈夫是个程序员
我的丈夫是个程序员
我跳槽是因为他们的显示器更大
我跳槽是因为他们的显示器更大
Web开发者需具备的8个好习惯
Web开发者需具备的8个好习惯
我是如何打败拖延症的
我是如何打败拖延症的
写给自己也写给你 自己到底该何去何从
写给自己也写给你 自己到底该何去何从
编程语言是女人
编程语言是女人
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
每天工作4小时的程序员
每天工作4小时的程序员
总结2014中国互联网十大段子
总结2014中国互联网十大段子
什么才是优秀的用户界面设计
什么才是优秀的用户界面设计
程序员应该关注的一些事儿
程序员应该关注的一些事儿
10个帮程序员减压放松的网站
10个帮程序员减压放松的网站
旅行,写作,编程
旅行,写作,编程
老美怎么看待阿里赴美上市
老美怎么看待阿里赴美上市
鲜为人知的编程真相
鲜为人知的编程真相
“肮脏的”IT工作排行榜
“肮脏的”IT工作排行榜
为什么程序员都是夜猫子
为什么程序员都是夜猫子
看13位CEO、创始人和高管如何提高工作效率
看13位CEO、创始人和高管如何提高工作效率
为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
那些争议最大的编程观点
那些争议最大的编程观点
那些性感的让人尖叫的程序员
那些性感的让人尖叫的程序员
60个开发者不容错过的免费资源库
60个开发者不容错过的免费资源库
如何区分一个程序员是“老手“还是“新手“?
如何区分一个程序员是“老手“还是“新手“?
程序猿的崛起——Growth Hacker
程序猿的崛起——Growth Hacker
Google伦敦新总部 犹如星级庄园
Google伦敦新总部 犹如星级庄园
程序员最害怕的5件事 你中招了吗?
程序员最害怕的5件事 你中招了吗?
2013年中国软件开发者薪资调查报告
2013年中国软件开发者薪资调查报告
中美印日四国程序员比较
中美印日四国程序员比较
程序员的鄙视链
程序员的鄙视链
十大编程算法助程序员走上高手之路
十大编程算法助程序员走上高手之路
漫画:程序员的工作
漫画:程序员的工作
如何成为一名黑客
如何成为一名黑客
做程序猿的老婆应该注意的一些事情
做程序猿的老婆应该注意的一些事情
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有