腾讯分分彩组三杀号 > 数据挖掘 >

大数据挖掘前景不言而喻

2018-07-21 12:34

  作为美国三大征信所之一,Equifax公司存储着所有美国成年人以及另外16个国家公民的财务数据,其中包括全球5亿个消费者和8100万家企业。这些信息可谓是五花八门:哪些人在共享同一电话号码或地址、牙齿治疗贷款的申请、杂志订阅、租赁历史记录、房地产资产、投资理财、购买零售商品、纳税申报单类型、婚姻状况、就业状况、水电费缴付、有线电视账户、犯罪记录、债务收入比、地址更改、机动车档案、邮政信箱、推断某人能否支付账单、预测某人的支付意向,与过去和潜在的欺诈犯罪有无关系等。

  这些看起来杂乱无章的海量信息,经过交叉分析和索引处理后,变成26 PB的数据。这个数字已经超过了美国联邦调查局的调查数据仓库(据说是联邦调查局最庞大的数据存储库)的10亿份不重复文档。难怪Equifax CIO Dave Webb说:“我们对每个人的了解远远超乎他们自己的想象。”

  Webb的话暗示了数据信息的力量,他主张利用Equifax存储的海量数据开发利润更丰厚的产品和服务。

  Equifax在过去几年中,相继推出了大批基于大数据的新产品,这些产品旨在实现两个目标:为4.6万家企业客户降低风险,以及促进营销。

  目前,三大征信所中其他两家,益百利(Experian)和美国环联(Transunion ),也在向数据分析转型。三者在竞争中不断推出以大量消费者信息为卖点的新产品,并宣称自己的数据更广泛、独特。Webb说:“这是对手快速跟随的行业,速度和创新是两大决定性的竞争优势。”

  2010年,Webb从硅谷银行金融集团转投Equifax。Equifax给他的任务是,运用他在运营和IT方面的背景,结合金融行业的专长,为Equifax发掘新的收入来源。“刚来的时候,让我吃惊的是,公司很少在数据挖掘方面发现机会。”Webb对此既兴奋又疑惑。

  此后,Equifax接连推出了69个新产品,涉及风险管理、身份验证、欺诈检测、决策分析和市场营销等领域。

  Equifax综合数据解决方案部门高级副总裁David Brooks表示,其中一款新产品可以帮助企业应用分析技术避免不良客户。据了解,Equifax的开发人员在这款产品中结合消费者个人信用评分和水电费支付历史记录而建立新的分析模型。分析结果将帮银行决定,是否值得花时间去争取那个信用卡支付曾到期未付的客户。

  Equifax还有一款新产品可以用来实时监测信用报告查询的系统,以及时发现犯罪苗头。Equifax综合数据解决方案部门副总裁Keith Manthey说:“骗子发现有效的行骗手段后,就会迅速共享和使用。该系统可以对查询速度及其他因素进行评分来判断这项申请是否为骗子所为。”[page]打破IT传统

  Webb一直在加大力度开发Equifax的数据分析和协作功能,他带领1000人规模的IT小组对大数据进行了大胆研究:“如果数据的使用寿命是2至15年,我们必须充分利用这段时间,而从现在IT小组取得的成绩来看,Equifax无疑已经通过技术创新获得了市场竞争优势。”

  2011年,Equifax收购了一家商业智能工具公司和工作流软件开发商。事实上,在过去的5年中,Equifax共斥资17亿美元收购了多家数据收集和技术公司。这与Equifax在成立之初50年,一直采用纸张分类账的做法大相迳庭。

  对海量数据的分析挖掘工作需要付出大量的IT成本。以往,拥有大量数据的公司需要建立大型数据仓库,并在大规模并行处理系统上运行。Brooks表示,建立大型数据仓库所需硬件成本太高,另外关系型数据库的架构也阻碍了对非结构化数据的查询。因此,Equifax存储和检索数据的方式一反传统,它并没有将这项工作视做处理查询,而是将它视做交付内容,将数据分布在低成本服务器集群上,由IT部门开发专有的分布式检索技术来查找信息。

  Brooks说:“由于我们对数据量、交易查询量和响应时间的要求都很高,因此,我们一直小心谨慎,以免盲目跟随行业标准的做法。业内的传统做法需要建设庞大而复杂的基础设施,但如果换个角度考虑,其实这些基础设施建设就变得没有必要。”

  目前,Equifax的数据专家要花时间对从公共和私人来源整合而来的数据进行重复数据删除和清洁处理,但他们不会一味地要求一个消费者只有惟一的一份信息。“上下文更重要。”他说,“实际上,他们是对的。现在,我们更多地考虑观察结果,而不是所谓的事实。”

  挖掘宝贵信息的一个常用方法是,对数据集进行混合搭配,寻找其中关系。例如,单身女性的百货商店签账卡的信用额度是否表明了她们有租赁汽车的意向?这种看似不着边际的尝试也许为营销人员带来非常有用的结果。

  益百利最近发现,使用社交媒体的成年人比其他互联网用户更愿意逛星巴克。因此,星巴克或与之竞争的咖啡店可能希望在Facebook上加大广告投放力度。

  在Equifax看来,宝贵信息有时还来自高管的灵光乍现。2011年春,CNN报道了一则关于涉案价值达50万美元的信用卡欺诈的新闻。新闻称,两兄弟与贝弗利山一家牙科诊所的雇员密谋,捏造了数百名的病人信息。他们伪造病人姓名、社会保障号码及其他个人数据,然后由诊所雇员向假病人发放牙齿治疗贷款。之后,该雇员再将贷款和虚假支付记录上报给益百利,以Garnik Dumanov和Grisha Stpanov之类的姓名建立了信用历史记录。

  Brooks、Manthey及其他同事进一步详细了解了这起欺诈案件,从Equifax的众多记录中调阅相关数据(不仅仅是信用报告)。然后,他们开始测试分析信息的新方法,以期获得他们已经知道属实的结果:比如,Stpanov之流不可能真有其人。

  Brooks说:“正常人会在许多方面留下痕迹,但虚构的人不会。”拥有有效身份信息的人即便没有信用记录,通常也会因缴付话费或订阅杂志等原因出现在其他一些文件中。而虚构的人则会在申领到信贷额度后会“人间蒸发”。最终,这种逆向分析促成了新的欺诈检测工具,Equifax的安全团队可以与客户一起使用该检测工具。

  一年多来,三大征信所接到了来自美国银行、富国银行及另外19家银行关于采用诸如此类虚假身份申请信用卡的查询请求,银行看到良好的信用评分后才予以审批。另外,移动运营商和汽车经销商在办理新手机账户和提交客户购车贷款前也都要先查询这三大征信所的消费者信用数据。[page]财务报告之外

  2010年出台的《多德-弗兰克华尔街改革和消费者保护法案》要求金融机构对不良贷款负更大的责任。Webb表示,金融专家们评估抵押贷款风险时意识到,简单的信用评分无法为银行决定该不该批准为大额贷款提供足够信息。

  Equifax迅速推出了未公开债务监测(Undisclosed Debt Monitoring)服务,这项服务用来监测借款人从抵押贷款获审批到截止日期这段时间内的主要支出情况。例如,借款人可能因在抵押贷款获批后办理汽车贷款,从而改变借款人的还款风险评估状况,这将超出银行为其抵押贷款交易而设定的条件。

  此外,Equifax还将这种技术融入到了创收产品中,以适应完全不同的情况。比如,实时的身份验证有助于电信公司避免遭到欺诈。Equifax可以为电信公司证实用户是否确有其人,此前是否一直按时缴纳手机账单。经过这样的身份验证,电信公司就可以放心地将手机卖给用户。

  电信公司还可以向Equifax购买市场营销服务。Equifax可以告诉电信公司,相应指定用户的财富评分是否够高,在夏季是否有开支很大的习惯,在使用社交媒体方面是否很积极。电信公司依此情况,可以采用向上销售手段,向用户推销售价更高的手机,如果用户随后又介绍了两个社交媒体朋友与电信公司签约,用户的数据服务方案还可以打折。

  “当客户与商家接触时,这种向上销售的效果最好。”Webb介绍道,“但商家在几星期后给客户邮寄小册子,甚至几天后发电子邮件,销售效果都要差很多。”趁客户还在,实时的身份验证和“决策”服务可以让零售商、电信公司及其他商家成交更多、价值更高的单子。

  现在Equifax的涉猎范围已经远远超出了金融领域,身份也绝不局限于一家征信所。如果病人和医务人员需要在网上向医院提交身份证明,可以使用该公司的身份验证技术,这项技术会提出一些问题,只有答题者本人知道答案。2011年,Equifax开始帮助美国国土安全部和美国公民及移民服务局核查移民的就业资格。

  虽然Equifax在大数据挖掘的路上大步前进,但Webb仍对此心有疑虑:“道德问题是另一个探讨的话题。但我们拥有数据挖掘技术,如果挖掘数据合法,我们会一路走下去。”

  现在的问题是,对于消费者和企业海量信息的应用,其尽头在哪里?一些保护隐私倡导者担心,美国公司可能为了企业利润,获取过多的公民隐私信息。皮尤研究中心互联网和美国生活项目主管Lee Rainie表示,就算美国国会通过了更严格的法律,隐私之争也不会消失。这是由于个人隐私数据的界定“完全视情形而定”,一些消费者以自身得到好处的多寡来界定其被披露的数据是否为隐私数据,这种做法让隐私数据的界定难上加难。

  “为了保持竞争力,公司除了要保持大数据挖掘技术的先进性,还要遵守内部的道德规范。”Mason说,“高管们不仅要熟悉法律法规,还要摆明使用信息方面必须遵守道德规范的立场。”

  信用顾问John Ulzheimer补充说:“任何征信所面临的挑战是,如何既发掘创收潜力,又提供完全合法、不侵犯消费者隐私的服务和数据。”他表示,到目前为止,征信所做出的都是对消费者有利的选择,比如不会永久报告负面的信用事件(如个人破产)。

  “我们在数据使用方面实行了非常严格的治理和控制。”Webb强调Equifax在进行数据挖掘中严格遵守使用信息方面的法律法规,“我们是值得信任的数据监管者,并且有责任来保护这些数据。”

  面对数据挖掘的大好前景,Equifax公司仍不得不担心来自用户隐私和IT技术快速革新的压力。