【热点】关注大数据平台所能创造的价值

2013年6月1日  | 字体大小 | |繁體|

2013-03-26 15:44:23

□IBM金融行业 资深架构师 徐礼佳

大 数据不是一个 新词,也不是一个相对小 数据的提法。从技术角度讲,是什么样 的新技术能够帮我们做海量数据的挖掘 和分析。

到底数据是用来做什么?IBM每 年访问业界大部分的公司,其中 74%都认 为是用来做信息化分析和管理,大数据 为他们创造了竞争优势,这一比例比 2010年上升了70%,公司已经越来越意 识到数据的价值所在。

传统做法中,一般通过统计和 报表的方法来 判断已有预测和行为是否 正确。或凭业务人员的直觉和本能来判 断哪些是风险点,应该如何定价等等。 大数据时代对此有了颠覆。首先它对于 数据挖掘和分析的要求不再局限于保险 行业中的某个部 门,就像互联网经济一 样,和客户打交道的各个渠道,包括销 售和营销,都需要有预测和分析的能 力,以便更好地判断客户的走向。那 么,如何将数据挖掘和分析这一利器交 给业务部门呢?

在传统的解决方法和模式下, 我们由业务需求来驱动一个方案的设 计。业务部门往往把它的需求转化成为IT 部门能够理解的语言,业务部门再通过IT 部门搭建的这些数据平台、数据中心来 一次次地查询和通过报表形式得到他想 要的回答。IT部门再根据业务部门的反馈 逐渐改善和完善方案,它是一个循环递 减的过程。但是这样一个过程往往适合 于一些高价值、结构化,已经固定和成 形的流程。但对于前卫性探索的高度变 化的数据,它的支撑往往不够。即使对 很多传统的固定业务,客户通常都需要6 个星期到3个月的时间来开发新需求,这 一方面是因为业务IT化不够和IT业务化 不 够导致难以区分,同时对什么样的技术 在什么样的场景下如何使用往往没有很 好的把握。

在大数据时代的分析、挖掘与 传统做法完全不同。而传统的方法下, 我们要求高质量的数据,在 数据平台中 通过建模的方法来找出它相应的特征。 但是在大数据时代,往往做的是沙里淘 金的工作,对大量从各种渠道得来的数 据进行探索性分析。这个探索性分析, 是通过数据本身体现的一些特 性来判 断。在这种情况下,数据挖掘和分析变 得非常复杂,但同时,它的性价比也在 不断递增。

从数据挖掘和分析的角度讲, 一般按复杂度可以分成几个层面。传统 上我们做得比较好的是 描述性的挖掘, 甚至不能叫做分析,因为它仅仅是描述 性的,对既有事实做一些统计分析的标 准报表。随着对数据理解的加深和预测 能力的加深,我们往往能够做得更多的 是预测性分析。如,这个 客户在什么情 况下可能流失,如果他流失的话我们采 用什么样的对策,这个客户是对客户服 务更为敏感还是对价格更为敏感。这样 的一些分析我们要通过预测类分析才能 回答。在预测类分析之上还 有命名型分 析,命名型分析源自于一个哲学上的命 题,它要回答的不是做了些什么,而是 应该做什么,从企业治理的角度,就是 应该如何部署资源,才能使商业价值最 大化。这样的一些分析往往需 要有全局 的观念来做大量的分析和海量数据的基 础。所以,我们可以看到现在还是处在 非常基础的一个描述性分析的阶段,随 着技术的发展和业务部门往互联网经济 过渡的需求下,分析的深度和广 度也会 远远增加。

大数据,在IBM的定义下包括数 据的种类、速度、价值(粘度)和确定 性。这里重点提一个数据的速度。数据 的速度有两层含义,第一层是现在各个 公司的IT系统中,数据 获取的速度越来越 快,这是数据采集和进来的速度。同 时,我们往往做的是离线的分析,当数 据生成后,过一段时间放入数据仓库, 通过二次平台,再来做加工和分析。在 大数据时代,新的流计算 技术,可以让 我们做时时在线分析。这种在线分析对 金融行业的影响是非常深远的。比如我 们和很多银行和金融保险公司正在摸索 的如何在线做理赔欺诈和金融欺诈的分 析,这往往能够给业务部门 创造极大价 值的。

在去年调查中发现,在4家企业 中至少有3家都在开展与大数据相关的项 目,起码4家里有一家大数据项目已经在 上线和试运行中。在过去6个月中,我们 也走访了很多国内 的金融机构、银行和 保险公司,很多公司都在开展大数据的 探讨。很多客户和我们讨论,数据到底 在我们公司应该做什么?这个问题我们 很愿意和大家分享。这时候如果大数据 是从信息部门和IT科 技部门而起的,很多 人问大数据能否替代传统的数据仓库? 大数据能否给我们构建一个像淘宝那样 的历史数据云?我们认为,在现在的技 术情况下暂时做不到,但是技术的发展 是日新月异的,将来 这些一定是方向。 但是对于传统的企业,大数据还将是信 息架构中的一个非常重要的组成部分。 但是它和我们已有的传统数据架构不是 一个替代关系,而是一个相辅相成的关 系。这里面的一个非常 关键的词就是信 息整合。

因此,我们现在不是要创造另 外一个信息孤岛,而是要把分散在各个 地方、平时不能采集到的数据和现在已 有的业务系统或者是数据平台当中的数 据加以整合,然 后挖掘出它的价值所 在。

IBM大数据平台涵盖了很多的部 分。这个大数据平台不像很多科技部门 同事认为的那样仅仅包含Hadoop这一个 组成元素,其实在Hadoop上我们还有很 多互联网技术的 分析和流计算的分析, 以及相应用户环境及与现有IT系统集成的 组件。如果仅仅从Hadoop技术角度来 看,在很多开源的Hadoop组件上,IBM 又加入了很多我们自己开发的组件,这 些组件可以更好的 帮助我们从运维角 度、从数据分析和挖掘、从探索的角度 给我们提供相应友好的一些界面。

对于各种数据平台来讲,流数 据、大数据、数据仓库的数据处理,它 们各自处理的数据量和时效性 要求不 同。也就是说,它们之间既有重复的交 叉,同时也有各自不同的定位。这三种 数据分析的平台其实是相辅相成的关 系。在现在的情况下,他们各自可以分 析的内容、分析的场景、利用的价值 互 相是一种补充。以理赔欺诈为例,如果 积累了大量的理赔和承保历史数据的 话,我们可以在Hadoop的基础上的这样 一个大数据平台上进行深度的挖掘和分 析,找到一个标的的风险点,或者是理 赔欺诈的一些固定模式。但因为这些模 式不断在变化,所以,如果在传统的数 据仓库环境下做这样一种模式判别,会 是非常困难的一种方法。

在大数据平台时,会有很好的 类似的技术辅助来 帮我们做数据挖掘。 这样一些离线分析的结果能够反过来运 用在的流式数据分析上,一个理赔案在 处理过程中就可以根据识别出来的模 式,来判断该案风险有多大,是否应该 有一个特殊的处理。所 以,这三种数据 平台是相辅相成而不是替代的关系。

根据我们去年调研的结果,55% 的客户做大数据都是从客户分析开始 的,很多客户是从网上的舆情分析或者 微博来看客户对新产品的反馈 ,来调整 它的产品策略,以判断一个客户的行 为。所以,也许从客户的角度出发,不 管是判断客户流失率,还是判断一个客 户在网销的过程中留下的痕迹是否有商 机,这些往往是一个大数据能够发 挥所 长的最主要的业务应用。

大数据和互联网技术的共同特 点是,它的基础设施一定是可延展和扩 展的。对于大数据来讲,因为今天处理 的数据可能是100T到几百T,明天处理的 数据可能是 上千TB的数据,所以它对信 息基础的要求是可扩展的过程。

最初的数据探索是否能够集中 在现有的新的内部数据源中挖掘有价值 的信息?IT部门经过十多年的建设已经积 累了大量丰富的数据 ,但是这些数据往 往在各个后台零散存在着,而没有发挥 它应有的价值。很多时候业务部门讲到 他们花大量的时间在取数,而不能做他 们擅长的数据挖掘;对于信息科技部门 的困扰又是这些数据质 量不可控,数据 质量相对比较低,所以我们往往分析不 出它的应有结果。由于大数据平台和数 据仓库最大的不同在于它没有初步判别 的要求,即在数据建模的过程中,不是 先对数据采样和抽取,数 据以它的原有 形态呈现一种数据的特征,所以我们可 以从内部来着手看看能挖掘出什么样的 有价值的信息。

大数据的行业趋势是一定要创 造更多的业务价值,我们一定要从业务 的问题出发 找到大数据的实际应用,而 不要从纯技术的角度出发来考量大数据 究竟应该做什么。

举三个例子。

美国的某家保险公司用大数据 来帮助它更好的挖掘客户。它现在能够 用很多更广泛 的外部资源,包括社交媒 体、合作伙伴等互相之间的数据库来弥 补内部和外部的一些观点,360度的来看 一个客户究竟对什么样的保险产品有需 求。二是它把零散的分布在各个地方的 信息数据加以 提炼和整合,用大数据的 挖掘能力,来告诉我们每个客户完整的 信息究竟是什么。我记得有一次某家保 险公司的客户流失团队给我讲,往往等 到信息科技部门把可能流失的客户名单 给他们的时候, 客户已经都流失过了。 所以,怎样能够更好地提高我们的预测 分析能力,并且高效地给到客户服务团 队,这也是大数据中要攻克的一个课 题。

另外一个简单的例子是Santam Insurance公司, 它用预测分析来更好的 做理赔欺诈和赔案处理。原来我们可能 要人工判别赔案和赔案之间的关系,来 判断哪些模式是相应的风险因子,现在 可以借助大数据的平台来找出风险因 子。找出风险因子后 赔案就可以按照高 风险和低风险来采用不同的理赔流程, 不同的流程。不同的流程帮助这家公司 提高了理赔效率,缩短了理赔时间并能 及时止损。

第三个例子是一家保险公司用 分析技术来 提高客户的满意度和员工生 产率。在网销过程中,怎样判断一个客 户的行为和倾向性?在判断的时候,我 们和很多网销部门讨论的是,客户在网 上留下的痕迹哪些真正可以转化为销售 机会。在过去 ,我们往往没有这样的能 力来分析半结构化或非结构化的数据, 但是在现在的大数据平台下,这些都已 经成为可能。

最后我们有一些建议。

1.在过去的6到9个月,在跟不 同的金融行 业客户探讨的过程中,建议 大家更多的关注于真正的业

以下推文采用自研智能关联、组合专题技术…:

相关文章 延伸阅读

(文章仅为用户好友间自行存档分享,如有违规请在下方评论中留言说明,并点击上方举报钮,同时删除本文。) 本文二维码


评论