PG电子平台PG电子平台大数据时代正在唤醒企业通过利用客户数据获得竞争优势的机会。数据的广泛使用性和高度复杂性让仅使用传统决策技术来盈利变成不可能。
这些传统方法主要使用电子表格,数据库查询和其它商业智能工具。另外,人们对从大数据中提取的有用信息和知识方法越来越感兴趣,这使得决策风格从基于经验直觉逐渐转变成数据驱动。
与此同时,强大的计算机和互联网技术,海量数据和高效算法的融合,催化了数据科学和数据挖掘技术的发展,最终提高和加快数据挖掘技术的推广并帮助企业获取竞争优势。
本章旨在概述数据挖掘的一般概念,CRISP-DM流程以及可应用于各种商业问题的各种数据挖掘技术。
谬误:数据挖掘是一个计算机驱动的过程,它在庞大,复杂的数据库中寻找模式,并自动给出结果。
事实:数据挖掘是一个用户驱动的过程,它使用计算机浏览大量数据,从而发现有用的规律模式。
“通过使用模式识别技术以及统计和数学技术筛选存储在数据库中的大量数据来发现有意义的新相关性,模式和趋势的过程。”
有许多数据挖掘相关的同义词可以互换使用,例如:数据科学,预测分析,数据分析,模式分析/识别,商业智能(BI),知识挖掘,知识提取,大数据分析和文本分析。
然而,他们都有相同的意义,即从数据中提取知识,因此他们都属于数据挖掘这一大类。
数据透视:考虑不同的数据源如关系结构数据库,非关系结构数据库如XML数据库,多媒体数据,流数据和传感器数据等;
应用前景:十分广泛的概念,包括一系列部门,例如:电信行业中客户流失和客户留存问题。零售业中客户细分,交叉/向上的营销策略,市场关联分析,客户生命周期价值等。金融行业中信用风险,记分卡,欺诈检测等。政府
图2.1从数据管理的角度描述数据挖掘过程的位置以及通常关联的职业。在通向金字塔顶端的过程中,数据变得更加简洁,并且更加有潜力支持关键业务的决策。
数据是最有价值的商业资本,也是数据挖掘的先决条件。有价值的信息源可以在企业中找到,并且边界很广。例如:内部和外部的数据源,既有结构化的,又有非结构化的。
内部数据源(例如数据库,报告和电子表格)存储了大量的数据。外部数据库和各种互联网资源也是获取商业价值的极好的方法,可以和内部资源结合,以便更好的洞察正在研究的问题。
数据的质量是有效数据挖掘的关键。没有适当的数据,即使雇佣了最好的数据挖掘专家,也不可能获得任何有价值的知识。最重要的数据质量要求是:
回答这些问题的最好方法是遵循结构化的方法:数据挖掘的跨行业标准(CRISP-DM)。
CRISP-DM是一个行业标准的数据挖掘流程框。它描述了数据科学家用来解决问题的常用主流方法。
CRISP-DM参考模型鼓励最佳实践,并为企业提供更好更快实现数据挖掘的最优框架。
如图2.2所示,数据挖掘生命周期由六个阶段组成。各阶段的顺序并不固定,在整个过程中经常需要往返移动。
每一过程的结果都输入到下一阶段,如箭头所示。外部周期代表了数据挖掘本身的周期性。从所部署的解决方案中吸取的经验教训可能会引发新的业务问题。总之,CRISP-DM阶段是:
商业理解:初始阶段的重点是从业务角度理解项目目标和需求。随后它被定义为一个数据挖掘问题,并进一步设计成一个计划来实现这些目标;
数据理解:从最初的数据收集开始,让数据科学家熟悉数据,识别数据质量问题,检测有趣的子集以及形成有关隐藏信息的假设;
数据准备:涵盖了构建最终数据集所需的所有活动。原始数据中的一些数据将被输入到模型中。数据准备任务可能被多次执行,而不是按任何规定的顺序执行。数据准备主要包括了数据画像,数据清洗,属性选择,以及建模工具的数据转换和清理。
建立模型:通过指定的参数并将其校准为最佳值来选择并应用一种或多种建模技术。 通常对于同一个数据挖掘问题有多种技术。有些技术需要特定格式的数据,因此需要迭代数据准备。
模型评估:十分重要的阶段。在最终部署模型之前,必须彻底评估模型并检查创建模型所执行的步骤,以确保模型正确的执行业务目标。这一步的关键目标是确定是否存在一些尚未考虑的重要业务问题。在此阶段结束时,应根据数据挖掘的结果得出结论。
与此同时,商业验证是十分重要的。因为它评估了模型的商业优势。商业验证的目的是测试模型是否能在独立的数据集上泛化,而独立的数据集是不同于用于构建模型的数据集的。测试此需求的最佳方案是使用图2.3所示的测试或验证数据集。
部署阶段将运行验证的数据模型。根据需求的不同,部署阶段可以简化为生成报告,也可以复杂到在整个企业中实现可重复的数据挖掘的过程。例如,使用所建立的模型对实时数据进行评分,以便立即做出决策。例如:接受/拒绝贷款。
在一般情况下,执行部署步骤的是最终用户,而不是数据分析师。因此,对于最终用户来说,了解所创建的模型需要进行哪些操作是十分必要的。
最顶层的划分将技术划分为有因变量和没有因变量。在该图中,这些变量被定义为响应变量。监督方法是有响应变量的方法,无监督方法是没有响应变量的方法。
对于面向预测的方法,主要区别在于响应变量的性质。分类模型与分类响应变量相关,线性回归模型与连续响应变量相关。
流程图的底层显示了一组最流行的数据挖掘算法,如聚类分析,关联分析,决策树,逻辑回归,记分卡和线性回归等。
预测模型检验并识别现有数据中的模式,以预测未来的结果。构建预测模型包括应用统计技术来获取和显示公开数据中所包含的信息。
决策树是最通用的建模技术之一。该模型可以单独用于预测,也可以用作开发其他预测模型建模技术。例如,决策树可用于选择一组合适的变量,并将该组变量以提供给另一种建模技术,供气直接使用。决策树也可以在建模后解释其工作原理,例如:解释模型是如何做出决定的。
决策树非常直观,高度可视化,易于使用和理解,并且通常是非常有效的预测模型。作为分类模型,它们适用于类别型因变量,但也用于预测连续数值型因变量。
决策树的结果可以直接使用到决策过程中,并能够合并商业逻辑制定规则。它们还提供隐式特征权重,使它们适合于初始特征选择,并且输入到其它建模技术中。
线性回归是一种常见的统计建模技术,在预测和估计中有许多实际用途。预测是与任何预测有关的更通用的术语,估计是展示还未观测出结果的未来事件的过程。
线性回归适用于连续变量。因变量必须是连续的,自变量通常也是连续的。但是也可以通过一些手段将类别型自变量编码为虚拟变量。输出函数,即模型是对自变量和因变量线性关系进行拟合的直线。
简单的一元线性回归仅包括一个独立变量来预测因变量。多元线性回归利用多个自变量来预测因变量。R^2统计量是评价整体模型性能的重要参考量。它反映了模型和自变量解释因变量的比例。
通常因变量是二元变量:0或1,坏或好,是或否。举个例子,一个金卡持有者可以被划分为1,非金卡持有者被划分为0。在这种情况下,逻辑回归模型将预测新客户成为金卡持有者的概率。
这种逻辑回归被称为二元逻辑回归,因为它的因变量被分为两类。对于超过两类的因变量的问题,例如低/中/高,被定义为利用多元逻辑回归。
逻辑回归衡量了一个类别型因变量和一个或多个自变量之间的关系。自变量可以是连续的,也可以不是。然而,逻辑回归通常在自变量为连续时表现较好。至于类别型变量的处理,逻辑回归与线性回归方式相同。
从统计学的视角来看,逻辑回归可以视为线性回归的一个延伸。难点在于我们如何将二元变量转换为一个连续数值型变量。
这里会引入一个叫做几率的概念。比如,p是因变量在一定自变量条件下落入“是”中的概率,那么1-p则是在相同环境下落入“不是”的概率。
p/(1-p) 就叫做在此条件下几率。转换的最后一步是将几率去自然对数。
二元逻辑回归的一个常见且有用的模型技术。它是构建记分卡模型时至关重要的一步。
记分卡模型将各自变量转换为相应点数,并将与因变量特征相关的点数相加以产生分数。比如,贷款公司通常使用记分卡来支持信贷决策,评估新的信贷申请,信贷限额的变更,交易的超额审批等。
记分卡一般有两种类型:申请记分卡或行为记分卡。前者被用于评估服务或产品的申请。后者是账户管理和整合时有用的预测模型。此外记分卡模型可以与基于概率的模型组合。
图2.11显示了简单的双变量记分卡。 比如,租用住房且居住在当前地址少于一年,的申请人记分卡总分为:39+51=90
与此类似,我们可以针对变量值的任何组合计算分数。为了基于总分数发放信用,可以事先设定阈值。分数低于阈值的申请人将被拒绝,相反则接受上述申请。
聚类是创建归纳同类族群的过程。例如,聚类可以分析消费者的购买习惯。聚类是一种无监督的机器学习过程,因为模型中不涉及因变量,所有变量都被视为自变量。
聚类分析是一种适用于客户细分,产品定位,建立信用行为细分和产品购买细分的模型技术。
图2.12展示了一个客户细分的案例。散点图中的每一点代表一个客户的年龄和收入。结果代表了五种不同的细分。除此之外,一些具有极值特征的数据点可以解释为异常值。
聚类分析在数据中查找聚类,并用为每个记录标记类别。基于对描述每个集群的理解,分析人员可以为每个集群分配一个名称或含义。
例如,左下角较年轻,收入较低的群体可以被指定为学生的标签。再例如较年轻但收入较高的群体可以被视为雅皮士。这些描述集群特征的标签可以被用于定制每个细分市场里面所提供的产品和服务。
关联分析是一种与聚类相似的技术。它主要用于发现数据之间的关联并且导出规则。这些规则显示出特定组合一起同时出现的概率。当有兴趣将其它产品和服务作为下一个最佳产品推广时,通常会使用到关联分析。
典型的关联分析问题是确定不同产品或者服务同时出现的频繁程度。生成的关联规则可主要用于构建产品促销,产品放置,交叉销售等策略。此外,关联规则还可以应用在包括健康科学,欺诈检测或者需要从事务数据中识别事件或行为模式的许多其它领域。
关联分析模型的工作原理是分析销售内容,即购物篮或一起购买的产品组。关联分析算法利用以下形式提取规则:
然后,使用规则根据以前的购买情况对客户进行评分,以推荐他们可能购买的产品。
关联分析的另一用途是寻找产品组合,关联分析会产生产品组合。这表明捆绑销售或促销这些产品将受到客户的欢迎。
现如今,大量的可供使用的数据为公司提供了更好的机会和挑战,以便更好的洞察客户的行为。 通常,数据挖掘模型可能被用来预测未来的事件,客户细分或者更好的了解客户的要求。以下是常见的商业案例:
下一个产品推荐:旨在适当的时候向现有客户推广更多的产品。当一家公司有许多产品要推广时,他们必须根据客户拥有的现有产品来确定哪些产品应该提供给该客户。
如何获取客户:被用于获得新客户和增加市场份额,包括提供有很大前景的产品。
适合这些模型的数据挖掘技术包括决策树,逻辑回归,市场购物篮分析和神经网络。
客户保留策略和客户流失模型:旨在维护和奖励客户忠诚度。在客户流失的情况下,重点放在一定时间内会取消订单的客户。有四种类型的流失:
客户生命周期价值管理:代表从客户的生命周期内获得预期收入,考虑到该客户可能购买的所有产品。客户生命周期价值也可以表示此类预期收入的指数。
客户细分:可以更好的了解客户特征,以及相应的市场格局。其中包括他们是否能自然的分组成为具有相似度的市场。用于客户细分的常见数据挖掘技术是聚类分析。模型输出的一组聚类,可以附加在其它模型中,例如决策树,线性回归,逻辑回归和神经网络等。
产品细分:根据现有用户产品使用情况来推荐产品,在大多数情况下使用市场购物篮分析。
文本分析:基于文本的数据源,分析客户需求。并将非结构化数据转换为结构化字段,其中包含客户正在谈论的实体,主题,话题以及相关评价情感的正负得分。
随着数据量的增加,行业中采用越来越多的统计和建模技术。传统的模型构建方法被进行了一系列的重组,数据挖掘应运而生。
计算机技术的进步进一步提供了利用更复杂的操作,更快的处理大量数据的方法。
自 2018 年底进入中国市场以来,Altair 数据分析软件平台Altair Knowledge Works(前身为 Datawatch)一直致力于为用户提供易于访问和使用的数据平台,助力用户做出更创新、更明智的决策和洞见。
为了更好地服务国内的客户,Altair Knowledge Works的微信专区上线啦!我们将通过微信向各位用户提供更迅速的响应和更便捷的服务。
每周我们将为大家发布 Knowledge Works的最新信息、市场活动、用户案例、视频教程资料等。同时,各位用户还可以通过公众号与 Altair 进行互动交流并获得官方技术支持。欢迎大家扫描下面二维码,关注Altair Knowledge Works:
如果您想要了解更多信息,欢迎通过以下渠道联系我们:公司网址:业务联系:br/>