R语言编写决策树(rpart)CART ID3算法
       决策树(decision tree)是一类常见的机器学习方法。以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新示例进行分类,这个把样本分类的任务,可看做对“当前样本属于正常吗?”这个问题的‘决策’或者‘判定’过程。顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。 常用的决策树算法: ID3 以信息增益作为分类标准 CART...
浅析各种机器学习算法原理及应用场景
写给懒得看的人:没有最好的分类器,只有最合适的分类器。 随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。 SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。 神经网络(13.2%)和boosting(~9%)表现不错。 数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM。 数据量越大,神经网络就越强。 近邻 (Nearest...
R语言-BP和RBF神经网络构建电信客户流失预测模型
  背景: 业务部门获取了公司最近一个月电信客户信息(通讯信息、个人信息),想通过数据部门建模预测用户未来是否流失数据源:teleco.csv样本量:1000 观察指标 建模方法: BP 神经网络/RBF 神经网络指标评估:ROC 曲线 --用来描述模型分辨能力,对角线以上的图形越高越好 建模结论 A. 通过 RBF 神经网络构建的模型为 model B. 通过 BP...
机器学习:一文读懂什么是机器学习
最近有很多刚入门机器学习的童鞋问了我两个问题: (1)现在转行机器学习是否还来得及; (2)怎么自学机器学习。我的回答是先看吴恩达《机器学习》公开课视频再看自己是否喜欢这个领域。 本文对机器学习做个概要的介绍。目的是能让即便完全不了解机器学习的人也能了解机器学习,对机器学习有一个整体的框架,并且上手相关的实践。 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一: 图1...
零售业的数据挖掘问题!超长2万字干货,值得收藏! 张夏天 数据分析
引言 本文内容包括零售业中的多个常见问题,如响应建模、推荐系统、需求预测、价格差异、促销活动规划、类目管理、财务影响等。 其中涉及的资源分配优化问题、个性化推荐、定向广告等业务问题,超长2万字干货,完整版阅读大约需要两个半小时,TalkingData移动观象台强烈建议先收藏分享! 零售是数据科学和数据挖掘重要的商业应用领域之一。零售领域有着丰富的数据和大量的优化问题,如优化价格、折扣、推荐、以及库存水平等可以用数据分析优化的问题。   全渠道零售,即在所有线上和线下渠道整合营销、客户关系管理,以及库存管理的崛起产生了大量的关联数据,大大增强了数据驱动型决策的重要性和能力。   尽管已经有...
浅谈零售行业的数据挖掘
  对于沃尔玛、华润万家、百佳等零售大超市而言,每天都有很多客户通过会员卡进行购买,不断积累了很多销售数据,如何利用这些数据,从数据中挖掘金矿,很值得每个商家去思考。尽管目前零售商有不少的IT系统去支撑企业常规的分析(如销售量、销售额、热销SKU等),但实际上还是未能从数据角度深入挖掘客户的价值,仅仅从经营分析的角度来满足了常规分析工作。   本文从个人的角度去谈一下如何使用数据挖掘帮助零售商提升生意,让数据真正地去指导企业经营,最大限度地发挥数据提供商业决策的作用。   第一、开展会员制能够帮助企业采集更多会员数据,更有利于开展数据挖掘的工作,同时也有利于培养客户忠诚度。   在实施...