R语言编写决策树(rpart)CART ID3算法
       决策树(decision tree)是一类常见的机器学习方法。以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新示例进行分类,这个把样本分类的任务,可看做对“当前样本属于正常吗?”这个问题的‘决策’或者‘判定’过程。顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。 常用的决策树算法: ID3 以信息增益作为分类标准 CART...
浅析各种机器学习算法原理及应用场景
写给懒得看的人:没有最好的分类器,只有最合适的分类器。 随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。 SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。 神经网络(13.2%)和boosting(~9%)表现不错。 数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM。 数据量越大,神经网络就越强。 近邻 (Nearest...
R语言-BP和RBF神经网络构建电信客户流失预测模型
  背景: 业务部门获取了公司最近一个月电信客户信息(通讯信息、个人信息),想通过数据部门建模预测用户未来是否流失数据源:teleco.csv样本量:1000 观察指标 建模方法: BP 神经网络/RBF 神经网络指标评估:ROC 曲线 --用来描述模型分辨能力,对角线以上的图形越高越好 建模结论 A. 通过 RBF 神经网络构建的模型为 model B. 通过 BP...