欢迎来到中国铁道出版社有限公司官网!
$itImage.title$
$itImage.title$

SAS数据挖掘与分析项目实战

书      号:9787113268503

丛  书 名:

作      者:尚涛

译      者:

开      本:16开

装      帧:平装

正文语种:

出  版 社:中国铁道出版社有限公司

定      价:79.8

  • 内容简介

    本书讲述了在实际运营中核心的数据挖掘分析案例,为读者重点展示了SAS在精准营销、客户流失预警、客户分群、广告点击、信用卡欺诈、信用风险评分等领域中的具体应用。
    本书分为16章,以数据挖掘基础知识介绍开始,循序渐进地讲述了Kaggle数据科学社区调查数据分析、考察汽车耗油量与里程数的关系分析、影响汽车销售的关键因子分析、健身运动中耗氧量回归分析、旅客量预测分析、客户群分类判别分析、销售公司的客户分群、员工离职预测、广告点击率预测、产品精准营销模型、电信客户流失预警、银行贷款用户风险分析、信用风险评分卡的开发以及信用卡反欺诈预测模型等案例。最后一章介绍了与数据挖掘项目中的时间成本有较大关系的SAS数据清洗的相关技术。
    本书案例丰富,实用性较强,特别适合从事数据挖掘、统计建模、机器学习、商业分析、运营分析等工作的人员使用,也可作为数学、统计学、金融管理、计算机等专业的学生学习SAS数据挖掘应用的参考书籍。
  • 前言

    这个技术有什么前途
    随着大数据、人工智能的发展,无论是阿里巴巴、腾讯、百度还是母婴店、超市,不同的企业都在尝试利用大数据、人工智能技术提升企业的运营决策效率、降低管理费用,同时扩大业务范围。作为人工智能主要内容的数据挖掘技术,一直紧跟时代潮流,在企业的运营决策中发挥着越来越大的作用。
    作为非常常用的商业数据挖掘软件SAS,也紧跟大数据、人工智能的发展,不断创新。从1960年至今,经过几十年的完善和发展,SAS系统在业内被公认为统计分析的标准软件,在零售、制造、银行、保险、通信、互联网、教育、医学、新闻媒体等领域得到广泛应用。基于当前大数据、人工智能的发展,以及SAS在数据挖掘领域的地位及广泛应用,如果你是数据分析行业里的新人,笔者建议要首先学会使用SAS,它很好操作,并且市场占有率非常高。对于数据挖掘领域里的专业人士,如果至少需要掌握两种工具,首先建议掌握SAS软件。
    笔者的使用体会
     SAS功能强大,统计方法齐、全、新。SAS提供了从基本的描述性统计分析到各种试验设计的方差分析、相关回归分析、因子分析、聚类分析、时间序列分析等多种统计分析,几乎囊括了所有很前沿的分析方法,其分析技术先进、可靠,分析方法的实现通过过程调用完成,许多过程同时提供了多种算法和选项。
     使用简便,操作灵活。SAS以一个通用的数据(DATA)产生数据集,可以通过不同的过程调用完成各种数据分析挖掘过程。SAS编程语句简洁、短小,通常只需很少的几个语句即可完成一些复杂的运算,得到满意的结果。
     SAS有可在 DATA 和 PROC 使用的大量函数和自定义函数,功能非常强大,也可以作为被DATA和PROC使用的宏语言。
     SAS 的软件及算法都是经过检验的,专业的医学生物数据统计一般只使用SAS软件。
     SAS非常容易上手,如果你会SQL,则可以立即上手使用SAS。SAS提供了丰富的统计功能,其友好的GUI界面可以让分析师快速上手,并且得到很好的技术支持。
     在商业分析领域,SAS是无可争辩的行业领导者,就全球而言,SAS仍然是公司和机构中使用最多的数据分析工具之一,尤其是大型金融公司。
    本书的特色
     案例丰富:本书不空讲SAS语法和模型算法,以大量企业实际案例、清晰简明的解释以及尽可能少的专用术语来介绍SAS的实际应用。
     内容全面:覆盖企业中的热点应用案例,比如精准营销、流失预警、客户分群、信用评分、广告点击率预测等。如果读者是公司的数据分析师,则可以直接参考案例进行相关模型研发。
     较新的软件版本:以SAS 94软件版本,向读者介绍如何使用SAS进行数据挖掘项目的开发工作。
     配备数据和源代码:提供所有案例的数据文件和SAS源代码,供读者操作练习、快速学习。
     学习路线图清晰:每个案例均按照数据挖掘项目的一般工作流程逐步展开。








  • 目录


    第1章数据挖掘知识介绍
    11数据挖掘算法简介
    111分类
    112聚类
    113关联
    114预测
    12分类模型的相关概念
    121数据说明
    122混淆矩阵
    123ROC曲线和AUC面积
    124提升(Lift)
    125KS曲线
    13数据挖掘过程中关键问题处理
    131数据准备
    132定义变量及数据抽样
    133变量选择
    134缺失值处理
    135模型比较
    14SAS STAT介绍

    第2章Kaggle数据科学社区调查分析
    21描述性统计分析的主要内容
    211数据的频数分析
    212数据的集中趋势分析
    213数据的离散程度分析
    214数据的分布
    215绘制统计图
    22SAS描述性分析过程介绍
    221PROC FREQ过程
    222PROC MEANS过程
    223PROC UNIVARIATE过程
    23调查数据说明
    24数据探索
    25Kaggle社区用户画像分析
    251人员属性
    252工作属性
    253技能属性
    254学习属性

    第3章考察汽车耗油量与里程数的关系
    31项目背景
    32非线性回归简介
    33非线性回归过程说明
    34广义线性模型过程
    35数据文件说明
    36数据探索
    37模型建立
    38结果分析

    第4章影响汽车销售的关键因子分析
    41数据说明
    42因子分析的基本原理
    421因子分析模型
    422因子旋转
    423计算因子得分
    43因子分析的步骤和SAS过程
    431因子分析的步骤
    432FACTOR过程说明
    44模型开发及结果解释
    45主成分分析和因子分析的区别

    第5章健身运动中耗氧量回归分析
    51线性回归模型
    52REG过程
    521过程选项
    522MODEL语句选项
    523关键字选项
    524PLOT语句选项
    53数据说明
    54相关性分析
    55回归分析
    56逐步回归
    561逐步回归过程
    562利用逐步回归选择变量

    第6章旅客量预测分析
    61项目背景
    62数据文件说明
    63平稳随机过程概述
    631自回归模型
    632滑动平均模型
    633自回归滑动平均模型
    64ARMA模型的识别
    641基于相关函数的定阶方法
    642利用信息准则法定阶
    65模型参数的估计
    66时间序列的分析步骤
    67SAS系统的ARIMA过程
    671ARIMA语句选项
    672IDENTIFY语句选项
    673ESTIMATE语句选项
    674FORECAST语句选项
    675ARIMA建模过程
    68数据探索
    681平稳性检验
    682序列变换
    69自相关函数检验
    610模型参数估计
    611预测

    第7章客户群分类判别分析
    71业务背景及数据说明
    72判别分析的数学原理
    73判别分析的SAS过程
    731DISCRIM过程
    732CANDISC过程
    733STEPDISC过程
    74数据探索
    75客户群判别模型建立
    76模型应用

    第8章销售公司的客户分群分析
    81项目背景
    811客户细分的概念
    812客户细分模型
    813客户细分模型的基本流程
    814细分方法介绍
    82聚类分析的数学原理
    821聚类的数学原理
    822距离和相似距离
    823聚类方法
    824聚类数的确定
    825聚类分析步骤
    83SAS中的聚类过程
    831Cluster系统聚类过程
    832Fastclus快速聚类过程
    833Varclus方差聚类过程
    834Tree聚类树型输出过程
    84数据文件说明
    85数据探索
    851变量衍生
    852变量标准化
    853变量相关性分析
    86模型建立
    87客户画像分析
    88模型应用

    第9章员工离职预测
    91项目背景
    92数据说明
    93数据探索
    94数据建模
    941变量相关分析
    942决策树建模
    95模型评估与应用

    第10章广告点击率预测
    101业务背景
    1011网络广告发展情况
    1012计算广告学
    102数据说明
    103数据不平衡的处理方式
    1031收集更多的数据
    1032改变模型性能评价指标
    1033重新对样本进行采样
    104模型开发与评估
    1041样本欠抽样
    1042模型开发
    1043模型评估
    105CTR模型的发展脉络

    第11章产品精准营销推荐
    111项目背景
    1111业务背景
    1112数据说明
    1113项目目标
    112数据探索
    1121变量描述性统计分析
    1122变量缺失值处理
    1123变量衍生处理
    113模型建设
    1131欠抽样
    1132数据集分割
    1133模型开发
    1134模型评估
    114模型应用
    1141产品自动化推荐系统
    1142易受到市场环境等各种因素的影响
    1143人群特征漂移需要不断优化模型

    第12章通信客户流失预警模型
    121项目背景
    1211客户流失分析要解决的问题
    1212分析客户流失的类型
    1213如何进行客户流失分析
    122数据说明
    123因变量定义
    124样本抽取
    125数据探索
    126模型开发
    1261变量衍生
    1262变量选择
    1263相关性处理
    1264模型结果
    127模型评估
    1271开发样本上的模型性能
    1272验证样本上的模型性能
    128模型应用

    第13章银行贷款用户风险分析
    131案例背景
    132因变量定义
    133样本抽取
    134数据探索
    1341为什么要进行数据探索
    1342数据分布情况
    135模型建设
    1351变量衍生
    1352变量选择
    1353共线性处理
    1354模型结果
    136模型性能评估
    1361开发样本上的模型性能
    1362验证样本上的模型性能
    137模型应用

    第14章信用风险评分卡开发
    141信用评分模型简介
    142信用卡模型的开发过程
    143案例背景及项目目标确定
    1431项目背景说明
    1432确定项目目标
    144数据获取
    145数据质量检验
    146项目参数设定
    1461排除规则确定
    1462表现和观察窗口
    1463确定“坏”的定义
    1464滚动率分析
    1465客户分群
    147数据探索
    1471数据分布分析
    1472缺失值的处理
    1473极端值的处理
    148模型开发
    1481证据权重(WOE)
    1482信息值(IV)
    1483变量选择
    1484变量分组
    1485变量相关性分析
    1486模型迭代开发
    149模型评估
    1491混淆矩阵
    1492KS统计量
    1493ROC曲线
    1410评分卡创建
    14101评分尺度变换
    14102变量分值分配
    1411评分卡实施
    1412监测与报告
    1413拒绝推断
    1414运用评分卡需要注意的事项

    第15章信用卡反欺诈预测模型
    151信用卡欺诈概述
    1511信用卡欺诈的种类
    1512智能反欺诈管理
    1513其他反欺诈技术
    152案例背景
    153数据探索
    154模型开发
    1541不使用分层抽样策略
    1542使用分层抽样策略
    155总结

    第16章SAS数据清洗技术
    161数据清洗简介
    1611数据清洗
    1612数据探索
    162数据导入
    1621读入数据到SAS系统的方法
    1622指定数据文件的位置
    1623读入由空格分隔的原始数据
    1624读入列对齐的原始数据
    1625读入非标准格式的数据
    1626读入一个观测占据多行的数据文件
    1627读入原数据文件的一部分
    1628IMPORT过程读入分隔数据文件
    163数据格式处理
    164SAS函数
    1641字符函数
    1642数值函数
    165缺失值处理
    166数据抽样
    1661等比例分层抽样
    1662不等比例分层抽样
    1663分层抽样


  • 作者介绍

    尚涛,毕业于上海交通大学数学系,拥有数学专业硕士学位,研究方向为数据挖掘及机器学习领域,曾任职于支付宝、平安科技、易方达基金,现任职于南方基金,专注于信用风险评分、精准营销、推荐系统、文本挖掘等领域数据挖掘项目的研发工作以及企业的数据化运营落地工作,拥有超过10年数据挖掘和优化建模的经验,以及多年使用SPSS、SAS、R、Python等建模软件的经验。在从业经历中,多次为所在公司的业务方提供数据挖掘技术服务,成功实施了众多深受好评的数据挖掘项目,取得了较好的业务价值。
  • 编辑推荐

    本书的特色
     案例丰富:本书不空讲SAS语法和模型算法,以大量企业实际案例、清晰简明的解释以及尽可能少的专用术语来介绍SAS的实际应用。
     内容全面:覆盖企业中的热点应用案例,比如精准营销、流失预警、客户分群、信用评分、广告点击率预测等。如果读者是公司的数据分析师,则可以直接参考案例进行相关模型研发。
     较新的软件版本:以SAS 94软件版本,向读者介绍如何使用SAS进行数据挖掘项目的开发工作。
     配备数据和源代码:提供所有案例的数据文件和SAS源代码,供读者操作练习、快速学习。
     学习路线图清晰:每个案例均按照数据挖掘项目的一般工作流程逐步展开。


  • 书评书荐

  • 附件下载

图书推荐