28市场购物篮分析(规则归纳/C5.0) 357 访问数据 发现购物篮内容的关系。:。,。·。··:。,。 描绘客户群的特征。·。···。··。···。·。 362 摘要 363 29评估新车辆产品(KNN) 364 创建流 365 检查输出 预测变量空间 元素和距离表 摘要 附录 A Notices 376 参考书目 379 索引 380
28 市场购物篮分析(规则归纳/C5.0) 357 访问数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 发现购物篮内容的关系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 描绘客户群的特征 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 29 评估新车辆产品 (KNN) 364 创建流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 检查输出 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370 预测变量空间 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371 对等图表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372 邻元素和距离表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 附录 A Notices 376 参考书目 379 索引 380 xi
1 关于IBM SPSS Modeler 性”是组数据挖据工具,通过这些工具可以采用商业技术快速建立预 测性模生 于商业 C5PN模型设计成,可支特从数据到更优高业成果的整个数指挖过程 SPSS Modeler 行业标准 SPSS Modeler提供了各种借助机器学习 通过建模选 项做 长,同时适用于解决特定类型的圈。 可以作为独立产品购买 ler Se 行概述。 psco下不将对这华话项进和 关详用时 IBM SPSS Modeler Server SPSS Mode1er使用客户瑞/服务器体系结构将资原集约型操作的请求分发给功 能强大的服务器软件,因而使大数据集的传输速度大大加快。除了此处所列 的产品和更新,也可能还有其他可用的产品和更新。有关详细信息,请参阅 http://www.spss.com/software/modeling/modeler. IBM SPSS Modeler。.SPSS Modeler是具有完整功能的产品,它安装并运行于用户的台式i 视批:狼西装头车态头级药地花度可以与心Soo1 ler Server起联 一个或多个SPSS Modeler安装程序 一起在 为在服务器上可以 提高了对 大数据集的处 理速度,因 至客 面带来更多优 模能的 而在性能和自动化方 IBM SPSS Modeler选项 还可以单独购买以下组件和功能并获得使用许可,以用于SPSS Modeler。 请注意,还可能提供其他产品或更新。有关详细信息,请参阅 http://www.spss.com/software/modeling/modeler. ■SPSS Modeler Se 访问权限,可针对大型数据集提供更高的可扩展性和性能,并 提供对S9L优化以及数据库内建模功能的支持。 Solutions iited
章 1 关于 IBM SPSS Modeler IBM® SPSS® Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预 测性模型,并将其应用于商业活动,从而改进决策过程。SPSS Modeler 参照行业标准 CRISP-DM 模型设计而成,可支持从数据到更优商业成果的整个数据挖掘过程。 SPSS Modeler 提供了各种借助机器学习、人工智能和统计学的建模方法。通过建模选 项板中的方法,您可以根据数据生成新的信息以及开发预测模型。每种方法各有所 长,同时适用于解决特定类型的问题。 SPSS Modeler 可以作为独立产品购买,或与 SPSS Modeler Server 一起使用。同时 提供了大量其他选项,以下各节将对这些选项进行概述。 有关详细信息,请参阅 http://www.spss.com/software/modeling/modeler。 IBM SPSS Modeler Server SPSS Modeler 使用客户端/服务器体系结构将资源集约型操作的请求分发给功 能强大的服务器软件,因而使大数据集的传输速度大大加快。除了此处所列 的产品和更新,也可能还有其他可用的产品和更新。 有关详细信息,请参阅 http://www.spss.com/software/modeling/modeler。 IBM SPSS Modeler。SPSS Modeler 是具有完整功能的产品,它安装并运行于用户的台式计 算机上。它既可以在本机模式下独立运行,也可以与 IBM® SPSS® Modeler Server 一起联 机使用,从而提高了对大数据集的处理速度。 SPSS Modeler Server. SPSS Modeler Server 与一个或多个 SPSS Modeler 安装程序一起在 分布式分析模式下不间断运行,这种运行方式大大提高了对大数据集的处理速度,因 为在服务器上可以完成内存集约型操作,且无需将数据下载至客户端计算机。 SPSS Modeler Server 还提供对 SQL 优化和数据库内建模功能的支持,从而在性能和自动化方 面带来更多优势。要运行分析,必须至少安装有一个 SPSS Modeler 。 IBM SPSS Modeler 选项 还可以单独购买以下组件和功能并获得使用许可,以用于 SPSS Modeler。 请注意,还可能提供其他产品或更新。 有关详细信息,请参阅 http://www.spss.com/software/modeling/modeler。 SPSS Modeler Server 访问权限,可针对大型数据集提供更高的可扩展性和性能,并 提供对 SQL 优化以及数据库内建模功能的支持。 © Copyright Integral Solutions Limited 1994, 2010 1
2 章1 ■SPSS Modeler Solution Publisher,用于在IBM SPSS*Modeler环境外执行实时或自 2章中的IBM SPSS Modeler Solution Publisher ■允许部署到IBM SPSS Collaboration and Deployment services或精简客户端应用程 序IBM SPSS Modeler Advantage的适配器。有关详细信息,请参阅第9章中的 商高用产而poeeo时利象中 IBM SPSS Text Analytics IBW。SPSS Text Analytics是一个IBMR SPSS Modeler完全集成内插式插件,它采用了 先进语言技术和Natural Language Processing(NLP),以快速处理大量无结构文本数 据,抽取和组织关键概念,以及将这些概念分为各种类别。抽取的概念和类别可以和现 有结构化数据中进行组合(例如人口统计学),并且可用于借助SPSS Modeler的一整套 数据挖掘工具来进行建摸,以此实现更好更集中的决策。 ·文本挖据节点提供了概念、类型建模以及交互式工作平台,通过此平台,可以完成 文本链接和聚类的高级探索,创建自己的类别和改进语言资源模板。 ■支持多种导入格式,其中包括“博客”和其它基于b的资源。 ■还包括定制模板、库和指定域的词典,例如CM和神经网络。 注:访问此组件需要单独许可证。有关详细信息,请参阅 http://www.spss.com/software/modeling/modeler. IBM SPSS Modeler文档 可以从SPSS Mode1er的帮助菱单中获取在线韬助格式的完整文档。世文档包括SPSS Modeler、SPSS Modeler Server和SPSS Modeler Solution Publisher的文档以及《应用 程序指南》和其他支持材料。 每个产品的完整文档(PDF格式)也位于每个产品DVD的Documentation文件夹下. ■IBM SPSS Modeler用户指南。使用SPSS Modeler的一般使用介绍,包括如何构建 数据流、处理缺失值、生成CLE表达式、处理项目和报告以及将用于部署的流 打隐名plevce、预对度前装序黄 ■$P$S Modeler源、处理和输出节点。介绍用于以不同的格式读取、处理和输出数据 的所有节点。实际上这表示所有节点而非建草节点 节点的描述。SPS 有关详细信 息,请参阅第3章中的建模节点概述中的IBM SPSS Mode1er14.1建模节点。 ■SPSS Modeler算法指南。介绍SPSS Modeler中所用建模方法的数学基础。 ■SPSS Mode1er应用程序指南。本指南中的示例旨在为只体的建模方法和技术提供具 有针对性的简介。还可以在“帮助”莱单中查阅本指南的在线版本。要从任何 IBME SPSS®Modeler安装目录访问示例流和数据文件,请在Windows
2 章 1 SPSS Modeler Solution Publisher,用于在 IBM® SPSS® Modeler 环境外执行实时或自 动评分。 有关详细信息,请参阅第 2 章中的IBM SPSS Modeler Solution Publisher 中的IBM SPSS Modeler 14.1 解决方案 发布者。 允许部署到 IBM SPSS Collaboration and Deployment Services 或精简客户端应用程 序 IBM SPSS Modeler Advantage 的适配器。 有关详细信息,请参阅第 9 章中的 存储和部署 IBM SPSS Collaboration and Deployment Services Repository 对象中 的IBM SPSS Modeler 14.1 用户 指南。 IBM SPSS Text Analytics IBM® SPSS® Text Analytics 是一个 IBM® SPSS® Modeler 完全集成内插式插件,它采用了 先进语言技术和 Natural Language Processing (NLP),以快速处理大量无结构文本数 据,抽取和组织关键概念,以及将这些概念分为各种类别。抽取的概念和类别可以和现 有结构化数据中进行组合(例如人口统计学),并且可用于借助 SPSS Modeler 的一整套 数据挖掘工具来进行建模,以此实现更好更集中的决策。 文本挖掘节点提供了概念、类型建模以及交互式工作平台,通过此平台,可以完成 文本链接和聚类的高级探索,创建自己的类别和改进语言资源模板。 支持多种导入格式,其中包括“博客”和其它基于 Web 的资源。 还包括定制模板、库和指定域的词典,例如 CRM 和神经网络。 注:访问此组件需要单独许可证。 有关详细信息,请参阅 http://www.spss.com/software/modeling/modeler。 IBM SPSS Modeler 文档 可以从 SPSS Modeler 的帮助菜单中获取在线帮助格式的完整文档。此文档包括 SPSS Modeler、SPSS Modeler Server 和 SPSS Modeler Solution Publisher 的文档以及《应用 程序指南》和其他支持材料。 每个产品的完整文档(PDF 格式)也位于每个产品 DVD 的 \Documentation 文件夹下。 IBM SPSS Modeler 用户指南。使用 SPSS Modeler 的一般使用介绍,包括如何构建 数据流、处理缺失值、生成 CLEM 表达式、处理项目和报告以及将用于部署的流 打包为 IBM SPSS Collaboration and Deployment Services、预测应用程序或 IBM SPSS Modeler Advantage。 SPSS Modeler 源、处理和输出节点。 介绍用于以不同的格式读取、处理和输出数据 的所有节点。实际上这表示所有节点而非建模节点。 SPSS Modeler 建模节点。 有关用于创建数据挖掘模型的所有节点的描述。SPSS Modeler 可提供各种借助机器学习、人工智能和统计学的建模方法。 有关详细信 息,请参阅第 3 章中的建模节点概述中的IBM SPSS Modeler 14.1 建模 节点。 SPSS Modeler 算法指南。介绍 SPSS Modeler 中所用建模方法的数学基础。 SPSS Modeler 应用程序指南。本指南中的示例旨在为具体的建模方法和技术提供具 有针对性的简介。还可以在“帮助”菜单中查阅本指南的在线版本。要从任何 IBM® SPSS® Modeler 安装目录访问示例流和数据文件,请在 Windows“开始”菜单 中 SPSS Inc 下的 SPSS Modeler 14.1 程序组中选择 Demos。 有关详细信息,请参阅第 3 页码应用程序示例
3 关于IBM SPSS Modele ·学作汽自融北。过编写脚本尖现系线自动化的相关息。包搭用 ■SPSS Modeler CLEF开发人员指南CLEF提供了将第三方程序(例如,数据处理例程或 建模算法)作为节点集成到SPSS Modeler的功能。 ·梁能囊内素新控器帮惠:有关如何利用数粥库的功能通过第三方法 ·这r8rr和性能系南。有关如何配爱和管理0 oer Ser ■Modeler Administration Console用户指南。有关安装和使用控制台用户界面以监 整资据6d1erS0ne的合这控制合炎现为no用 ■SPSS Modeler Solution Publisher指南。IBM&SPSS&Modeler solution Publisher是- 个附加式组件,通过它组织可发布在标准SPSS Modeler环境之外使用的流。 ■CRISP-DM1.0指南。借助CRISP-DM方法进行数据挖掘的分步指南。 应用程序示例 应用程序示例将 处使用的数据集比某些数据挖掘器 管理的大量数据存储要小得 ,但涉及的概念和方法应可扩展到实际的应用程序 中的“帮助”菜单选择应用程序示例来访问示例。数据文件 和样本流安装在产品安装目录下的Dmos文件夹中。有关详细信息,请参阅第4页 码Demos文件夹。 数据库建模示例。请参阅IBM SPSS Modeler数据库内挖掘指南中的示例。 编写示例脚本。请参阅IBM SPSS Modeler脚本编写和自动化指南中的示例
3 关于 IBM SPSS Modeler SPSS Modeler 脚本编写与自动化。 通过编写脚本实现系统自动化的相关信息,包括用 于操作节点和流的属性信息。 SPSS Modeler CLEF 开发人员指南CLEF 提供了将第三方程序(例如,数据处理例程或 建模算法)作为节点集成到 SPSS Modeler 的功能。 SPSS Modeler 数据库内数据挖掘指南。有关如何利用数据库的功能通过第三方算法 来改进性能并增强分析功能的信息。 SPSS Modeler Server 和性能指南。 有关如何配置和管理 IBM® SPSS® Modeler Server 的信息。 Modeler Administration Console 用户指南。有关安装和使用控制台用户界面以监 视和配置 SPSS Modeler Server 的信息。控制台实现为 Deployment Manager 应用 程序的插件。 SPSS Modeler Solution Publisher 指南。IBM® SPSS® Modeler Solution Publisher 是一 个附加式组件,通过它组织可发布在标准 SPSS Modeler 环境之外使用的流。 CRISP-DM 1.0 指南。借助 CRISP-DM 方法进行数据挖掘的分步指南。 应用程序示例 SPSS Modeler 中的数据挖掘工具可以帮助解决很多业务和组织问题,应用程序示例将提 供有关特定建模方法和技术的简要的针对性说明。此处使用的数据集比某些数据挖掘器 管理的大量数据存储要小得多,但涉及的概念和方法应可扩展到实际的应用程序。 可以通过从 SPSS Modeler 中的“帮助”菜单选择应用程序示例来访问示例。数据文件 和样本流安装在产品安装目录下的 Demos 文件夹中。有关详细信息,请参阅第 4 页 码Demos 文件夹。 数据库建模示例。请参阅 IBM SPSS Modeler 数据库内挖掘指南 中的示例。 编写示例脚本。请参阅 IBM SPSS Modeler 脚本编写和自动化指南 中的示例
4 章1 Demos文件夹 与应用程序示例一起使用的数据文件和样本流安装在产品安装目录下的Dmos文件夹 中。可从indows的“开始”菜单中IBM SPSS Modeler14.1程序组访问该文件夹,也可以 在“文件打开”对话框中最近目录的列表中选择Demos。, 程流近使用的目录列表中选择0e0s文件夹 ©打开 ☒ Lokn已14 中中回囟陶图目 Fese 离文件C open cance
4 章 1 Demos 文件夹 与应用程序示例一起使用的数据文件和样本流安装在产品安装目录下的 Demos 文件夹 中。可从 Windows 的“开始”菜单中 IBM SPSS Modeler 14.1 程序组访问该文件夹,也可以 在“文件打开”对话框中最近目录的列表中选择 Demos。 图片 1-1 在最近使用的目录列表中选择 Demos 文件夹