前 言 概念和目的 本书提供了讲授数据仓库(data warehousing)、数据挖掘(data mining)和数据可视化(data visualization)基本概念的基础。内容既着重于这些现代新兴技术的技术问题和管理问题,也强调与这些问题有关的隐含意义。 商业学院的主要目的是,从用户角度开发透彻理解这些新兴技术的教材,而可用于在商业学院中向学生讲授这个主题的课本总是从设计者的角度编写的。笔者发现,这在一定程度上是矛盾的。因此,本书特别着力于帮助学生透彻地理解数据仓库及其相关技术的价值。其内容明显地面向实际,强调在所有主题域的设计和开发之上的应用和实现。未来的管理者必须理解数据仓库的设计,但他们也必须掌握这些技术有效、关键的应用所必需的技巧,以预先估计问题描述及其相关解决方案的质量。本书采用多学科用户/管理者的方式介绍了支持21世纪业务处理所必需的数据仓库技术。 总而言之,使未来的管理者熟悉和掌握数据仓库部署、数据挖掘和可视化技术,是非常重要的。正是对这种重要性的信念激发笔者编写了本书。对现在和未来的管理者而言,应用以及对使用的理解比设计更为重要,现在如此,将来依然如此。 读者对象 本书适合于商业学院的所有学生,可以作为本科高年级或研究生的信息系统课程、执行或决策选修课程的教材。四年制的大学和社区学院通常提供这些课程。在学习本课程之前,学生先最好完成MIS程序导论、系统分析和设计以及数据库概念等课程。此外,学生学习商业课程越深入,那么与本书介绍的数据挖掘和可视化的相关程度就越高。书中的很多章节除了面向学生以外,还可用于日常管理的课程中,为数据仓库从业者提供参考。 教学要素 本书适当地利用了顶级商业学院课程通常使用的传统教学要素。书中使用图形和示例来介绍概念。每一章都包含一个介绍性的小案例,以突出该章介绍的概念。每章的最后都包含关键概念小结、复习题和问题、参考文献和补充读物。下面简单介绍这些要素。 本章学习目标 每一章都用性能术语和操作术语提出该章的学习目标。换句话说,目标指出作为学习成果,学生应该能够理解的内容和能够完成的操作。 本章小案例 小案例都来自实际应用,它们为学生提供该章材料的参考。此外,每一个小案例都涉及到案例应用场合的关键角色,以便使单个学生或学生小组使用各种研究工具进行进一步的调查以扩展案例。 图形和表格 显然,精心设计的图表有助于学生对内容的理解。一旦有可能,每一章包含的图表不但在正文中引用,而且它们还作为对文字讨论的可视化引用出现。 描述性的插图 为了进一步解释与决策过程相关的概念,本书采用了描述性插图的技巧。使用描述性插图是为了让学生不仅弄清楚讨论的特定技巧是如何应用的,而且还能明白应用它的场合和环境。 数据挖掘和数据可视化练习 本书的一个特别有价值之处是与Megaputer公司的PolyAnalyst和TextAnalyst数据挖掘和数据可视化软件的捆绑。该软件包代表了数据挖掘和数据可视化系统的技术前沿。其价值为10 000美元,它的销售与本书无关。 关键概念 在每一章的小节后面是关键概念,它们以在该章中出现的先后顺序列出。帮助学生复习该章的内容,以准备班级讨论或测验。 复习题 每章都包含10~20道复习题,以帮助学生理解和记忆该章的内容。每一个问题的详细、准确答案都可以很容易地在该章中找到。 进一步讨论 每章最后的一些问题扩展了该章所提供的材料,让学生进行更深入的思考和讨论。每一个讨论题都可以用来组织班级公开讨论,其中很多问题可以扩充为个人或小组小项目。 各章概述 第1章—— 数据挖掘、数据仓库和数据可视化概述 第1章概述了数据挖掘、数据仓库和数据可视化技术,为下一步详细研究打下基础。此外,还介绍了每一种技术发展的简要历史,从而使读者能更清楚地认识到这些强大的业务工具的发展。 第2章—— 数据仓库 第2章详细介绍现代数据仓库,解释数据仓库的目的及其相关特性。此外,还介绍了各种数据仓库配置的定义和示例,以及在数据仓库的成功设计和实现中元数据的作用。 第3章—— 数据挖掘和数据可视化 该章扩展了第1、2章介绍的概念,深入探讨了数据挖掘领域,引入了联机分析处理(Online Analytical Processing,OLAP)及其变种的概念。此外,该章还讨论了用于挖掘数据的技巧、它们目前的限制及其在数据可视化环境中的应用。 该章的第2部分主要分析数据可视化和数据挖掘。本书是这些领域的第一本教材,还包含了一个实际的数据挖掘和数据可视化商业软件包,并在内容中集成了这个软件包。 第4章—— 机器学习 人工智能和数据挖掘的最新成果—— 机器学习是本章的内容。该章详细介绍了决策树、模糊逻辑和语言多义性等概念,作为详细讨论人工神经网络和遗传算法的基础。在典型的数据挖掘环境中通常采用这些分析方法。该章简单介绍了这个领域的常见应用程序。此外,还提供了最常见的人工神经网络学习算法的数学推导。 第5章—— 执行信息系统 该章主要关注在现代数据环境中最常见的实现接口—— EIS(Executive Information System,执行信息系统),详细介绍了执行域以及各种使能技术在EIS的开发和应用程序中的应用。内容包括EIS技术的定义、EIS发展的简明历史,执行级决策和决策生成器的独特属性,以及把EIS引入组织环境所引发的问题。 第6章—— 设计并构造数据仓库 第6章深入探讨了在组织数据仓库的开发中常见的进程、过程、工具和技巧。该章将使读者更好地理解与这种新颖而强大的数据存储方法相关的一些独特挑战。 第7章—— 数据挖掘、仓库和可视化的未来 该章是本书的最后一章,揭示了数据仓库、数据挖掘和数据可视化的发展趋势和未来应用,也讨论了这些技术在其他领域的进展。 相关资源 配套的Web站点为教师提供的支持材料包括非常丰富、有用的支持信息。每章都配有一个PowerPoint文件,用于课堂教学。本书中的复习题也可在线提供,学生可以方便地把答案直接通过电子邮件发送给教师。 对Web站点教师部分的访问需要一个有效的用户ID和口令。教师需要通过登录到Web站点,完成初始的教师注册过程,把自己注册为教师。完成注册过程后,注册请求将转发给销售商进行确认。如有问题,请仔细填写本书最后所附的“教辅资料申请及教师信息反馈表”中的相关表项,我们将就本书给您提供所需的服务。一旦取得访问Web站点教师部分的许可,就可以下载本书的教师手册和测试项目文件。