内容简介作为一本教科书,本书全面讲述了数据挖掘的概念、模型、方法和算法。本书共包括13章和2个附录,全面、详细地讲述了从数据挖掘的基本概念到数据挖掘的整个过程,以及数据挖掘工具及其典型应用领域。本书编写严谨、内容权威、结构合理、科学规范、语言流畅,特别适合作为高等院校数据挖掘课程的教科书,还适合作为数据挖掘研究人员必备的参考书。EISBN:04-71-22852-4Mehmed KantardzicData Mining Concepts, Models, Methods, and AlgorithmsCopyright © 2002 by IEEE Press.Original English language edition published by IEEE Press.All Rights Reserved.
前 言 从传统上讲,分析人员已经完成了从已记录数据中提取有用信息的任务。但是,现代商业和科学领域的数据增长需要应用基于计算机的方法。随着数据集规模的不断扩大和复杂度的增加,从内行的分析人员直接分析到使用更加复杂和尖端的技术来进行间接的、自动化的分析,这种转换是不可避免的。现代化的计算机技术、网络技术和传感器技术使数据的搜集和组织成为一项毫不费力的任务。但是,所获得的数据需要从已记录的数据转换成有用的信息和知识。数据挖掘就是应用基于计算机的方法论的整个过程,包括新的知识发现技术。 现代世界是一个数据驱动的世界。我们被数据所包围着,这些数据是数值型数据或其他类型,它们都必须经过分析和处理,转换成通知、指导、回答或帮助理解和作出决策的信息。现在是互联网、内联网,数据仓库和数据集市的时代,改变经典数据分析的基本范型的时机成熟了。极大的数据集(有时有数亿条个人记录)被存储在中心数据仓库中,允许分析人员使用更为综合、更为强大的数据挖掘方法。同时数据量很大且还在增加,数据源是无限的,所覆盖的领域是广泛的:包括工业、商业、金融和科学等。 近些年来,从原始数据中发现新知识的方法爆炸性地增长。有鉴于此,一个新的数据挖掘学科被专门研发出来,以便从这些巨型数据集中提取有价值的信息。如果低成本计算机(针对软件实现),低成本传感器、通信、数据库技术(用于搜集和存储数据),以及那些能使用计算机并能提出“有趣的”和“有用的”应用问题的应用专家系统都得到迅速的扩展,这丝毫不让人感到惊奇。 数据挖掘技术近来变成了决策者们的热门话题,因为它从大量的历史数据中提供有价值的、隐藏的商业和科学“情报”。但是,数据挖掘实质上不能算是一门新技术。从已记录数据中提取信息和知识是一个在科学和医学研究中已经建立完善的概念。新的内容是几门学科及相应的技术的聚合,这些技术为数据挖掘在科学和企业界发展创造了独一无二的机会。 最初,本书打算作为指导学生的介绍性资料。但是我很快发现,来自不同背景和职业,需要搞清楚大量原始数据的人们,显然也会欣赏一本包含一些最重要的数据挖掘方法、工具和算法的书籍。因此,本书的读者面很广:从希望学习数据挖掘的基本过程和技术的学生,到直接参加跨学科的选择数据挖掘工具小组的分析人员。本书回顾了一些最先进的技术,分析了高维数据空间中的大量原始数据,以提取有助于决策的新信息。书中涉及到的大部分技术定义、分类和解释都已获得广泛认可,在书末的参考书目中它们都曾经出现过。本书重点关注一种对数据挖掘过程的所有阶段来说都是系统的、平衡的方法,并用充足的示例来展现这些方法。我希望这些经过精心准备的例子能给读者自己的数据挖掘技术和工具的选择以及构造提供额外的论据和指南。要更好地理解大部分已介绍技术的实现细节对读者来说也是个很大的挑战,他们要开发自己的工具或改进他们所用的方法和技术。 要讲授数据挖掘,必须强调所用方法的概念和属性,而不是机械地应用不同的数据挖掘工具。不论所有基于计算机的工具怎样吹嘘,它们也不能代替那些决定过程怎样设计及采用什么工具的实践者。对方法、模型以及它们怎样运转及其运转原理的深入理解是有效和成功运用数据挖掘技术的先决条件。任何在数据挖掘领域的研究者和实践者都要意识到这些问题,以便成功地应用一种特定的方法,理解一种方法的局限性,或者开发新技术。本书提出和讨论了这些问题和理论,然后描述了起源于统计学、机器学习、计算机图形学、数据库、信息检索、神经网络、模糊逻辑和进化计算的具有代表性的和流行的方法。讨论了那些在揭示大型数据集的重要模式、趋向和模型的方法中,已经被证明具有关键性的方法。 虽然关注技术是容易的,当您阅读本书时记住,仅凭技术是不能提供整个解决方案的。写作本书的目标之一是把与数据挖掘有关的那种夸大减到最小,而不是对合理的期望作出错误的允诺。我努力采用更为客观的方法,描述了在数据挖掘应用中得出可靠、有用结果所必需的过程和算法。 我不提倡使用任何特殊的产品或技术优于使用其他产品或技术。数据挖掘过程的设计者必须要有足够的素养,以便选择适当的方法和软件工具。我希望当一个读者读完本书时,可以成功和有效地开始并完成数据挖掘过程的所有阶段的基本活动。 Mehmed Kantardzic Louisville, KY 2002年8月