内容简介
    自1998 年本书第一版出版以来,经过十多年的发展,数据仓库行业已经完全成熟,而且软硬件都有了极大的进步。那一版所提出的方法几乎已经被所有的数据仓库厂商和从业人员所采纳。现在,Ralph Kimball 和其他专家一起对原有的生命周期方法和技巧集进行了改良。在本书中,他们将悉心为您讲述设计、开发和部署DW/BI系统的详细步骤。这些步骤将教会您如何创建一个具有适应性的系统来为业务用户提供数据和分析结果,以帮助他们做出更好的商务决策。◆ 以业务需求为核心标准进行讨论◆ 以人为本,详细讨论项目团队各成员的职责及其应该关注的内容◆ 以Kimball生命周期路线图为主线进行讲述,结构清晰◆ 用维度建模来解析业务需求,同时保持查询的高效信息网站: 和http://www.tupwk.com.cn
在《数据仓库生命周期工具箱》第一版出版之后的九年里,数据仓库产业已经发生了显著的变化。现在,数据仓库产业已经变得十分成熟,并且得到了商业界的接受和认可。在这九年里,硬件和软件的发展取得了令人难以置信的成就。我们已经开始谈论“TB”字节而不再是“GB”字节。但是,数据仓库的任务基本上没有什么改变。 许多人所在的机构里有数千位的数据仓库用户,从业务决策者到一般的数据仓库用户,再到市场营销和财务用户中的骨干成员。事实上,操作方面的迫切需求是数据仓库研究中的最热点问题,而且每个人都坚持认为他们需要“实时”数据。在数据仓库变得越来越重要、越来越直观的同时,用户反复提出保密性、安全性和合规性方面的需求。业务用户正在逐步意识到高质量数据的价值,这和传统制造业注重质量管理是一样的道理。最后,可能也是最重要的,我们为自己所从事的这个行业起了一个新的名称,这个名称反映了我们的真正目的。它就是:商业智能(Business Intelligence)。为了强调这一点,在本书的大多数地方,我们都把您要创建的整个系统叫做DW/BI系统。 商业智能的这种转变将主动权移交到了业务用户手中,而不再是由IT人员掌握主动权。但同时这个转变将全部注意力都集中到了数据仓库的使命上:它是商业智能必需的平台。数据仓库需要做繁重的工作,它从源系统中取得数据,对数据进行清洗,并将数据组织起来使普通的业务用户能够看懂它。当然,我们力争实现世界级的商业智能,但是世界级的商业智能需要您拥有一个世界级的数据仓库。反过来说,一个数据仓库没有商业智能将会遭遇彻底的失败。 本书是DW/BI系统的设计人员、管理人员和所有者在实际工作中的指南。我们尽可能使本书的内容非常具体和实用,以便将这本书与其他DW/BI书籍区分开来。被本书的内容搞得眼花缭乱并没有关系,我们希望您一直坚持读下去,最终必然会达到预定目标。这本书描述了一个条理清晰的DW/BI系统框架,这个框架从确定整个企业DW/BI系统的初始范围开始,经过详细的开发和部署步骤,一直到最后计划下一个阶段的工作。 全世界安装有好几万个功能各异的数据仓库。很多DW/BI系统的所有者都是完全按照生命周期的思想来进行开发的。或许从生命周期思想中可以得到的最大收获就是:每个DW/BI系统都是不断发展变化的,它永远都不是静止的,也决不会停止转变。新的商业需求会不断涌现,新的管理者和执行官也会对DW/BI系统提出一些不可预知的要求,还会有新的可用的数据源加入到系统中。至少,DW/BI系统需要根据所处机构的变化而同步调地变化。稳定的机构也会要求DW/BI系统取得适度的演化,不断变化的动态机构则会使DW/BI系统的任务变得更具有挑战性。 考虑到DW/BI系统具有不断演化的特性,我们需要灵活可变的、适应性强的设计方法,还必须同时扮演DBA和MBA的角色。我们需要将来自单个业务过程的小块数据连成大块数据,从而形成企业级的数据仓库。同时,还要求对DW/BI系统所做的改变始终是适度的。一个适度的改变不会使以前的数据或先前的应用程序无效。 本书结构 本书有两大基本主题。第一个主题就是Kimball生命周期方法。您可能会问:“是什么使得Kimball生命周期方法与其他方法不同?”最简单的答案是我们从业务用户的角度开始,找出他们完成工作需要什么,并以此来建立DW/BI系统。有了这些需求之后,我们逐步向下使报表、应用程序、数据库和软件系统地进行工作,最后再深入到底层设施的物理层。这与技术驱动的方法形成鲜明的对比——其顺序正好相反。在20世纪90年代初期,一些IT工作室并不知道怎样使用我们这种面向业务和用户的方法。但是随着2008年本书的出版,“商业智能”这个名称本身就说明了这一切,即应该由用户和业务来驱动数据仓库。 第二个主题是“总线架构”。本书中介绍了如何进行单个业务过程的连续迭代,使读者最终能够创建一个企业DW/BI系统。在本书中,您会看到我们将维度模型作为一种向业务用户表现数据的可靠方式。推荐这种方法只有一个原因:它确实能够满足业务用户的愿望,简单并且具有高效的查询性能。我们由衷地感谢您能够选择本书所讲述的维度建模方法。最后,您可以使用任何您认为比较合适的方式将数据呈现给用户。这不应当由我们来决定,而是应当由用户来决定。 本书中涵盖了上述观点,提供了能够辅助用户完成工作的各种具有实际价值的技能和实用的工具。通过这种方式,希望能将我们自1982年以来在建立DW/BI系统的过程中积累的想法和经验都讲授给您。 本书读者对象 本书的主要读者应该是那些真正需要在实现“作为商业智能应用平台的数据仓库”的过程中负责创建和管理工作的设计人员或者管理人员。因为“作为商业智能应用平台的数据仓库”这句话十分冗长而拗口,因此在提到整个系统时我们都使用“DW/BI”这一名称,它说明您需要负责从初始源系统获得数据一直到将数据显示到业务用户屏幕的整个过程。 尽管本书包含一些介绍性的内容,但是我们认为这本书对于已经对数据仓库技术有一定接触的IT专业人员来说将非常有用。在2002年出版的另一本相关书籍,是由Ralph Kimball和Margy Ross编写的The Data Warehouse Toolkit [Second Edition],该书更加深入而具体地讲述了维度建模。 通过设计和交付一个真正的数据仓库,您可能已经积累了一些经验并且形成了自己的观点,这就是最好的知识背景!开发一个实际的数据仓库所积累的经验是任何其他方式都无法替代的。在将自己的“杰作”提交给一群要求苛刻的业务用户时,我们这些作者都曾有过一些令人感到羞愧的经历。令人难以接受的是,大多数用户的实际工作与技术毫不相干,他们甚至可能特别不喜欢技术。但是如果我们的技术易于使用,并且能够为用户提供明显的使用价值,那么业务用户还是会使用我们的技术的。 本书要求有一定的专业知识。其中,有关设计技巧和体系结构方面的论述毋庸置疑地会引入一些您未曾遇到过的专业术语。我们已经对本书进行了精心梳理,以确保大多数技术方面的主题都是读者应该能够理解的。我们尽量使本书不会因为内容本身的原因而使您陷入细节上的困扰。在本书后面的DW/BI的术语表中,将简要地解释我们在书中所使用的术语。 尽管我们希望读者能够完整地阅读本书来理解Kimball生命周期的全过程,但是我们在每一章的开始也会强调该章所主要针对的读者,这样您就可以更好地判断哪些内容需要精读,哪些内容可以跳过。希望您的经验和看法使您搭建起自己的框架,这样我们的观点就可以被串联在一起了。阅读完第一章以后,您将会看到在建立一个DW/BI系统时必须按照三条并行的路线推进:技术、数据和商业智能应用程序。我们还在每一章开头的“You Are Here”图中都指明了这三条路线。尽管这三条路线之间明显会互相影响,但是它们的开发应该以并行方式和异步方式进行。 由于图书的内容必然是按照线性方式进行编排的,所以我们不得不线性地介绍Kimball生命周期中的所有步骤,就像这些步骤是以某种固定的次序发生一样。希望在读完本书以后,您能够想象出这些步骤在现实世界中是具有更现实、更复杂的关系的。读完本书以后,当您的项目进行到某个特定阶段时,请再返回到相应的章节并重新仔细地阅读其内容。这也就是为什么我们将其称作生命周期工具箱的原因。 这本书与第一版有什么不同 与第一版相比,第二版生命周期工具箱的内容有了明显的更新和重组。前三章可以帮助您理解整个Kimball生命周期过程,并确保您的工作已经满足继续向前推进所必需的条件。然后,我们努力使有关复杂架构的讨论更具有实际价值,并且更加紧密地将架构和Kimball生命周期中各项活动的次序联系起来。在第4章我们细致地讲述了DW/BI系统的完整架构,包括从原始数据的提取到最后将数据显示到业务用户屏幕上的整个过程。在第5章我们讲述了怎样为这个技术架构创建一个详细的计划和如何进行产品选择。然后,从第6章到第12章,我们沿着三条主线(数据库设计、ETL系统和BI应用程序)系统地展开,先从概念上进行介绍,随后又从物理上进行了介绍。在最后的两章里,讲述了如何将这个精心设计的庞然大物部署到实际业务环境中,并且讨论了在第一轮实现之后怎样扩展DW/BI系统。 希望我们对数据仓库和商业智能的热情能够贯穿本书的始终。DW/BI所面临的挑战令人着迷,而且也值得探索。毋庸置疑的是,数年之后当DW/BI厂商对他们的产品加以更新时,所有以前的东西都会被取代,相应的名称也会改变。但是我们的任务仍然不会改变,那就是:为业务用户提供数据和分析结果,使他们能够更好地进行业务决策。