Process Mining学习笔记(一)

课程名称是 《Process Mining: Data Science in Action》,以下是课后笔记整理。

Date Science and Big Data

当今的时代,海量数据不断地产生,在过去的10分钟产生的数据量,都超过了2003年之前人类历史上产生的所有数据。人类的各种活动,都会不断地产生一系列的event data(事件数据)。人类的事件数据形成了一个网,即Internet of Events。它的数据主要有4种来源:

Read More

数据仓库的设计(二)

书中以不同行业为背景,举了不同的例子来说明数据仓库设计中的各种问题。而且强烈建议读者把所有的内容都阅读一遍,无论是不是你感兴趣的行业。因为行业只是背景,在不同行业背景里的数据仓库,用到了不同的设计方法,只有全部阅读一遍,才能全面了解数据仓库的设计。

这一章,是零售行业的背景。

维度设计的过程

开始数据仓库的维度设计,需要进行以下四个步骤:

Read More

数据仓库的设计(一)

该系列文章是阅读Kimball的《The Data Warehouse Toolkit 3rd Edition》的笔记,做了一个整理。

Kimball的这本大作,是数据仓库领域的经典。从书中可以学习到很多关于数据仓库设计的道与术。虽然现在都在往大数据NoSQL方向挤,但NoSQL也是Not only SQL,可见,SQL所代表的关系型数据库,依然是整个数据世界的基石,而数据仓库的相关技术,也可以为我们进行大数据的结构设计时提供参考。

Read More