集结区
- 加载到数据仓库之前集结数据,主要为了:
- 集结区:
- 持久集结区:为维护历史信息而使用。
- 临时集结区:集结区的数据则在每次加载过程后被删除。
- 使用平面文件存储集结数据:如果使用ETL工具,可以在文件系统中使用简单文件来存储集结数据。集结数据像数据库表那样按照行列存储在文件系统中的时候,称之为平面文件。
- XML数据集转移数据(平面文件/数据库集结区与源数据之间):XML数据集在ETL系统中通常不用于永久存储集结区数据,它们更适用于作为ETL系统的输入输出的标准格式。XML是目前在不兼容系统中转移数据的最有效的中间层。
- 关于XML
- 关系表存储集结数据:集结区数据可以存储在关系型DBMS中,尤其是没有使用专门的ETL工具。
- 维度数据类型:维度数据结构是ETL过程的最终目标,位于前台和后台之间。维度模型是把表传递给最终用户环境之前的最后一步物理集结步骤。
- 事实表:维度模型是围绕着度量过程建立的,度量基本上是数值型的。一次度量构建一条单独的事实表记录,相对的,一条事实表的记录对应一条特定的度量事件。度量将存储在事实表记录中,同时还要将度量的上下文信息存储在同一条记录中。通过创建一系列的维表将这些上下文的属性规范化的存储在列事实表中,事实表中存储的是维度表的主键。
- 维表:每个维表中的主代理键应该与事实表中的相应的外键相匹配。
- 代理键映射表:用来建立各个源系统的自然键到主数据仓库代理键之间的映射。由于同一个维度可以有不同的源,因此映射表中腰围每个源的自然键创建单独的列。