关于ETL过程(3)

前端之家收集整理的这篇文章主要介绍了关于ETL过程(3)前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

抽取

  1. 逻辑数据映射:描述了ETL系统中起点和终点之间的关系。(Logical Data Mapping)用来描述源系统的数据定义,目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或EXCEL的格式保存如下信息:目标表名,目标列名,目标表类型(事实表,维度或支架维度表), SCD类型,源数据库名,源表名,转换方法。在进行物理数据映射前进行逻辑数据映射对ETL项目组是重要的。
  2. 源系统的分析
    • 数据发现阶段
    • 异常检测阶段
  3. 分析源系统:如果是基于关系型技术,一般通过获得系统的ER图来对所选的记录系统加深理解。ER图可以通过对数据库进行反向工程获得。许多数据评估工具可以很容易做到这点。
  4. ER图主要特性
    • 唯一标识和自然键:唯一标识是一个表的主键, 自然键用来描述该行的业务作用。
    • 数据类型
    • 表之间的关系:关联关系(1:1,1:n, n:n)
    • 离散关系
  5. 通过ODBC连接不同的源(开放数据库连接)
    • ODBC 建立的初衷是使得应用程序变成通用的,如果一个应用程序的底层数据库改变了,比如DB2——>Oracle。这个应用程序不需要重新编码和编译就可以适应这个变化。
    • ODBC 结构图:
  6. 主机数据源
    • COBOL: 主机上的主要编程语言
    • EBCDIC:大多数DWH在老的主机系统和基于UNIX和windows的系统都采用二进制位和字节存储。
    • ASCII: UNIX和windows使用美国标准信息交换码(ASCII)字符集。与EBCDIC用不同的8位组合来表示 A-Z, a-z, 0-9, 标点符号和特殊符号。要在UNIX或者windows系统中使用来自主机系统的数据,首先必须从EBCDIC转化为ASCII。
    • 处理主机数字类型数据:25,000.01和2,500,001 都存储为002500001.
    • 使用PIC:PIC语句可以给同一个数据值不同的意思。
    • 解压压缩的数字:在大多数主机系统,大多数数字数据是以COMP-3格式存储的,即使用半字节(四位字节)来存储数字数据。压缩后的数字不能简单的从EBCDIC转到ASCII,需要用COBOL...按照显示格式重新格式化主机数据。
    • 使用重定义字段:为了不浪费空间,主机工程师设计了Redefines,这种方法允许相互分割的数据元素占用相互的物理空间。
    • 多重OCCUR子句:主机COBOL程序使用OCCURS子句来处理重复分组。 OCCURS 5 times
    • 管理多主机记录类型文件:在同一文件中重新组织多个记录类型:节省空间
    • 处理主机变化记录长度
  7. 平面文件(广泛用于任何数据集结应用系统)
    • 传输源数据,往往通过FTP到数据集结区
    • 用于集结表
    • 块加载准备
  8. 平面文件类型
    • 固定长度的
    • 分隔符分隔的,一般用逗号,以.csv作为扩展名
  9. XML数据源(多用于传递数据):XML包含2个重要元素:元数据和数据本身
  10. 元数据:标签
  11. Web日志数据源:log
  12. ERP系统数据源
  13. 抽取变化数据:捕获源数据中的数据内容的变化。

猜你在找的XML相关文章