当前位置：首页科普知识 DataStage

DataStage

发布时间:2023-09-14 01:54:07

IBM® InfoSphere™ Information Server 是一种数据集成软件平台，能够帮助企业从散布在各个系统中的复杂异构信息获得更多价值。InfoSphere Information Server提供了一个统一的平台，使公司能够了解、清理、变换和交付值得信赖且上下文丰富的信息。

DataStage介绍

IBM® InfoSphere™ DataStage® and QualityStage™ 提供了图形框架，您可使用该框架来设计和运行用于变换和清理、加载数据的作业。

依靠您具有许可证的那些产品，您可以开发可变换和清理、加载数据的并行作业、可变换数据的服务器作业以及可变换数据的大型机作业。并行作业和服务器作业在 IBM InfoSphere Information Server 引擎上运行。大型机作业将生成可在大型机上运行的 COBOL 代码。

您可以在 IBM InfoSphere DataStage and QualityStage Designer 客户机中设计作业并在 IBM InfoSphere DataStage and QualityStage Director 客户机中运行这些作业。作业以项目的形式组织，您可以使用 IBM InfoSphere DataStage and QualityStage Administrator 客户机来管理这些项目。您可以使用 InfoSphere Information Server Manager 来部署作业设计及其间接材料。

DataStage功能介绍

数据变换和移动是对源数据进行选择和转换并映射为目标系统所需格式的过程。该过程将处理数据，使它与业务、域和完整性规则保持一致，并与目标环境中的其他数据保持一致。

IBM® InfoSphere™ DataStage® 具有满足最苛刻的数据集成需求所需的功能性、灵活性和可伸缩性。

InfoSphere DataStage 具有以下功能：

从范围最广的企业和外部数据源集成数据

合并数据验证规则

使用可伸缩的并行处理来处理并变换大量数据

处理非常复杂的变换

管理多个集成过程

可直接连接到作为源或目标的企业应用程序

利用元数据进行分析和维护

以批处理、实时或 Web service 方式操作

变换可以采用以下形式：

聚集

将数据值合并或汇总到单个值中。收集要在周级别进行聚集的每日销售数据是聚集的一个常见示例。

基本转换

确保数据类型从源正确地转换并映射到目标列。

清理

解析不一致情况并修正源数据中的异常。

派生

通过使用算法变换多个源中的数据。

充实

结合内部或外部源中的数据，向数据提供更多含义。

规范化

减少冗余和可能重复的数据。

转换

将输入流中的记录转换为数据仓库或数据集市的相应表中的多条记录。

排序

根据数据或字符串值对数据进行排序。

IBM® InfoSphere™ DataStage® 支持对数据结构从简单到高度复杂的大量数据进行收集、变换和分发操作。InfoSphere DataStage 管理到达的数据以及定期或按调度接收的数据。InfoSphere DataStage 使公司能够通过对大量数据进行高性能处理，解决大规模的业务问题。

通过利用多处理器硬件平台的并行处理能力，InfoSphere DataStage 可以扩展为满足日益增长的数据量的需求、严格的实时需求和不断缩短的批处理时间窗口的需求。

InfoSphere DataStage 通常部署到企业应用程序、数据仓库以及数据集市之类的系统。InfoSphere DataStage 通过以下方式提供该功能：

支持操作、事务和分析目标之间的数据移动和变换

帮助公司确定如何很好地（批处理方式或者实时方式）集成数据以满足其业务需求

节省时间并提高设计、开发和部署的一致性

DataStage体系架构

InfoSphere DataStage 体系结构包含以下组件：

公共用户界面

InfoSphere DataStage 用户界面包含以下客户机应用程序：IBM InfoSphere DataStage and QualityStage™ Designer

用于创建 InfoSphere DataStage 应用程序（称为作业）的图形设计界面。因为变换是数据质量不可或缺的部分，所以 IBM InfoSphere DataStage and QualityStage Designer 是用于 InfoSphere DataStage 和 IBM InfoSphere QualityStage 的设计界面。每个作业都指定了数据源、所需变换和数据的目标。编译作业以创建由 InfoSphere DataStage and QualityStage Designer 调度并在 IBM InfoSphere Information Server 引擎上运行的可执行文件。设计器客户机将开发元数据写入到动态存储库，而部署所需的已编译执行数据将写入到元数据存储库。

InfoSphere DataStage and QualityStage Director

用于验证、调度、运行和监视 IBM InfoSphere DataStage 序列的图形用户界面。导向器客户机查看操作存储库中的作业数据，并将项目元数据发送到元数据存储库以控制作业的流程。

IBM InfoSphere DataStage and QualityStage Administrator

用于管理任务（例如设置 IBM InfoSphere Information Server 用户；记录、创建和移动项目；设置清除记录的条件）的图形用户界面。

公共服务

InfoSphere DataStage 的多个离散服务提供了配置支持日益多变的用户环境和分层体系结构的系统所需的灵活性。公共服务提供了体系结构各部分之间的灵活且可配置的相互连接：

元数据服务，例如影响分析和搜索

支持所有 InfoSphere DataStage 功能的执行服务

支持 InfoSphere DataStage 任务的开发和维护的设计服务

公共存储库

公共存储库包含支持 InfoSphere DataStage 所需的以下类型的元数据：

项目元数据

所有项目级别元数据组件（包括作业、表定义、内置阶段、可复用子组件和例程）都组织到文件夹中。

操作元数据

存储库中包含元数据，用于描述集成过程运行的操作历史数据、作业是成功还是失败、使用的参数以及这些事件的时间和日期。

设计元数据

存储库中包含 InfoSphere DataStage and QualityStage Designer 和 IBM InfoSphere Information Analyzer 创建的设计时元数据。

公共并行处理引擎

该引擎运行在各种设置中抽取、变换和装入数据的可执行作业。引擎使用并行性和流水线以快速处理大量工作。

公共连接器

连接器提供与大量外部资源的连接，以及从处理引擎对公共存储库的访问。InfoSphere Information Server 支持的所有数据源都可用作作业的输入或输出。

DataStage设计流程

中心 IBM® InfoSphere™ DataStage® 元素可以是项目、作业、阶段、链接、容器和表定义。

DataStage项目

InfoSphere DataStage 是您最初通过 IBM InfoSphere DataStage and QualityStage™ Administrator 创建的基于项目的开发环境。在安装期间或当您启动InfoSphere DataStage 客户机工具（除管理器之外）时，您可以创建项目。每个项目都包含 InfoSphere DataStage 组件（包括作业和阶段、表定义以及链接和容器）。作业和阶段

作业定义确定 IBM InfoSphere Information Server 如何执行其工作的步骤顺序。设计了作业后，将对作业进行编译，并在并行处理引擎上运行。引擎根据作业设计运行多种功能，例如连接、抽取、清理、变换和数据装入。

组成作业的各个步骤称为阶段。InfoSphere Information Server 提供了大量预构建阶段以用于执行最常见的数据集成任务，例如排序、合并、连接、过滤、变换、查找和聚集。阶段包括功能强大的组件，以高效地访问用于读取和装入的关系数据库（包括并行关系数据库）。

阶段通常提供大多数企业数据集成应用程序所需的应用程序逻辑的 80% 到 90%。InfoSphere Information Server 还提供许多用于构建和集成定制阶段的阶段类型：

合并阶段

使您能够以并行方式运行现有顺序程序

构建阶段

使您能够将自动生成的 C 表达式写入到并行定制阶段中

定制阶段

提供了用于开发复杂和可扩展阶段的完整 C++ API。

图 1 显示了由数据源、Transformer（转换）阶段和目标数据库组成的简单作业。阶段之间的链接表示数据流入阶段或从阶段流出。InfoSphere DataStage 提供各种不同的阶段。

表 1 描述一些具有代表性的示例。

表 1. 阶段示例
阶段	描述
Transformer 阶段	对输入数据集执行任何所需转换，然后将数据传递到另一个处理阶段或传递到将数据写入到目标数据库或文件的阶段。
Sort 阶段	执行复杂的高速排序操作。
Aggregator 阶段	将单个输入数据集中的数据行分类为组，并计算总数或每组的聚集数。
Complex Flat File 阶段	从包含复杂数据结构（例如阵列或组）的平面文件抽取数据。
DB2® 阶段	从 IBM DB2 读取数据或将数据写入到其中。

每个阶段都具有告诉阶段如何执行或处理数据的属性。属性可能包括 Sequential File 阶段的文件名、要排序的列、要执行的变换和 DB2 阶段的数据库表名称。

InfoSphere DataStage 插件体系结构便于 InfoSphere 软件和供应商添加阶段，例如其他连接。

DataStage表定义

表定义是所处理数据的记录布局（或模式）和其他属性。表定义包含列名、数据类型、长度和其他列属性（包括键和 NULL 值）。可使用设计器客户机从数据库、COBOL 副本和其他源导入表定义。然后，在链接中使用这些表定义以描述在阶段之间流动的数据。

DataStage链接和容器

在 InfoSphere DataStage 中，链接通过处理阶段将作业中描述数据流和数据定义的各个阶段从数据源连接到数据目标。通常，连接到阶段的输入链接将数据传输到阶段。输出链接传输经过阶段处理的数据。

容器中装有用户定义的阶段分组，或可复用的链接。容器使工作流程的共享更容易。有两种类型的容器：

共享可复用的作业元素，通常由大量阶段和链接组成

本地在作业内创建并且仅能由该作业访问的元素。在作业图窗口的标签页中的本地容器可用于“清除”图，以隔离流程的各个区域。

温馨提示：

本文【DataStage】由作者 爱百科 转载提供。该文观点仅代表作者本人，自学教育网信息发布平台，仅提供信息存储空间服务，若存在侵权问题，请及时联系管理员或作者进行删除。