kettle的体系架构由三个模块组成:
ETL:从不同的异构系统中集成数据,提供数据的计算处理能力。主流的软件有DataStage,Informatica和Kettle。数据平台以离线的批量计算为主,对于实时计算的需求主要通过微批量处理来实现,即运行时间间隔较短的离线计算,例如每小时运行一次。
关系数据库:企业数据仓库的载体,提供数据的存储和支持分析为主的联机查询(OLAP),主要以SQL的方式提供数据访问的接口。
前端应用:数据的分析、展现和应用。典型的工具包括类似于SAP BO, Cognos的商业智能 (BI, Business Intelligence)工具,或者SPSS,SAS这类的统计分析工具。当然,大部分的BI工具也能够把数据存储在一个多维数据集(Cube)中,而不是在关系数据库中,从而提供更好的查询性能