30分钟内加载1TB 的数据——SSIS打破商业ETL工具的记录

许多企业拥有海量的数据,并将其存储在多个不同的数据源。为了给用户提供有意义和可靠的信息,企业需要提取、转换和加载数据(Extract, Transform, and Load data,简称 ETL)。SQL Server 集成服务 (SSIS)可以让企业把来自异构数据源的任意数据加载到数据库。

2008年2月,微软宣布了SQL Server 集成服务数据加载的一个破记录壮举:SQL Server集成服务用不到30分钟的时间把1 TB 的数据从平面文件加载到SQL Server 2008。这比其他商业ETL工具的最佳时间快了30%。

该项测试把数据源分布在四台服务器中,每一台数据源服务器都是UNISYS ES3220L(2 sockets each with 4 core Intel 2GHz CPUs, 4GB RAM, Windows Server 2008, SQL Server 2008)。数据目的地的服务器是一台UNISYS ES7000/One(32 sockets each with 2 core Intel 3.4 GHz CPUs 256 GB RAM, Windows Server 2008 and SQL Server 2008)。集成服务将海量的数据通过千兆以太网络加载到数据目的地。测试用的数据来自TPC-H的数据生成程序DBGEN。

 SSIS包裹概要

图1 SSIS包裹概要

硬件和配置

图2 硬件和配置

MSDN白皮书中,我们可以详细了解关于该项测试所使用的软件、硬件和配置。同时,文章中也详细提供与这些技术相关的典型方案的建议。

SQLCRD BI团队