Amazon RDS for MySQL的零ETL集成现已正式推出,能够满足近实时分析的需求。通过简化数据处理流程,您可以更轻松地将数据从RDS同步至Amazon Redshift,支持多种新特性,包括数据过滤和多重集成配置。
零ETL集成帮助统一各类应用程序和数据来源的数据,以便提供全面的洞察并打破数据孤岛。该解决方案完全托管,无需编码,能在几秒钟内将PB级别的事务数据导入到Amazon Redshift中,前提是数据已被写入Amazon关系数据库服务Amazon RDS for MySQL。这一过程消除了创建自己的ETL任务的需求,简化了数据摄取,减少了您的运营开销,并可能降低整体的数据处理成本。去年,我们宣布了Amazon Redshift与Amazon Aurora MySQL兼容版的零ETL集成功能的正式发布,以及Amazon DynamoDB和RDS for MySQL的预览可用性。
我很高兴地宣布,Amazon RDS for MySQL 的零ETL集成现已正式推出。这次发布还包括新功能,如数据过滤、支持多重集成和在AWS CloudFormation模板中配置零ETL集成的能力。
在这篇文章中,我将向您展示如何开始使用数据过滤,并跨多个数据库和数据仓库合并您的数据。若需要详细的步骤来设置零ETL集成,请查看这篇博文,它提供了如何为Aurora MySQL兼容版设置集成的描述。
无论公司大小,利用过滤功能都能提升它们的ETL任务效率。一个典型的用例是通过选择所需的数据子集来减少数据处理和存储成本。此外,排除个人可识别信息PII也是一个重要应用场景。例如,医疗行业的企业可能希望在复制数据进行汇总报告时,排除敏感患者信息。同样,电子商务商店可能想让市场部门获得客户消费模式的数据,但要排除任何识别信息。反之,在一些情况下,例如向欺诈检测团队提供全部数据以便实时推理时,您可能不希望使用过滤。这些只是一些示例,因此我鼓励您实验和发现适合您组织的不同使用案例。

在零ETL集成中启用过滤有两种方式:在创建集成时或通过修改现有集成。无论哪种方式,您都可以在零ETL创建向导的“源”步骤中找到此选项。
通过输入过滤表达式,您可以按格式databasetable包含或排除数据库或表。您可以添加多个表达式,并按左到右的顺序进行评估。
如果您正在修改现有集成,新的过滤规则将在您确认更改后立即生效,且Amazon Redshift将删除不再部分过滤的表。
想要深入了解的话,我建议您阅读这篇博文,其对如何为Amazon Aurora零ETL集成设置数据过滤进行了详细探讨,步骤和概念非常相似。
您现在可以从单个RDS for MySQL数据库配置最多5个Amazon Redshift数据仓库的集成。唯一要求是您必须在添加其他集成之前等待第一个集成成功设置完成。
这使您能够与不同团队分享事务数据,同时为他们特定用例提供各自的数据仓库。例如,您也可以通过数据过滤将不同的数据集分发到开发、测试和生产的Amazon Redshift集群中,均源自同一Amazon RDS生产数据库。
另一个有趣的应用场景是通过零ETL将数据复制到不同的数据仓库来整合Amazon Redshift集群。您还可以使用Amazon Redshift的物化视图来探索数据,增强Amazon Quicksight仪表板,分享数据,训练Amazon SageMaker中的模型等等。
全局加速器永久免费RDS for MySQL的零ETL集成与Amazon Redshift允许您进行近实时分析,而无需构建和管理复杂的数据管道。今天它已正式发布,具备添加过滤表达式以包含或排除重复数据集中的数据库和表的功能。现在您还可以从同一源RDS for MySQL数据库创建多个到不同Amazon Redshift仓库的集成,或者从不同来源创建集成,将数据整合到一个数据仓库中。
这一零ETL集成适用于版本8032及更高版本的RDS for MySQL、Amazon Redshift Serverless以及Amazon Redshift RA3实例类型,在受支持的AWS区域中可用。
除了使用AWS管理控制台,您还可以通过AWS命令行界面AWS CLI或使用如boto3这样的AWS SDK官方Python AWS SDK来设置零ETL集成。
查看文档以了解更多关于如何处理零ETL集成的信息。
Matheus Guimaraes
01-27
通过亚马逊 OpenSearch 服务将长期日志费用降低 4800 大数据博客
降低长期日志开销达4800 的亚马逊 OpenSearch 服务关键要点使用 Amazon OpenSearch Service 存储日志数据,能够显著降低存储成本。文章讨论了 OpenSearch ...
01-27
如何降低 Amazon Kinesis 视频流的延迟 第 1 部分 物联网官方博客
降低 Amazon Kinesis Video Streams 延迟的方法 第 1 部分作者:Dean Colcott,发表于2022年12月21日,来源于 文章类型、最佳实践、专家 (400)、Ki...
01-27
在您的生成式人工智能应用中使用网页搜索 API 和 Amazon Bedrock 代理集成动态网页内
在生成型 AI 应用中集成动态网页内容关键要点功能增强:通过将 Amazon Bedrock Agent 与网页搜索 API 集成,提升聊天机器人实时搜索和动态信息检索能力。简化操作:开发者可借助 A...
01-27
在 Amazon QuickSight 中使用跨表筛选器和控件 商业智能博客
在 Amazon QuickSight 中构建跨表筛选器和控件关键要点Amazon QuickSight 通过引入跨表筛选器和控件功能,简化了分析过程。新功能允许用户跨多个表创建、删除和编辑筛选器。控...