阅读背景:

使用AWS Data Pipeline处理数据

来源:互联网 

Data Pipeline的主角是数据。

AWS上提供了多种服务来存储、处理数据,S3,EMR,Redshift,RDS,DynamoDB。

Pipeline就是帮用户在这么多种数据源上进行处理。

下面通过简单制作一个pipeline把S3数据拷贝到S3上的另一个路径,来学习Data Pipeline的基础概念。

创建pipeline


可以通过预定义的模板来定义管道



管道可以单次运行或者类似cron定时运行




定义pipeline

空白模板



创建数据源(注意FilePath,from是源,to是目的)



可以用的数据源



定制Activity 活动


活动的可选类型



连接后的结果的可视化界面



这时如果想保存,执行管道的时候,会出现错误


需要设置 资源

也就是运行这个Activity的环境,我们使用EC2



执行

保存Pipeline后,会询问是否Activate激活,选择Yes。然后开始运行。



结果

会看到在S3的to目录里,有了拷贝过来的test.txt文件


分享到: