6.2 Tạo Catalog cho Clean Zone
Tạo Glue Data Catalog cho Landing Zone
- Truy cập Amazon Management Console
- Tìm kiếm dịch vụ Glue
- Chọn Glue từ kết quả tìm kiếm
- Tạo Database cho Glue Data Catalog
- Trong phần Glue Data Catalog chọn Databases rồi chọn Add database
- Nhập tên database là
fashion-clean-zone
- Chọn Create
- Tạo table cho Glue Data Catalog
- Bấm vào database
fashion-clean-zone
vừa tạo - Chọn Add table rồi chọn Add tables using a crawler
- Bấm vào database
- Trong phần crawler properties
- Nhập tên crawler là
fashion-clean-zone-crawler
- Chọn Next
- Nhập tên crawler là
- Chọn nguồn dữ liệu bấm vào Add a data source
- Chọn S3 rồi chọn Browse
- Chọn bucket
fashion-clean-zone
rồi chọn Add - Chọn Next
- Trong phần IAM role
- Chọn Create an IAM role
- Nhập tên role là
AWSGlueServiceRole-FashionCrawlerRole
- Chọn Next
- Trong phần Set output and scheduling
- Target database: Chọn database
fashion-clean-zone
- Frequency chọn Daily và nhập 17:00 (UTC là 00:00 giờ Việt Nam)
- Chọn Next
- Target database: Chọn database
- Trong phần Review
- Chọn Finish
- Chọn Run Crawler và đợi quá trình crawler hoàn thành. Quá trình này sẽ mất khoảng 1 phút.
Kiểm tra kết quả với Athena
Truy cập dịch vụ Athena từ AWS Management Console.
Bấm vào Launch Query Editor
- Trong giao diện Query Editor, bấm vào Settings bấm Manage
- Bên dưới phần Location of query result bấm Browse S3 và chọn bucket
fashion-logic-zone
- Chọn Save
- Bên dưới phần Location of query result bấm Browse S3 và chọn bucket
- Quay lại phần Editor
- Phía bên trái, chọn Data Source là AwsDataCatalog
- Chọn Database là
fashion-clean-zone
- Sau đó có thể gõ câu lệnh SQL để truy vấn dữ liệu. Ví dụ:
SELECT * FROM "fashion-clean-zone"."clickstreams" limit 10;