6.2 Tạo Catalog cho Clean Zone

Tạo Glue Data Catalog cho Landing Zone

  1. Truy cập Amazon Management Console
    • Tìm kiếm dịch vụ Glue
    • Chọn Glue từ kết quả tìm kiếm

alt

  1. Tạo Database cho Glue Data Catalog
    • Trong phần Glue Data Catalog chọn Databases rồi chọn Add database
    • Nhập tên database là fashion-clean-zone
    • Chọn Create

alt

alt

  1. Tạo table cho Glue Data Catalog
    • Bấm vào database fashion-clean-zone vừa tạo
    • Chọn Add table rồi chọn Add tables using a crawler

alt

  1. Trong phần crawler properties
    • Nhập tên crawler là fashion-clean-zone-crawler
    • Chọn Next

alt

  1. Chọn nguồn dữ liệu bấm vào Add a data source
    • Chọn S3 rồi chọn Browse
    • Chọn bucket fashion-clean-zone rồi chọn Add
    • Chọn Next

alt alt

  1. Trong phần IAM role
    • Chọn Create an IAM role
    • Nhập tên role là AWSGlueServiceRole-FashionCrawlerRole
    • Chọn Next

alt

  1. Trong phần Set output and scheduling
    • Target database: Chọn database fashion-clean-zone
    • Frequency chọn Daily và nhập 17:00 (UTC là 00:00 giờ Việt Nam)
    • Chọn Next

alt

  1. Trong phần Review
    • Chọn Finish

alt

  1. Chọn Run Crawler và đợi quá trình crawler hoàn thành. Quá trình này sẽ mất khoảng 1 phút.

Kiểm tra kết quả với Athena

  1. Truy cập dịch vụ Athena từ AWS Management Console. alt

  2. Bấm vào Launch Query Editor

alt

  1. Trong giao diện Query Editor, bấm vào Settings bấm Manage
    • Bên dưới phần Location of query result bấm Browse S3 và chọn bucket fashion-logic-zone
    • Chọn Save

alt

  1. Quay lại phần Editor
    • Phía bên trái, chọn Data Source là AwsDataCatalog
    • Chọn Database là fashion-clean-zone
    • Sau đó có thể gõ câu lệnh SQL để truy vấn dữ liệu. Ví dụ:
    SELECT * FROM "fashion-clean-zone"."clickstreams" limit 10;

alt