์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Salting
- aws
- CI/CD
- Kafka
- KDT_TIL
- backfill
- Spark Caching
- etl
- Spark Partitioning
- spark executor memory
- Spark ์ค์ต
- ๋น ๋ฐ์ดํฐ
- mysql
- topic
- colab
- off heap memory
- Docker
- DataFrame Hint
- Spark
- AQE
- Dag
- disk spill
- redshift
- Speculative Execution
- k8s
- Airflow
- Kubernetes
- ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ
- SQL
- Spark SQL
- Today
- Total
JUST DO IT!
Airflow Backfill - TIL230608 ๋ณธ๋ฌธ
๐ KDT WEEK 10 DAY 4 TIL
- Airflow Backfill
๐ฅ Backfill
๊ณผ๊ฑฐ์ ์ฝ์ด์จ ๋ฐ์ดํฐ๋ค์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ฑฐ๋ ์คํจํ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ์ฌ์คํํ๋ ๊ฒ
Full Refresh ๋ฐฉ์์ ๊ฒฝ์ฐ ๋ค์ ์ฌ์คํํ๋ฉด ๊ทธ๋ง์ด์ง๋ง, Incremental Update ๋ฐฉ์์์ ์ค์ํ ์๋จ์ด๋ค.
Backfill์ ์๊ธฐ ์ ์ ์์์ผํ ์ค์ํ ์์๊ฐ ์๋ค.
DAG๋ฅผ ๋ง๋ค๋ฉด์ ์ง์ ํด์ฃผ๋ ๋ ์ง ๋ณ์์ธ start_date๋ DAG์ ์ฒ์ ์คํ ๋ ์ง์๋ ๋ค๋ฅด๋ค.
๋ง์ฝ Daily Incremental Update(๋งค์ผ ์๋ก์ด ๋ฐ์ดํฐ ์ ์ฌ) ๋ฐฉ์์ผ๋ก ETL์ ๊ตฌ์ฑํ๋ค๋ฉด,
start_date๊ฐ 2023-06-01 ์ด๋ผ๊ณ ์ง์ ํ์ ๋, ์ฒ์ DAG๊ฐ ์คํ๋๋ ๋ ์ง๋ 2023-06-02๊ฐ ๋๋ค.
start_date๋ ์ฒ์ ์ฝ์ด์ค๋ ๋ฐ์ดํฐ์ ๋ ์ง์ด๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ ์์ธ ๊ทธ ๋ค์๋ ์์ผ DAG๊ฐ ์คํ๋๋ ๊ฒ์ด๋ค.
start_date | DAG๊ฐ ์ฒ์ ์ฝ์ด์์ผํ๋ ๋ฐ์ดํฐ์ ๋ ์ง/์๊ฐ |
DAG์ ์ฒซ ์คํ ๋ ์ง | start_date + DAG์ ์คํ์ฃผ๊ธฐ |
execution_date | DAG๊ฐ ์ฝ์ด์์ผํ๋ ๋ฐ์ดํฐ์ ๋ ์ง/์๊ฐ >> Airflow๊ฐ ๊ณ์ฐํ๋ฉฐ, ์ฐ๋ฆฌ๋ ์ด๊ฑธ ํ์ฉํ๋ฉด ๋จ! |
catchup | ์ฒซ DAG ์คํ ํ start_date๊ฐ ๊ณผ๊ฑฐ์ผ ๋, ์ด์ ๋ฐ์ดํฐ๋ฅผ ์คํํ ์ง ๊ฒฐ์ (default๋ True) |
end_date | Backfill ์ฌ์ฉ์ ๋ ์ง ๋ฒ์์์ ๋๋๋ ๋ ์ง๋ฅผ ์ง์ ํ ๋ ์ฌ์ฉ |
'TIL' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๊ฐ๋จํ Docker ์ด๋ฏธ์ง ๋ง๋ค์ด์ Docker hub์ ๋ฃ๊ณ ์ค์ตํด๋ณด๊ธฐ - TIL230612 (0) | 2023.06.13 |
---|---|
MySQL โก๏ธ Redshift์ Airflow ETL ๊ตฌํํด๋ณด๊ธฐ - TIL230609 (0) | 2023.06.09 |
Airflow ETL์์ Primary Key Uniqueness SQL๋ก ๋ณด์ฅํ๊ธฐ - TIL230608 (0) | 2023.06.08 |
Yahoo finance API ์ฌ์ฉํด์ Airflow DAG ๋ง๋ค์ด๋ณด๊ธฐ - TIL230607 (0) | 2023.06.08 |
Airflow DAG - TIL230607 (2) | 2023.06.07 |