일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Docker
- Kafka
- disk spill
- 데이터 파이프라인
- CI/CD
- Speculative Execution
- 빅데이터
- mysql
- Spark
- DataFrame Hint
- backfill
- k8s
- aws
- Spark SQL
- Dag
- etl
- KDT_TIL
- Airflow
- redshift
- topic
- Salting
- Spark 실습
- Spark Partitioning
- Kubernetes
- colab
- SQL
- spark executor memory
- AQE
- off heap memory
- Spark Caching
- Today
- Total
목록Dag (2)
JUST DO IT!

📚 KDT WEEK 10 DAY 3 TIL Yahoo finance API Airflow DAG 코드 구현 Full Refresh 방식 구현 Incremental Update 방식 구현 Yahoo finance API를 사용하여 Airflow ETL 구현하기 먼저 Yahoo finance API를 사용하려면 yfinance 모듈을 다운로드받아야한다. 나는 Airflow를 도커 환경에서 사용하고 있으므로 도커에 설치를 해주었다. docker ps # Airflow scheduler의 Container ID를 확인하자 docker exec -it SchedulerContainerID sh # 찾은 scheduler의 Container ID를 입력해서 접속한다. # airflow 접속 후 pip install..

📚 KDT WEEK 10 DAY 3 TIL Airflow 예제 프로그램 포팅 API DAG 작성하기 🟥 Hello World DAG 예제 프로그램 DAG 구조 알아보기 dag = DAG( dag_id = 'HelloWorld', # DAG ID start_date = datetime(2022,5,5), # 시작일 catchup=False, # 아래 설명 참고 tags=['example'], # DAG TAG schedule = '0 2 * * *') # 분, 시, 일, 월, 요일 순으로 실행주기 설정 / 매일 2시마다 실행된다. max_active_runs : 한번에 동시에 실행될 수 있는 DAG 수 (Backfill할때 중요) (Worker에 할당된 CPU 총합이 최대) max_active_tasks ..