일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- AQE
- redshift
- mysql
- etl
- aws
- Spark SQL
- 데이터 파이프라인
- Dag
- disk spill
- Kafka
- colab
- Spark
- Spark Partitioning
- backfill
- DataFrame Hint
- 빅데이터
- Spark 실습
- KDT_TIL
- Kubernetes
- topic
- Docker
- Airflow
- Salting
- Spark Caching
- SQL
- Speculative Execution
- off heap memory
- k8s
- CI/CD
- spark executor memory
- Today
- Total
목록mysql (2)
JUST DO IT!
📚 KDT WEEK 11 DAY 1 TIL Docker 실습 리눅스 우분투 MySQL Airflow 측면에서 바라보는 Docker 더보기 Airflow 운영상의 어려움 DAG의 수가 많아지면 데이터 품질이나 데이터 리니지 이슈 등 외에도 다른도 발생하는데, DAG 라이브러리 충돌, Worker부족, Worker 서버들의 관리와 활용도 이슈 등이 발생할 수 있다. 이런 이슈들을 해결하기 위해 사용하는 방법으로, Docker와 K8s를 많이 사용한다. 태스크나 DAG 코드를 Docker Image로 만들어서 Docker Container 형태로 실행 라이브러리와 모듈 충돌 방지 개발 환경과 프로덕션 환경을 동일하게 유지 가능 Airflow Worker를 K8s(공용 서버 클러스터)에서 필요한 대로 동적으로 ..
📚 KDT WEEK 10 DAY 4 TIL MySQL ➡️ Redshift Airflow ETL 구현 사전작업 ETL 코드 Backfill 구동 🟥 MySQL(OLTP)에서 Redshift(OLAP)로 Airflow ETL 구현해보기 프로덕션 데이터베이스(MySQL)에서 데이터 웨어하우스(Redshift)로 데이터를 전송하는 ETL을 Airflow로 구현해보자. 🛠️ 사전 작업 1. 권한 설정 먼저, 서로간의 권한 설정이 사전에 필요하다. Airflow DAG에서 S3 접근 권한 : AWS IAM User(S3 버킷 읽기, 쓰기 권한) 생성해서 access key, secret key 받기 https://sunhokimdev.tistory.com/34 > Snowflake 실습 > Snowflake에서 ..