일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- aws
- backfill
- Spark Partitioning
- mysql
- 빅데이터
- Airflow
- DataFrame Hint
- etl
- off heap memory
- Dag
- Spark
- disk spill
- Kafka
- CI/CD
- Kubernetes
- Spark 실습
- spark executor memory
- redshift
- topic
- Salting
- AQE
- Speculative Execution
- SQL
- Docker
- Spark SQL
- colab
- 데이터 파이프라인
- KDT_TIL
- Spark Caching
- k8s
- Today
- Total
목록etl (3)
JUST DO IT!
📚 KDT WEEK 10 DAY 4 TIL MySQL ➡️ Redshift Airflow ETL 구현 사전작업 ETL 코드 Backfill 구동 🟥 MySQL(OLTP)에서 Redshift(OLAP)로 Airflow ETL 구현해보기 프로덕션 데이터베이스(MySQL)에서 데이터 웨어하우스(Redshift)로 데이터를 전송하는 ETL을 Airflow로 구현해보자. 🛠️ 사전 작업 1. 권한 설정 먼저, 서로간의 권한 설정이 사전에 필요하다. Airflow DAG에서 S3 접근 권한 : AWS IAM User(S3 버킷 읽기, 쓰기 권한) 생성해서 access key, secret key 받기 https://sunhokimdev.tistory.com/34 > Snowflake 실습 > Snowflake에서 ..
📚 KDT WEEK 10 DAY 3 TIL Yahoo finance API Airflow DAG 코드 구현 Full Refresh 방식 구현 Incremental Update 방식 구현 Yahoo finance API를 사용하여 Airflow ETL 구현하기 먼저 Yahoo finance API를 사용하려면 yfinance 모듈을 다운로드받아야한다. 나는 Airflow를 도커 환경에서 사용하고 있으므로 도커에 설치를 해주었다. docker ps # Airflow scheduler의 Container ID를 확인하자 docker exec -it SchedulerContainerID sh # 찾은 scheduler의 Container ID를 입력해서 접속한다. # airflow 접속 후 pip install..
📚 KDT WEEK 8 DAY 1 TIL 데이터 팀 데이터 웨어하우스 🟥 데이터 팀 데이터 팀의 역할 신뢰할 수 있는 데이터를 바탕으로 부가 가치 생성 데이터를 고려한 결정이 가능하도록 돕는다 ex) 대시보드, 리포트 생성 데이터를 기반으로 사용자 서비스 개선 가능 ex) 알고리즘을 통한 추천 기능 데이터 팀의 발전 1. 데이터 인프라(ETL + 데이터 웨어하우스) 구축 : 데이터 엔지니어 데이터 웨어하우스(OLAP) 회사에 필요한 모든 데이터를 모아놓은 중앙 DB 소규모일경우에는 그냥 프로덕션 DB로 대체 데이터 웨어하우스의 구축이 진정한 데이터 팀의 첫 번째 스텝 면접 질문에서 사용하는 데이터 웨어하우스의 기술을 물어봐도 좋음. ETL(Extract, Transform, Load) = 데이터 파이프라..