일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Spark Caching
- backfill
- Spark
- 빅데이터
- AQE
- SQL
- spark executor memory
- Airflow
- redshift
- Docker
- aws
- DataFrame Hint
- Kubernetes
- off heap memory
- Kafka
- k8s
- colab
- 데이터 파이프라인
- Salting
- Speculative Execution
- Spark Partitioning
- topic
- KDT_TIL
- CI/CD
- mysql
- Spark 실습
- disk spill
- etl
- Spark SQL
- Dag
- Today
- Total
목록Docker (5)
JUST DO IT!
📚 KDT WEEK 11 DAY 5 TIL Docker를 사용하는 이유 - 서버 관리의 어려움 Docker Container를 관리하는 방법 - Container Orchestration K8s 🟥 서버 관리의 어려움 서버의 수가 많아지고 다양한 문제가 발생했을 때 문제를 해결하는 방법 1. Infrastructure As Code 대화형 명령이 아닌 자동화된 스크립트로 해결하고 다수의 서버에 명령을 대신 실행 DevOps 엔지니어가 꼭 알아야하는 기술 중 하나 하지만 배우기 어렵고, 소프트웨어 충돌 문제에는 크게 도움이 되지 않는다. ex. Chef, Puppet, Ansible, Terraform... 2. Virtual Machine 소프트웨어 충돌 해결을 위해 한 서버에 다수의 VM을 올려 서비스..
📚 KDT WEEK 11 DAY 2 TIL CI/CD Git Github Actions Actions 기능을 사용한 Python CI/CD 구현 🟥 CI/CD 소프트웨어 빌드 : 소프트웨어를 최종적으로 출시하기 위한 형태로 만드는 것 Continuous Intergration(CI) : 개발자가 코드를 고칠 때마다 테스트를 돌려봄으로써 안정성을 증대시킴 Continuous Delivery(CD) : 성공한 빌드의 프로덕션 릴리스 (자동화) 코드의 변경 ➡️ Code Commit ➡️ CI(테스트 수행) ➡️ CD(소프트웨어 배포)가 반복되는 구조 🟦 Git 분산환경을 지원하는 소스 버전 컨트롤 시스템 SVN/CVS(다른 소프트웨어 버전 관리 시스템)에 비해 현저하게 빠르지만 사용법은 훨씬 더 복잡하다. ..
📚 KDT WEEK 11 DAY 1 TIL Docker 실습 리눅스 우분투 MySQL Airflow 측면에서 바라보는 Docker 더보기 Airflow 운영상의 어려움 DAG의 수가 많아지면 데이터 품질이나 데이터 리니지 이슈 등 외에도 다른도 발생하는데, DAG 라이브러리 충돌, Worker부족, Worker 서버들의 관리와 활용도 이슈 등이 발생할 수 있다. 이런 이슈들을 해결하기 위해 사용하는 방법으로, Docker와 K8s를 많이 사용한다. 태스크나 DAG 코드를 Docker Image로 만들어서 Docker Container 형태로 실행 라이브러리와 모듈 충돌 방지 개발 환경과 프로덕션 환경을 동일하게 유지 가능 Airflow Worker를 K8s(공용 서버 클러스터)에서 필요한 대로 동적으로 ..
📚 KDT WEEK 8 DAY 5 TIL 다양한 시각화 툴 Superset 🟥 다양한 시각화 툴 = 대시보드 혹은 BI(Business Intelligence)툴 KPI(Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터를 기반으로 계산/분석/표시하는 툴 소스가 되는 데이터의 품질이 중요하다. 데이터 분석이 쉬워지고 데이터 기반 의사결정이 가능해진다. 시각화 툴의 종류 사람들이 가장 많이 사용하는 툴 : Excel, Google Spredsheet 전문적인 툴 : Looker(구글), Tableau, Power BI, Apache Superset(오픈소스), AWS Quicksight Looker와 Tableau가 가장 많이 사용되는 추세지만 배우는데 시간 필요 Ta..
📚 KDT WEEK 7 DAY 5 TIL AWS Lambda Docker Docker 명령어 Docker File Docker Port forwarding 🟥 AWS Lambda 별도의 서버없이 단순 함수만으로 어플리케이션으로 동작하는 서비스 특정 이벤트나 행위에 대해 프로그램 실행을 원할 때 사용 > 트리거에 특정 이벤트를 설정해서 Lambda가 작동하도록 구현한다. ex) S3의 데이터 전송마다 Lambda 작동 1. Lambda 함수 생성 2. S3 특정 버킷 설정 > 이벤트 알림 생성 > 객체 전송 이벤트에 체크 > 해당 Lambda 함수 설정 3. 해당 버킷에 파일이 새로 올라오면 Lambda 함수가 처리함에 따라 CloudWatch 로그에 기록됨 🟦 Docker 어플리케이션을 신속하게 구축, ..