일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Speculative Execution
- etl
- CI/CD
- disk spill
- Docker
- DataFrame Hint
- Kubernetes
- spark executor memory
- Salting
- SQL
- Spark Partitioning
- aws
- KDT_TIL
- Spark SQL
- k8s
- Dag
- topic
- colab
- Airflow
- backfill
- mysql
- off heap memory
- Spark 실습
- Spark
- Kafka
- redshift
- 빅데이터
- Spark Caching
- 데이터 파이프라인
- AQE
- Today
- Total
목록Spark SQL (2)
JUST DO IT!
📚 KDT WEEK 14 DAY 2 TIL Pandas로 처리하기 Spark로 처리하기 Spark 환경 설정 및 csv 파일 처리하기 데이터 프레임에 함수 사용해보기 Spark SQL로 처리해보기 알아두면 좋은 기능 이전 글에서 Spark 데이터처리 실습을 해보았다. https://sunhokimdev.tistory.com/60 Spark 데이터처리 실습 - TIL230704 📚 KDT WEEK 14 DAY 2 TIL Spark 데이터처리 Spark 데이터구조 🟥 Spark 데이터처리 빅데이터의 효율적 처리 ➡️ 병렬처리 ➡️ 데이터의 분산 필요 하둡 맵의 데이터 처리단위는 데이터 블록(128MB, 조절 sunhokimdev.tistory.com 저번과 같은 환경을 사용한다. Colab에서 입력할 때는 ..
📚 KDT WEEK 14 DAY 2 TIL Spark 데이터처리 Spark 데이터구조 🟥 Spark 데이터처리 빅데이터의 효율적 처리 ➡️ 병렬처리 ➡️ 데이터의 분산 필요 하둡 맵의 데이터 처리단위는 데이터 블록(128MB, 조절가능) Spark에서는 이 데이터 블록을 파티션(Partition)이라고 부른다. 적절한 파티션의 수 : Executor의 수 x Executor의 CPU의 수 ➡️ 병렬 처리 최대화 ♒ Spark 데이터 처리 흐름 데이터프레임은 작은 파티션들로 구성된다. 입력 데이터프레임을 원하는 결과가 나올 때까지 다른 데이터 프레임으로 계속 변환되는 과정으로 흐른다. ex) sort, group by, filter, map, join.. 등의 함수로 인해 계속 변환되는 것! 🔄️ 셔플링 ..