Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- backfill
- Spark Caching
- 데이터 파이프라인
- KDT_TIL
- Kubernetes
- Dag
- Spark
- Spark Partitioning
- redshift
- Docker
- aws
- Salting
- Spark 실습
- SQL
- k8s
- AQE
- spark executor memory
- mysql
- colab
- 빅데이터
- DataFrame Hint
- Kafka
- etl
- CI/CD
- disk spill
- topic
- off heap memory
- Airflow
- Spark SQL
- Speculative Execution
Archives
- Today
- Total
목록DataFrame (1)
JUST DO IT!
Spark 데이터처리 실습 - TIL230704
📚 KDT WEEK 14 DAY 2 TIL Spark 데이터처리 Spark 데이터구조 🟥 Spark 데이터처리 빅데이터의 효율적 처리 ➡️ 병렬처리 ➡️ 데이터의 분산 필요 하둡 맵의 데이터 처리단위는 데이터 블록(128MB, 조절가능) Spark에서는 이 데이터 블록을 파티션(Partition)이라고 부른다. 적절한 파티션의 수 : Executor의 수 x Executor의 CPU의 수 ➡️ 병렬 처리 최대화 ♒ Spark 데이터 처리 흐름 데이터프레임은 작은 파티션들로 구성된다. 입력 데이터프레임을 원하는 결과가 나올 때까지 다른 데이터 프레임으로 계속 변환되는 과정으로 흐른다. ex) sort, group by, filter, map, join.. 등의 함수로 인해 계속 변환되는 것! 🔄️ 셔플링 ..
TIL
2023. 7. 5. 23:39