Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- backfill
- Kafka
- Spark Partitioning
- AQE
- Docker
- spark executor memory
- KDT_TIL
- topic
- redshift
- Speculative Execution
- colab
- Airflow
- SQL
- off heap memory
- etl
- Spark SQL
- Kubernetes
- Salting
- Dag
- DataFrame Hint
- 빅데이터
- disk spill
- Spark Caching
- mysql
- k8s
- Spark 실습
- aws
- 데이터 파이프라인
- CI/CD
- Spark
Archives
- Today
- Total
목록Spark Caching (1)
JUST DO IT!
Spark에서 데이터 Caching 하는 방법, 실습해보기! - TIL230725
📚 KDT WEEK 17 DAY 2 TIL Caching 이론 및 실습 Caching BestPractices 🎟 Caching 자주 사용되는 데이터프레임을 메모리에 유지하여 처리속도를 증가시키는 방법 하지만 메모리 소비를 증가시키므로 불필요하게 모든 걸 캐싱할 필요는 없다. DataFrame을 Caching하는 방법 cache()와 persist()를 사용하면 가능하고, 메모리나 디스크에 저장하게 된다. 모두 lazy execution에 해당하여 필요하기 전까지는 캐싱하지 않는다. caching은 항상 파티션 단위로 메모리에 보존되므로, 하나의 파티션이 부분적으로 캐싱되지는 않는다. 실습 1. .cache() 사용해서 데이터프레임 캐싱하기 # SparkSession available as 'spark'..
TIL
2023. 7. 25. 15:39