일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- disk spill
- Dag
- 데이터 파이프라인
- colab
- aws
- off heap memory
- backfill
- Airflow
- spark executor memory
- Spark 실습
- mysql
- topic
- AQE
- SQL
- Kafka
- Spark SQL
- redshift
- Spark
- k8s
- Speculative Execution
- Docker
- KDT_TIL
- Kubernetes
- 빅데이터
- Spark Partitioning
- etl
- DataFrame Hint
- CI/CD
- Spark Caching
- Salting
- Today
- Total
목록colab (2)
JUST DO IT!
📚 KDT WEEK 14 DAY 3 TIL UDF UDAF Explode ⚒️ UDF - User Defined Function DataFrame이나 SQL에서 적용할 수 있는 사용자 정의 함수 Scalar 함수 : UPPER, LOWER ... Aggregation 함수(UDAF) : SUM, MIN, MAX Google Colab에서 실습을 진행한다. pyspark와 py4j 환경설치 !pip install pyspark==3.3.1 py4j==0.10.9.5 SparkSession 생성 from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark UDF") \ .getOrCreate() 간단한..
📚 KDT WEEK 14 DAY 2 TIL Spark 데이터처리 Spark 데이터구조 🟥 Spark 데이터처리 빅데이터의 효율적 처리 ➡️ 병렬처리 ➡️ 데이터의 분산 필요 하둡 맵의 데이터 처리단위는 데이터 블록(128MB, 조절가능) Spark에서는 이 데이터 블록을 파티션(Partition)이라고 부른다. 적절한 파티션의 수 : Executor의 수 x Executor의 CPU의 수 ➡️ 병렬 처리 최대화 ♒ Spark 데이터 처리 흐름 데이터프레임은 작은 파티션들로 구성된다. 입력 데이터프레임을 원하는 결과가 나올 때까지 다른 데이터 프레임으로 계속 변환되는 과정으로 흐른다. ex) sort, group by, filter, map, join.. 등의 함수로 인해 계속 변환되는 것! 🔄️ 셔플링 ..