일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- Speculative Execution
- Spark 실습
- Airflow
- Spark Caching
- KDT_TIL
- CI/CD
- Kafka
- etl
- Kubernetes
- Docker
- 빅데이터
- colab
- Spark
- Spark Partitioning
- AQE
- SQL
- redshift
- topic
- mysql
- DataFrame Hint
- 데이터 파이프라인
- disk spill
- k8s
- Salting
- backfill
- Spark SQL
- aws
- spark executor memory
- off heap memory
- Dag
- Today
- Total
목록Spark (5)
JUST DO IT!

📚 KDT WEEK 17 DAY 1 TIL Spark 기타 기능 Spark 리소스 할당 방식(리소스 스케줄링) Spark Executor 메모리 구성 🟥 Spark 기타 기능 1. Broadcast Variable 룩업 테이블등을 브로드캐스팅하여 셔플링을 막는 방식 (브로드캐스트 조인과 비슷) 모든 노드에 큰 규모의 Input Dataset을 효과적인 방법으로 줄 때 사용한다. 룩업 or 디멘션 테이블(10-20MB의 작은 테이블)을 Executor로 전송하는데 사용 spark.sparkContext.broadcast로 호출 룩업 테이블(파일)을 UDF로 보내는 방법 Closure : UDF안에서 파이썬 데이터 구조를 사용하는 경우 > Task 단위의 Serialization BroadCast : UDF..

📚 KDT WEEK 14 DAY 4 TIL Spark 파일포맷(Parquet) Spark Execution Plan Bucketing과 File System Partitioning 🟥 Spark 파일포맷 Parquet : Spark의 기본 파일 포맷 Parquet 페이지 : http://parquet.incubator.apache.org/ Apache Parquet The Apache Parquet Website parquet.incubator.apache.org Parquet은 Structured 포맷으로, 압축된 바이너리 파일이며 내부에 스키마 정보(필드 타입까지)를 가진 파일 포맷이다. Structured ex) Parquet, AVRO, ORC, SequenceFile ... 💻 실습(Colab)..

📚 KDT WEEK 14 DAY 3 TIL UDF UDAF Explode ⚒️ UDF - User Defined Function DataFrame이나 SQL에서 적용할 수 있는 사용자 정의 함수 Scalar 함수 : UPPER, LOWER ... Aggregation 함수(UDAF) : SUM, MIN, MAX Google Colab에서 실습을 진행한다. pyspark와 py4j 환경설치 !pip install pyspark==3.3.1 py4j==0.10.9.5 SparkSession 생성 from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark UDF") \ .getOrCreate() 간단한..

📚 KDT WEEK 14 DAY 2 TIL Spark 데이터처리 Spark 데이터구조 🟥 Spark 데이터처리 빅데이터의 효율적 처리 ➡️ 병렬처리 ➡️ 데이터의 분산 필요 하둡 맵의 데이터 처리단위는 데이터 블록(128MB, 조절가능) Spark에서는 이 데이터 블록을 파티션(Partition)이라고 부른다. 적절한 파티션의 수 : Executor의 수 x Executor의 CPU의 수 ➡️ 병렬 처리 최대화 ♒ Spark 데이터 처리 흐름 데이터프레임은 작은 파티션들로 구성된다. 입력 데이터프레임을 원하는 결과가 나올 때까지 다른 데이터 프레임으로 계속 변환되는 과정으로 흐른다. ex) sort, group by, filter, map, join.. 등의 함수로 인해 계속 변환되는 것! 🔄️ 셔플링 ..

📚 KDT WEEK 14 DAY 1 TIL 빅데이터 하둡(Hadoop) Spark 🟥 빅데이터 서버 한대로 처리할 수 없는 규모의 데이터 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 빅데이터 예시) 모바일 디바이스 데이터(위치정보 등), 각종 IoT 센서 데이터, 네트워킹 디바이스 등 📦 빅데이터의 처리 특징 빅데이터를 손실없이 보관할 방법 : 스토리지 병렬 처리를 통한 처리 시간 단축 비구조화된 데이터( ex. 웹 로그파일)는 SQL만으로는 처리가 어려움 ➡️ 따라서 대용량 분산 시스템이 필요 분산 파일 시스템과 분산 컴퓨팅 시스템 Fault Tolerance : 소수의 서버가 고장나도 동작해야 함 Scale Out(서버 추가) 형식의 확장이 용이 해야함 🟦 하둡(Hadoop) 다수의 노드로 구..