Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- backfill
- Dag
- Spark SQL
- Spark
- SQL
- CI/CD
- 빅데이터
- disk spill
- AQE
- redshift
- Salting
- Kafka
- aws
- Spark Partitioning
- Speculative Execution
- etl
- colab
- spark executor memory
- Spark 실습
- DataFrame Hint
- KDT_TIL
- 데이터 파이프라인
- Kubernetes
- mysql
- Airflow
- topic
- k8s
- off heap memory
- Docker
- Spark Caching
Archives
- Today
- Total
목록yarn (1)
JUST DO IT!
빅데이터와 Spark 알아보기 - TIL230703
📚 KDT WEEK 14 DAY 1 TIL 빅데이터 하둡(Hadoop) Spark 🟥 빅데이터 서버 한대로 처리할 수 없는 규모의 데이터 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 빅데이터 예시) 모바일 디바이스 데이터(위치정보 등), 각종 IoT 센서 데이터, 네트워킹 디바이스 등 📦 빅데이터의 처리 특징 빅데이터를 손실없이 보관할 방법 : 스토리지 병렬 처리를 통한 처리 시간 단축 비구조화된 데이터( ex. 웹 로그파일)는 SQL만으로는 처리가 어려움 ➡️ 따라서 대용량 분산 시스템이 필요 분산 파일 시스템과 분산 컴퓨팅 시스템 Fault Tolerance : 소수의 서버가 고장나도 동작해야 함 Scale Out(서버 추가) 형식의 확장이 용이 해야함 🟦 하둡(Hadoop) 다수의 노드로 구..
TIL
2023. 7. 4. 18:18