일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Spark 실습
- 빅데이터
- backfill
- k8s
- Spark SQL
- mysql
- Dag
- Docker
- Spark Caching
- Airflow
- DataFrame Hint
- SQL
- AQE
- Spark Partitioning
- 데이터 파이프라인
- CI/CD
- Kafka
- KDT_TIL
- Kubernetes
- topic
- disk spill
- spark executor memory
- Speculative Execution
- aws
- redshift
- etl
- off heap memory
- colab
- Salting
- Spark
- Today
- Total
목록전체 글 (67)
JUST DO IT!
📚 KDT WEEK 7 DAY 4 TIL AWS CLI 🟥 AWS CLI AWS 서비스를 터미널에서도 이용할 수 있는 서비스이다. pip install awscli 명령어를 입력하여 AWS CLI를 설치한다. AWS CLI를 사용하기 위해서는 user 정보가 필요하므로 IAM를 써서 테스트 사용자를 하나 만들었다. 액세스 및 비밀 엑세스 키가 CLI 유저 설정에 필요한 내용이다. 이제 터미널에서 aws configure 명령어를 입력하고 받았던 키를 입력해준다. 여기서 S3를 읽어오려면 aws s3 ls 명령어를 입력하면 되지만, 기본적으로 사용자는 권한이 없으면 아무것도 할 수 없으므로 S3에 대한 권한을 추가해주어야 한다. ReadOnlyAccess 뿐만아니라 FullAccess 권한을 준다면 다음 ..
📚 KDT WEEK 7 DAY 3 TIL IAM S3 CI/CD 🟥 IAM Amazon Identity and Access Management AWS 리소스에 대한 액세스를 안전하게 제어할 수 있는 웹 서비스 리소스를 사용할 수 있는 로그인 인증 및 권한 부여 대상을 제어할 수 있다. ex) 루트 사용자 로그인 ※ 일상적인 작업에는 루트 사용자가 아니라 별도의 사용자 계정을 사용하는 것을 권장함 리소스 별, 권한(읽기/쓰기) 별로 지정도 가능 많은 AWS 서비스와의 통합가능 일부를 제외하고 기본적으로 무료 사용 역할, 정책, 사용자 등에 대한 정의 IAM 정책 테스크를 수행하기 위해 방법과 관계없이 작업에 대한 권한을 정의하는 것 사용하는 곳에 알맞는 역할과 정책을 추가하거나 지정해줘야 한다. ex) 권..
📚 KDT WEEK 7 DAY 1 TIL AWS EC2 인스턴스 생성 용어 AWS EC2 인스턴스 생성하기 AWS 기본 용어 클라우드 서비스 제품 아마존 AWS, 마이크로소프트 Azure, 구글 GCP, 오라클 OCI, IBM 클라우드, KT 클라우드, 네이버 NCP .. 🟥AWS EC2 Amazon Elastic Compute Cloud AWS 클라우드를 활용하여 다양한 운영체제와 SW를 제어할 수 있는 서버와 스토리지를 제공하는 서비스 'Elastic' 은 '탄력적' 이라는 의미로, 사용자가 성능과 용량을 조절하여 비용 조절이 가능하다는 의미이다. 쉽게 말하면, 사용자가 어렵게 물리적으로 서버를 구성할 필요없이 클릭 몇 번으로 다양한 서버 구성이 가능하다! 다음은 인스턴스를 만들기 전에 알아야 할 용..
📚 KDT WEEK 6 DAY 5 TIL Transaction Python에서 트랜잭션 사용하기 유용한 SQL 문법 🟥 Transaction Atomic하게 실행되어야 하는 SQL들을 묶어서 하나의 작업처럼 처리하는 방법 DDL 또는 DML 중 레코드를 수정, 추가, 삭제한 것에만 의미가 있음 SELECT에는 트랜잭션 불가 BEGIN ~ END or BEGIN ~ COMMIT 사이에 쿼리문 작성 Atomic : 트랙잭션의 과정이 모두 성공되거나 모두 실패되어야함 ROLLBACK : 이전 상태로 돌아감 ex) 은행의 계좌 인출과 입금이 묶여서 실행되어야 하므로 트랙잭션이 필요함 BEGIN; A의 계좌로부터 인출; B의 계좌로 입금; END; -- COMMIT과 동일 계좌 인출과 입금이 마치 하나의 명령어처..
📚 KDT WEEK 6 DAY 4 TIL JOIN 숙제 %%sql SELECT LEFT(ts.ts, 7) as month, ch.channel, COUNT(DISTINCT ch.userid) as uniqueUsers, COUNT(DISTINCT CASE WHEN trans.amount > 0 THEN ch.userid END) as paidUsers, ROUND(paidUsers*100.0 / NULLIF(uniqueUsers,0), 2) as conversionRate, SUM(CASE WHEN trans.refunded is not NULL THEN trans.amount END) as grossRevenue, SUM(CASE WHEN trans.refunded is False THEN trans...
📚 KDT WEEK 6 DAY 3 TIL GROUP BY CTAS 🟥 GROUP BY & Aggregate 테이블의 레코드를 그룹핑(GROUP BY)하여 그룹별로 다양한 정보를 계산(Aggregate)한다 그룹핑할 하나 이상의 필드를 결정한다. 그룹별로 계산할 내용을 결정하고 함수를 사용 COUNT, SUM, AVG, MIN, MAX, LISTAGG... 예시 1) SELECT LEFT(ts,7) AS mon, COUNT(1) AS session_count FROM raw_data.session_timestamp GROUP BY 1 -- GROUP BY mon, GROUP BY LEFT(ts,7) ORDER BY 1; raw_data.session_timestamp 테이블에서 월별 총 세션 수를 구하는 ..
📚 KDT WEEK 6 DAY 2 TIL Redshift 생성 웹 서비스에서 사용자와 세션 정보 데이터 품질 체크 🟥 Redshift Cluster 만들어보기 https://aws.amazon.com/ko/ 클라우드 서비스 | 클라우드 컴퓨팅 솔루션| Amazon Web Services aws.amazon.com Redshift는 아마존에서 제공하는 데이터 웨어하우스 서비스이다. 위 aws 사이트에서 계정을 생성하고, redshift를 검색하여 해당 서비스를 이용할 수 있다. aws 계정 생성에는 최초 카드 등록이 필요했고, 100원을 이체했다가 다시 돌려준다. 내가 만들 Redshift 클러스터는 무료 버전이 존재하지만 시험삼아서 유료 버전을 만들어 보기로 한다. 로그인후, aws redshift 화면..
📚 KDT WEEK 6 DAY 1 TIL 관계형 데이터베이스 SQL 클라우드 Redshift 🟥 관계형 데이터베이스 구조화된 데이터를 저장하고 질의할 수 있도록 해주는 스토리지 ex) 엑셀 스프레드시트 형태의 테이블로 데이터를 열과 행으로 저장 데이터베이스(혹은 스키마)라는 폴더 밑으로 테이블이 존재하는 2단계로 구성되어 있다. 대표적인 관계형 데이터베이스 1. 프로덕션 데이터베이스 - OLTP(Online Transaction Processiong) MySQL, PostgreSQL, Oracle... 빠른 속도에 중점을 두는 데이터베이스 웹이나 모바일 앱 등에 바로 연동이 되어 해당 서비스에 필요한 정보를 저장하거나 읽어오는데 사용한다. Star schema 데이터를 논리적 단위로 나누어 저장하고 필요..
📚 KDT WEEK 5 DAY 2 TIL Youtube API Data Visualization