์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Salting
- disk spill
- Docker
- Spark SQL
- Dag
- off heap memory
- Speculative Execution
- aws
- topic
- ๋น ๋ฐ์ดํฐ
- Kafka
- etl
- CI/CD
- DataFrame Hint
- Spark
- Spark Caching
- spark executor memory
- KDT_TIL
- mysql
- Kubernetes
- colab
- ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ
- Spark ์ค์ต
- Airflow
- SQL
- AQE
- Spark Partitioning
- backfill
- k8s
- redshift
- Today
- Total
JUST DO IT!
๋จธ์ ๋ฌ๋์ ์ํ ํ๋ฅ ๊ธฐ์ด - TIL230719 ๋ณธ๋ฌธ
๐ KDT WEEK 16 DAY 3 TIL
- ํ๋ฅ ๊ธฐ์ด
๋จธ์ ๋ฌ๋ ๋ชจ๋ธํ์ต์ ๋ชฉํ > ์์คํจ์(์์ธก๊ฐ๊ณผ ๋ผ๋ฒจ์ฌ์ด ๊ฑฐ๋ฆฌ)์ ์ต์ํ
ํด๋น ์์ ํ๋ฅ ์ ๋ํ ์ง์์ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ง ์์ด๋ค.
๋ฐ๋ผ์ ๋จธ์ ๋ฌ๋์ ๋ํด ๊น๊ฒ ์ดํดํ๋ ค๋ฉด ํ๋ฅ ์ ๋ํ ๊ธฐ์ด์ง์์ด ํ์ํ๋ค.
๐ฅ ํ๋ฅ
์คํ์ ๊ฒฐ๊ณผ(ex. ๋์ ๋์ง๊ธฐ)๋ก ๋ฐ์ํ๋ ๋ชจ๋ ๊ฒฐ๊ณผ์ ์งํฉ(ํ๋ณธ์งํฉ)์ S๋ผ๊ณ ํ ๋,
์งํฉ S์ ๋ถ๋ถ์งํฉ(event)์ ์ค์๊ฐ์ ๋์์ํค๋ ํจ์!
๋์ ์ ํ๋ฒ ๋์ก์ ๋ ๋ชจ๋ ๊ฒฐ๊ณผ์ ์งํฉ, ์ฆ ํ๋ณธ์งํฉ์ ์๋ฉด(H), ๋ท๋ฉด(T)๋ก ์ด๋ฃจ์ด์ง๋ค.
๋ฐ๋ผ์ S = {H, T}์ด๊ณ , ์ฌ๊ธฐ์ ์๋ฉด์ด ๋์ฌ ํ๋ฅ ์ P = {H}๋ผ๊ณ ํ๋ฉฐ, 1/2๊ฐ ๋๋ค.
ํ๋ฅ ๋ณ์
ํ๋ฅ ๋ณ์ X๋ ํ๋ณธ์งํฉ S์ ์์ e๋ฅผ ์ค์๊ฐ X(e) = x์ ๋์์ํค๋ ํจ์์ด๋ค.
๋ค์ ๊ทธ๋ฆผ์ ํ๋ฅ ๋ณ์ X๋ H์ ๊ฐ์์ ๋ฐ๋ฅธ ํจ์๊ฐ ๋๋ค.
๋์ ๋ถํฌํจ์(cumulative distribution function, CDF)
x ์ดํ์ ๋ชจ๋ ๊ฐ์ ํ๋ฅ ์ด๋ค.
์ฐ์ํ๋ฅ ๋ณ์ (Continuous Random Variable) & ํ๋ฅ ๋ฐ๋ํจ์ (probability density function, PDF)
ํ๋ฅ ๋ณ์๊ฐ ๊ฐ๋ ๊ฐ๋ค์ด ์ค์์ ๊ตฌ๊ฐ์ผ๋ก ํํ๋ ๋ ์ฐ์ํ๋ฅ ๋ณ์๋ผ๊ณ ํ๋ค.
๋ฐ๋ผ์ ์ด๋ค ๊ฐ a์ b ์ฌ์ด์ ํ๋ฅ ์ ๊ตฌํ๋ ๊ฒ์ ํ๋ฅ ๋ฐ๋ํจ์ ๊ทธ๋ํ์ ๋์ด๋ฅผ ๊ตฌํ๋ ๊ฒ๊ณผ ๊ฐ๋ค.
f(x) ๋์ p(x)๋ผ๊ณ ํ๊ธฐํ๊ธฐ๋ ํ๊ณ , ํ๋ฅ ์ ํฉ์ ํญ์ 1์ด์ด์ผ ํ๋ฏ๋ก ๋ค์์ ์กฐ๊ฑด์ ํญ์ ๋ง์กฑํ๋ค.
๊ธฐ๋๊ฐ(Expectations)
ํ๋ฅ ๋ถํฌ p(x)ํ์์ ํจ์ f(x)์ ํ๊ท ๊ฐ
๋ถ์ฐ(variance)๊ณผ ๊ณต๋ถ์ฐ(covariance)
f(x)์ ๊ฐ๋ค์ด ๊ธฐ๋๊ฐ์ผ๋ก๋ถํฐ ํฉ์ด์ ธ ์๋ ์ ๋
ํ๋ฅ ์ ํด์ํ๋ ๋ ๊ฐ์ง ๋ค๋ฅธ ๊ด์
- ๋น๋์ฃผ์ : ๋ฐ๋ณต๊ฐ๋ฅํ ์ฌ๊ฑด(ex. ๋์ ๋์ง๊ธฐ)๋ค์ ๋น๋์์ ๊ธฐ๋ฐ
- ๋ฒ ์ด์ง์ : ๋ถํ์ค์ฑ์ ์ ๋์ ์ผ๋ก ํํ > ๋ฐ๋ณต๊ฐ๋ฅํ์ง์์ ์ฌ๊ฑด(ex. ๋ถ๊ทน์ผ์์ด ์ด๋ฒ ์ธ๊ธฐ๋ง์ ๋ น์ ํ๋ฅ )
๋น๋์ฃผ์์์๋ ๋ฐ๋ณต๊ฐ๋ฅํ์ง์์ ์ฌ๊ฑด ๊ณ์ฐ์ด ์ด๋ ค์ฐ๋ฏ๋ก ์ผ๋ฐ์ ์ผ๋ก ๋ฒ ์ด์ง์์ด ๊ฐ๋ ฅํ๋ค๊ณ ๋ณธ๋ค.
๋ฒ ์ด์ง์ ๊ด์ ์ ์ฅ์ ์ ์ฌ์ ํ๋ฅ ์ ๋ชจ๋ธ์ ํฌํจ์ํฌ ์ ์๋ค๋ ์ ์ด๋ค.
์ ๊ท๋ถํฌ
์ฐ์ํ๋ฅ ๋ณ์์ ๋ํ์ ์ธ ๋ถํฌ๋ก, ์ค์ ๋ฌธ์ ์์ ์ธก์ ์น๊ฐ ๊ทผ์ฌ์ ์ผ๋ก ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ฒ ๋๋ค.
- ํ๊ท ์ ์ค์ฌ์ผ๋ก ๋์นญ์ธ ์ข ๋ชจ์(bell-shaped)์ธ ํ๋ฅ ๋ฐ๋ํจ์์ ๊ทธ๋ํ์ด๋ค.
- ์ ๊ท๋ถํฌ์ ๋ชจ์๊ณผ ์์น๋ ํ๊ท ๊ณผ ํ์คํธ์ฐจ์ ์ํด ๊ฒฐ์ ๋๋ค
- ์ ๊ท๊ณก์ ๊ณผ X์ถ ์ฌ์ด์ ๋ฉด์ ์ 1์ด๋ค.
- ์ ๊ท๊ณก์ ์ X์ถ ์ฌ์ด์ ๋ฟ์ง ์์ผ๋ฏ๋ก, X์ถ ๊ฐ์ ๋ฒ์๋ -∞ < X < ∞ ์ด๋ค.
์ ๊ท๋ถํฌ์์ ํ๊ท ์ด 0์ด๊ณ , ํ์คํธ์ฐจ๊ฐ 1์ธ ๋ถํฌ๋ฅผ ํ์ค์ ๊ท๋ถํฌ๋ผ๊ณ ๋ถ๋ฅธ๋ค.
๊ณก์ ๊ทผ์ฌ(Curve Fitting)