[2nd_week-day4]확률과 확률분포
확률
상대도수를 이용한 확률
똑같은 실험을 무수히 많이 반복할 때 어떤 일이 일어나는 비율
(예를 들면, 다음날 비가 올 확률)
고전적인 확률의 정의를 사용하여 계산할 때는 표본 공간의 모든 원소가 일어날 확률이 같은 경우에만 사용 가능하다.
(예를 들어, 날씨의 경우에는 계절에 따라 비가 올 확률이 다르므로 해당되지 않는다.)
덧셈 법칙
서로 배반
두 사건의 교집합이 없는 경우
조건부 확률
A 사건이 일어났을 때, B 사건이 발생할 확률
곱셈 법칙
서로 독립인 경우
확률의 분할 법칙
베이즈 정리
- 처음의 확률:
- 사전확률(prior probability) - 아래 식에서 $P(A)$에 해당
- 수정된 확률:
-
사후확률(posterior probability) - 아래 식에서 $P(A B)$에 해당
-
확률 분포
⇒ 확률변수는 꼭 실수여야 한다.
이산확률변수의 평균
- 기댓값(expected value)라고도 한다.
- $E(X) =\sum_xxP(X=x)=\sum_xxf(x)$
이산확률변수의 분산
- $(X-\mu)^2$의 평균
- $\sigma^2=E((X-\mu)^2)=\sum_x(x-\mu)^2P(X=x)=E(X^2)-[E(X)]^2$
- $Var(x)$라고도 한다.
결합확률 분포(joint probability distribution)
⇒ 두 개 이상의 확률 변수가 동시에 취하는 값들에 대해 확률을 대응시켜주는 관계
(결국 2차원 확률변수 쌍이랄까..?)
공분산(Covariance)
- 확률변수 X와 Y의 공분산
- $(X-\mu_x)(Y-\mu_y)$ 의 평균
X, Y가 연관이 있는지 알 수 있다. 연관이 있다면 $E[(X-\mu_x)(Y-\mu_y)]$ 가 양의 값을 가질 수 있는 확률이 높고, 반대의 경우는 음의 값을 가질 확률이 높다.
상관계수(correlation coefficient)
-
공분산은 각 확률 변수의 절대적인 크기에 영향을 받기 때문에 (예: Y = 0, 1, 2의 경우와 0, 100, 200 의 경우 비교) 단위에 의한 영향을 없앨 필요가 있다.
$\rho=Corr(X,Y)={Cov(X,Y)\over \sigma_X\sigma_Y}$
이항분포
- 베르누이 시행
- 이항확률변수 = n번의 베르누이 시행에서 성공의 횟수
ex. 어떤 랜덤박스의 뽑기 성공 확률이 0.2이다. 3개를 뽑았을 때, 적어도 하나 이상의 성공이 발생할 확률($P[X\geqq 1]$)은?
from scipy import stats 1 - stats.binom.cdf(0, n=3, p=0.2)
정규분포
- 연속확률 변수의 확률 분포 - 확률밀도함수 $f(x)$ (probability density function)
- $P[a\leqq X\leqq b]=\int_a^bf(x)dx$
ex. $X~N(4,3^2)$ 일때 $P[X\leqq 4]=?$
stats.norm.cdf(4, loc=4, scale=3)
정규분포의 확률밀도함수
$f(x)={1\over \sqrt{2\pi}\sigma}e^{-{1\over 2}{(x-u)\over \sigma}^2}$
표준정규확률변수 (standard )
포아송 분포 (poisson distribution)
일정한 시간단위 혹은 공간 단위에서 발생하는 이벤트 수의 확률분포
- 확률분포함수 (확률질량함수)
$P[X=x]=f(x)=\lambda ^x{e^{-\lambda}\over x!}$
- 평균 = $\lambda$, 분산 = $\lambda$
ex. $\lambda = 3$ 인 포아송 분포에서 $P[x\leqq 2]$ 는?
stats.poisson.cdf(2, mu=3)
‘일정한 시간단위 혹은 공간 단위에서 발생하는 이벤트 수의 확률분포’ 에 해당되고, 어떤 분포에 알 수 없는 상황에서는 포아송 분포로 가정하는 것이 가장 좋다.
지수분포 (exponential distribution)
포아송 분포에 의해 어떤 사건이 발생할 때, 어느 한 시점으로부터 이 사건이 발생할 때까지 걸리는 시간에 대한 확률 분포
- 확률밀도함수
- $f(t)=\lambda e^{-\lambda t}$
- $\lambda$는 포아송분포의 평균
- 평균 : $E(T)={1\over \lambda}$
- 분산 : $Var(T) = {1 \over \lambda^2}$
ex. 어느 웹사이트에 시간당 접속자 수는 평균이 3($\lambda=3$)인 포아송 분포를 따른다. 앞으로 1시간 동안 접속자 수가 2명 이하일 확률($P[X\leqq 2]$)은?
lam=3
stats.expon.cdf(0.5, scale=1/lam)