Poisson distribution
- $X \in \{0,1,2,...\}$을 가정하자. 만일 pmf가 다음과 같다면 확률 변수가 파라미터 $\lambda >0$인 Poisson 분포($X \sim \text{Poi}(\lambda)$)를 갖는다고 말한다.
$$
\text{Poi}(x|\lambda) = e^{-\lambda}{\lambda^x \over x!}
$$
- 여기서 $\lambda$는 $x$의 평균(과 분산)이다.
Negative binomial distribution
- $N$개 공이 있는 ‘항아리(urn)’가 있다고 가정하자. $R$은 빨간공이고 $B$는 파란공이다.
- $n \ge 1$ 공을 얻을 때까지 교체를 통해 샘플링을 수행한다고 가정하자. $X$를 파란공의 수를 나타내면 $X \sim \text{Bin}(n,p)$로 볼 수 있다. 여기서 $p = B/N$은 파란공의 비율이다. 따라서 $X$는 binomial(이항) 분포를 따른다.
- 이제 빨간공을 뽑는 것을 ‘실패’라고 하고, 파란공을 뽑는 것을 ‘성공’이라고 가정한다. $r$개 실패를 관찰할 때까지 공을 뽑는다.
- $X$를 성공의 수라 하면, 이것은 $X \sim \text{NegBinom}(r,p)$로 볼 수 있다. 이것은 negative binomial distribution이라 하고 다음처럼 정의된다. $x \in \{0,1,2,...\}$
$$
\text{NegBinom}(x|r,p) \triangleq \binom{x+r-1}{x}(1-p)^r p^x
$$
- $r$이 실수이면 $(x-1)! = \Gamma(x)$라는 사실을 이용하여 $\binom{x+r-1}{x}$를 ${\Gamma(x+r) \over x!\Gamma(r)}$로 교체할 수 있다.
- 이 분포는 다음의 moment(적률)을 갖는다.
$$
\mathbb{E}[x] = {pr \over 1-p}, \mathbb{V}[x] = {pr \over (1-p)^2}
$$
- 이 2가지 파라미터 족은 평균과 분산을 분리하여 표현할 수 있기 때문에 푸아송 분포보다 더 유연한 모델링을 갖는다.
- 예를 들어 발생 건수가 양의 상관관계를 가지며, 발생 건수가 독립적인 경우보다 더 큰 분산을 유발하는 ‘전염성’ 이벤트를 모델링하는데 유용하다.
- 사실 $\text{Poi}(\lambda) = \lim_{r \to \infty} \text{NegBinom}(r,{\lambda \over 1 + \lambda})$으로 나타낼 수 있기 때문에 푸아송 분포는 negative binomial의 특별한 경우이다.
- 또 다른 특별한 경우는 $r=1$인 경우인데 이것은 geometric(기하) 분포라고 부른다.
참조