표본에 대한 평균, 분산, 왜도, 첨도는 관측된 표본에 대해 계산하는 것으로 실제 분포가 이산형이든, 연속형이든 상관없이 같은 계산을 할 수 있다.
표본 평균(sample mean)
- 관측된 표본의 평균 $\bar{x}$로 표기하며 다음처럼 구한다.
- 모집단 분포의 평균을 $\mu$라고 표현하는 것과 구분된다. 표본 평균은 모집단 평균을 추정하는데 사용된다.
$$
\bar{x} = {1 \over N} \sum_{i=1}^{N} x_i
$$
표본 분산(sample variance)
- 관측된 표본의 분산은 $s^2$으로 표기하며 다음처럼 구한다.
- 마찬가지로 모집단 분포의 분산을 $\sigma^2$으로 표기하는 것과 구분된다.
$$
s^2 = {1 \over N} \sum_{i=1}^{N} (x_i - \bar{x})^2
$$
- 위의 값은 편향오차를 가진 편향 표본분산이라고 부른다. 비편향(unbiased) 표본분산은 $N-1$로 나누어 구한다.
$$
s^2_{unb} = {1 \over N-1} \sum_{i=1}^{N} (x_i - \bar{x})^2
$$
- 이에 대한 증명은 참조 페이지의 분산과 표준편차 항목의 ‘표본 분산의 기댓값’ 참조.
- 표본 분산의 기댓값이 ${N-1 \over N}\sigma^2$이 나오기 때문에 분모를 $N$이 아니라 $N-1$를 써야 한다.
표준 오차(standard error)
- 표준 오차는 표본 평규들의 표준 편차를 의미하고 다음과 같이 계산한다.
- 표본의 표준 편차를 원소 개수의 제곱근으로 나눈다.
- 표본 표준편차는 비편향된 것을 사용하지만, 표준오차는 편향된 것을 사용한다.
$$
\text{se} = {s \over \sqrt{N}}
$$
표본 중앙값(sample median)
- 표본 중앙값은 표본의 가장 중앙에 위치한 값이며, 표본의 개수가 $N$일 때, 다음처럼 구한다.
- 홀수이면 가운데 오는 값, 짝수이면 가운데의 양 옆의 평균.
$$
\text{median} = \begin{cases} x_{(n+1)/2} & \text{n is odd} \\ {x_{n/2} + x_{(n/2)+1} \over 2} & \text{n is even} \end{cases}
$$
표본 최빈값(sample mode)
- 표본 최빈값은 표본에서 가장 빈번하게 나오는 값을 말한다.
- 유한한 종류의 값만 있으면 최빈값을 쉽게 구할 수 있지만, 연속적인 값을 가지는 데이터에서는 최빈값을 구하기 어렵기 때문에, 일정한 구간으로 나누어 가장 많은 데이터를 가진 구간의 대푯값을 최빈값으로 가정하는 방법을 많이 사용한다.
- 그러나 구간을 어떻게 나누느냐에 따라 값이 달라질 수 있다.
표본 왜도(sample skewness)