시험에서 72점을 받았고, 반 평균은 65점, 표준편차는 10점이라면 — 당신은 몇 %의 학생보다 높은 점수를 받은 걸까요? 그 답은 정규분포 안에 있습니다. 키, 혈압, IQ, 측정 오차까지 현실 세계의 방대한 연속형 데이터가 이 아름다운 종 모양 곡선을 따릅니다. 이를 이해하는 것은 데이터를 '기술'하는 단계에서 '추론과 예측'으로 도약하는 핵심 열쇠입니다.
1. 정규분포란 무엇인가?
정규분포(가우스 분포)는 통계학에서 가장 중요한 확률분포입니다. 특유의 종 모양 곡선은 딱 두 가지 모수로 완전히 결정됩니다.
- μ (평균):종 모양 곡선의 '중심 위치'를 결정
- σ (표준편차):곡선의 '너비'를 결정 — σ가 클수록 넓고 낮은 곡선, 작을수록 좁고 높은 곡선
정규분포의 핵심 성질:
- 평균을 축으로 완전 대칭
- 평균, 중앙값, 최빈값이 모두 일치
- 곡선은 양 끝으로 무한히 뻗으나 x축에 닿지 않음(점근선)
- 곡선 아래 면적의 합 = 1 (확률 100%)
2. 68–95–99.7 법칙
정규분포에서 가장 실용적인 경험 법칙으로, 데이터가 각 구간에 얼마나 분포하는지 알려줍니다.
| 범위 | 포함 비율 | 직관적 의미 |
|---|---|---|
| μ ± 1σ | 약 68.3% | 대부분의 전형적인 값 |
| μ ± 2σ | 약 95.4% | 거의 모든 일반적인 경우 |
| μ ± 3σ | 약 99.7% | 극단적 예외를 제외한 거의 전부 |
예시: 성인 남성 평균 키 171 cm, 표준편차 6 cm라 할 때:
- 약 68%는 165–177 cm
- 약 95%는 159–183 cm
- 약 99.7%는 153–189 cm
- 189 cm 초과 또는 153 cm 미만은 전체의 0.3% 미만
3. Z 점수: 모든 값을 '표준 척도'로 변환하기
Z 점수가 답하는 핵심 질문: 이 값은 평균에서 표준편차 몇 개 만큼 떨어져 있는가?
Z = (x − μ) / σ
- Z = 0 → 정확히 평균
- Z = 1 → 평균보다 1σ 높음 (약 84 백분위)
- Z = −1 → 평균보다 1σ 낮음 (약 16 백분위)
- Z = 2 → 매우 우수 (약 97.7 백분위)
- Z = −3 → 극히 드문 낮은 값 (약 0.13 백분위)
Z 점수의 실제 활용
과목 간 성적 비교: 수학 80점 (반 평균 70, σ = 10) → Z = 1.0; 영어 85점 (반 평균 80, σ = 15) → Z = 0.33. 점수 자체는 영어가 높지만, 상대적 성과는 수학이 더 뛰어납니다.
이상치 탐지: |Z| > 3인 데이터 포인트는 통계적 이상치로 간주되어 추가 조사 대상이 됩니다.
표준화 시험: SAT, GRE, IQ 테스트는 모두 원점수를 고정된 평균·표준편차 척도로 변환한 것으로, 본질적으로 Z 점수의 선형 변환입니다 (예: IQ = 평균 100, σ = 15).
4. 왜 정규분포는 어디에나 나타나는가? 중심극한정리
놀라운 사실: 모집단의 분포가 정규분포가 아니더라도, 충분히 큰 표본을 반복 추출하여 표본 평균을 계산하면 그 분포는 정규분포에 수렴합니다. 이것이 통계학에서 가장 중요한 정리 중 하나인 중심극한정리(Central Limit Theorem, CLT)입니다.
이것이 정규분포가 보편적으로 나타나는 이유입니다:
- 키는 유전, 영양, 환경 등 수많은 독립 요인의 합산 결과
- 측정 오차는 수없이 많은 미세한 무작위 오차의 누적
- 시험 점수는 여러 지식 영역 숙달도의 종합적 반영
CLT는 가설 검정과 신뢰구간의 이론적 토대이기도 합니다 — 표본 평균이 정규분포를 따르기 때문에 표본으로 모집단을 추론할 수 있습니다.
5. 정규분포가 적합하지 않은 경우
| 상황 | 문제 | 적합한 대안 분포 |
|---|---|---|
| 소득, 자산, 주식 수익률 | 심한 오른쪽 치우침, 극단적 이상치 | 로그정규분포 |
| 대기 시간, 수명 | 양수만 존재, 오른쪽 치우침 | 지수분포 / 와이블 분포 |
| 성공/실패 등 이진 결과 | 이항 결과 | 이항분포 |
| 소표본 (n < 30) | CLT 아직 수렴 미완 | t 분포 |
요약
- 정규분포는 μ(평균)와 σ(표준편차)로 결정되는 대칭 종 모양 곡선
- 68–95–99.7 법칙: ±1σ가 68%, ±2σ가 95%, ±3σ가 99.7%의 데이터를 포함
- Z 점수 = (x − μ) / σ — 원래 값을 표준 척도로 변환하여 다른 데이터셋과 비교 가능
- 중심극한정리: 독립 확률변수의 합은 정규분포로 수렴 — 정규분포가 보편적인 근본 이유
- 치우친 데이터나 이진 데이터에는 로그정규분포·이항분포 등 대안 모델 사용
정규분포는 기술통계와 통계적 추론을 연결하는 다리입니다. 종 모양 곡선의 논리를 익히면 '관측한 데이터를 설명하는 것'에서 '관측하지 않은 모집단에 대해 추론하는 것'으로 나아갈 수 있습니다 — 그것이 통계학의 진정한 힘입니다.