"평균 연봉 6,000만 원"——하지만 주변에는 그만큼 버는 사람이 거의 없는 것 같다고요? 그건 거짓말이 아닙니다. 소수의 고소득자가 평균을 끌어올린 결과입니다. 기술통계는 이런 숫자의 함정을 꿰뚫는 도구입니다. 몇 가지 핵심 지표만 이해하면 데이터의 전체 그림을 파악할 수 있습니다.
1. 집중경향:데이터의 「중심」은 어디에 있나?
집중경향은 데이터의 대표값을 나타냅니다. 대표적인 세 가지 지표가 있습니다.
평균(Mean)
모든 값의 합을 개수로 나눈 값. 계산이 직관적이지만, 이상치(극단값)에 쉽게 왜곡됩니다.
예: 직원 9명이 월급 300만 원이고 대표 1명이 6,000만 원이면, 평균 = (2,700 + 6,000) / 10 = 870만 원——어떤 직원도 공감할 수 없는 숫자입니다.
중앙값(Median)
데이터를 오름차순으로 정렬했을 때 정중앙에 위치한 값(짝수이면 중앙 두 값의 평균). 이상치에 강하며, 연봉·부동산 가격·소득 분포에서 가장 많이 쓰이는 대표값입니다.
같은 예에서 중앙값은 300만 원——대부분 직원의 실제 상황을 정직하게 반영합니다.
최빈값(Mode)
가장 많이 등장하는 값. 여러 개이거나 없을 수 있습니다. 범주형 데이터(가장 인기 있는 맛, 주문이 가장 많은 도시 등)에 적합합니다.
| 지표 | 최적 상황 | 이상치 영향 |
|---|---|---|
| 평균 | 대칭 분포, 극단값 없음 | 높음(쉽게 왜곡) |
| 중앙값 | 왜도 분포(연봉, 집값) | 낮음(견고함) |
| 최빈값 | 범주형 데이터, 인기 선택지 | 해당 없음 |
2. 분산도:데이터는 얼마나 「퍼져 있나」?
중심이 어디에 있는지만으로는 부족합니다. "반 평균 75점"이라도 모두 75점일 수도, 절반은 50점·절반은 100점일 수도 있습니다. 분산도는 데이터의 퍼진 정도를 알려줍니다.
범위(Range)
최대값 − 최소값. 계산이 가장 단순하지만 두 극단값에만 의존하므로 이상치에 취약합니다.
분산(Variance)
각 값과 평균의 차이를 제곱한 값의 평균. 제곱은 양수·음수 편차가 상쇄되는 것을 방지하고 큰 편차를 강조합니다.
- 모분산:분모에 n 사용. 전체 데이터가 있을 때
- 표본분산:분모에 n−1 사용(베셀 교정). 표본으로 모집단을 추정할 때
표준편차(Standard Deviation)
분산의 제곱근. 원본 데이터와 단위가 같아 해석하기 쉽습니다. 예: 평균 키 170 cm, 표준편차 8 cm → 대부분의 사람이 162~178 cm에 해당(±1 표준편차 ≈ 68%).
변동계수(CV, Coefficient of Variation)
표준편차 ÷ 평균 × 100%. 다른 스케일의 데이터 분산도를 비교할 때 사용합니다. 월급 표준편차 50만 원 vs 집값 표준편차 5억 원을 직접 비교하는 것은 의미 없지만, CV로 환산하면 비교가 가능합니다.
3. 사분위수:더 견고한 분산 지표
표준편차는 이상치에 민감합니다. 사분위수는 더 안정적인 대안을 제공합니다.
- Q1(제1사분위수):데이터의 25%가 이 값보다 낮음
- Q2(중앙값):데이터의 50%가 이 값보다 낮음
- Q3(제3사분위수):데이터의 75%가 이 값보다 낮음
- IQR(사분위 범위) = Q3 − Q1:중간 50% 데이터의 범위
IQR은 상위·하위 각 25%를 완전히 무시하므로 이상치의 영향을 받지 않습니다. 박스플롯(Box Plot)은 Q1·Q2·Q3·IQR을 기반으로 그려지며, 데이터 분포를 시각화하는 가장 보편적인 방법 중 하나입니다.
4. 왜도와 첨도:분포의 「모양」
왜도(Skewness)
- 왜도 ≈ 0:대칭 분포에 가까움. 평균 ≈ 중앙값
- 양의 왜도(오른쪽 치우침):오른쪽에 긴 꼬리. 소수의 극단적 고값이 평균을 끌어올림(연봉·자산 등)
- 음의 왜도(왼쪽 치우침):왼쪽에 긴 꼬리. 소수의 극단적 저값이 평균을 낮춤
오른쪽 치우침 분포에서는 평균 > 중앙값 > 최빈값——그래서 연봉 보고서에서는 「중앙값」이 더 정직한 대표값으로 쓰입니다.
첨도(Kurtosis)
- 높은 첨도:데이터가 평균 근처에 집중되어 있으나 꼬리가 두꺼움(극단값 많음)
- 낮은 첨도:데이터가 고르게 분산되어 뚜렷한 집중점 없음
정리
- 평균:가장 많이 쓰이지만 이상치에 취약. 항상 중앙값과 함께 확인
- 중앙값:왜도 분포(연봉·집값)에서 더 대표성이 높음
- 최빈값:범주형 데이터나 인기 선택지를 찾을 때 사용
- 표준편차:데이터와 같은 단위로 분산도를 수치화. 평균과 함께 사용
- IQR:이상치에 강한 견고한 분산 지표
- 왜도:분포가 대칭인지 판단해 어떤 대표값을 보고할지 결정하는 근거
기술통계는 복잡한 수학 배경을 필요로 하지 않습니다——각 지표 뒤의 직관적 의미를 이해하는 것이 데이터를 정직하게 읽는 열쇠입니다. 다음에 「평균 연봉」을 보면 이렇게 물어보세요:중앙값은 얼마지?