평균 계산기 — 산술평균·중앙값·최빈값 계산기
산술평균, 중앙값, 최빈값, 범위, 가중평균을 즉시 계산하세요. 숫자를 입력하면 분산, 표준편차, 사분위수, 사분위 범위까지 포함한 종합 통계 분석 결과를 단계별 설명과 함께 제공합니다.
쉼표, 공백, 줄바꿈으로 값을 구분할 수 있습니다
평균(대푯값)이란 무엇이며 어떻게 계산하나요?
평균은 데이터 집합의 중심 또는 대표적인 값을 하나의 숫자로 나타낸 것입니다. 일상 언어에서 '평균'은 보통 산술평균 — 모든 값의 합을 개수로 나눈 값 — 을 가리킵니다. 그러나 통계학에서는 산술평균, 중앙값, 최빈값 등 여러 종류의 평균(대푯값)이 존재하며, 각각 고유한 목적과 통찰을 제공합니다. 이러한 중심 경향 측도를 이해하는 것은 정확한 데이터 분석과 합리적 의사결정에 필수적입니다.
평균의 개념은 수천 년 전으로 거슬러 올라갑니다. 고대 천문학자들은 측정 오차를 줄이기 위해 여러 관측값의 평균을 구했습니다. 산술평균이 정식 수학 개념으로 정립된 것은 16~17세기입니다. 오늘날 평균은 학생 성적, 타율 계산부터 경제 지표, 과학 실험, 의학 연구 데이터 분석까지 거의 모든 분야에서 사용됩니다. 한국의 2022 개정 교육과정에서는 중학교 1학년 수학에서 '대푯값(평균, 중앙값, 최빈값)'을 배우며, 산술평균·중앙값·최빈값이 기술통계의 세 기둥을 형성합니다.
산술평균이 가장 익숙한 평균이지만, 항상 최선의 선택은 아닙니다. 비대칭 데이터에는 중앙값이, 범주형 데이터에는 최빈값이, 성장률이나 곱셈적 과정에는 기하평균이 더 적합할 수 있습니다. 올바른 평균을 선택하는 것은 데이터의 성격과 답하고자 하는 질문에 달려 있습니다. 본 평균 계산기는 이 모든 측도를 동시에 계산하여 데이터의 중심 경향을 종합적으로 파악할 수 있게 합니다.
중심 경향 외에도 데이터의 산포(변동성)를 이해하는 것이 마찬가지로 중요합니다. 두 데이터 집합이 같은 평균을 가지더라도 분포는 매우 다를 수 있습니다. 이 때문에 본 계산기는 범위, 분산, 표준편차, 사분위수 값도 함께 제공합니다. 이러한 산포도 측도는 데이터 포인트가 중심으로부터 얼마나 퍼져 있는지를 알려주어, 데이터 특성의 전체 그림을 완성합니다.
산술평균, 중앙값, 최빈값, 범위 계산 방법
네 가지 기본 중심 경향 및 산포 측도는 다음 공식과 방법으로 계산할 수 있습니다:
산술평균 = Σxᵢ / n (모든 값의 합 ÷ 개수)산술평균을 구하려면 데이터의 모든 값을 더한 뒤 개수로 나눕니다. 예를 들어 데이터 {4, 8, 6, 5, 3, 2, 8, 9, 5, 6}의 합은 56이고 10개이므로, 산술평균은 56 / 10 = 5.6입니다.
중앙값 = 정렬된 데이터의 가운데 값중앙값을 구하려면 먼저 모든 값을 오름차순으로 정렬합니다. 데이터 수가 홀수이면 가운데 값이 중앙값이고, 짝수이면 가운데 두 값의 평균을 취합니다. {2, 3, 4, 5, 5, 6, 6, 8, 8, 9}에서 가운데 두 값은 5와 6이므로, 중앙값은 (5 + 6) / 2 = 5.5입니다.
최빈값 = 가장 자주 나타나는 값최빈값은 가장 많이 등장하는 값입니다. {4, 8, 6, 5, 3, 2, 8, 9, 5, 6}에서 5, 6, 8이 각각 2번 나타나므로 다봉분포(multimodal)입니다. 모든 값이 같은 횟수로 나타나면 최빈값은 존재하지 않습니다.
범위 = 최댓값 − 최솟값범위는 가장 큰 값과 가장 작은 값의 차이입니다. {2, 3, 4, 5, 5, 6, 6, 8, 8, 9}의 범위는 9 − 2 = 7입니다. 계산은 간단하지만 두 극단값만 사용하므로 이상값에 민감합니다.
가중평균 = Σ(wᵢ × xᵢ) / Σwᵢ가중평균은 각 값에 해당 가중치를 곱하고, 그 곱의 합을 가중치 합으로 나눕니다. 예를 들어 한 학생이 90점(가중치 3), 80점(가중치 2), 70점(가중치 1)을 받았다면, 가중평균은 (90×3 + 80×2 + 70×1) / (3+2+1) = (270 + 160 + 70) / 6 = 83.3입니다.
통계적 평균의 종류
아래 표는 다양한 평균 및 중심 경향 측도의 유형, 주요 활용 사례, 특성을 설명합니다.
| 유형 | 측도 |
|---|---|
| Σxᵢ / n | 산술평균 (Mean) |
| 가운데 값 | 중앙값 (Median) |
| 가장 빈번한 값 | 최빈값 (Mode) |
| 최댓값 − 최솟값 | 범위 (Range) |
| Σ(wᵢ×xᵢ) / Σwᵢ | 가중평균 |
| (∏xᵢ)^(1/n) | 기하평균 |
평균 계산의 한계
평균은 가장 널리 사용되는 통계 측도 중 하나이지만, 데이터를 오해하지 않기 위해 반드시 이해해야 할 중요한 한계가 있습니다:
산술평균은 이상값에 크게 영향받음
산술평균은 극단적 값 쪽으로 끌려갑니다. 데이터 {10, 12, 11, 13, 100}에서 평균은 29.2로, 집합 내 어떤 대표적 값도 나타내지 못합니다. 중앙값 12가 중심 경향을 훨씬 잘 요약합니다. 이것이 소득 통계에서 평균보다 중앙값을 보고하는 이유입니다 — 소수의 고소득자가 평균 소득을 크게 부풀릴 수 있으며, 대부분의 사람은 그보다 훨씬 적게 법니다. 이상값이 의심되는 데이터를 분석할 때는 항상 평균과 중앙값을 모두 계산하여 두 값이 크게 괴리하는지 확인하세요.
최빈값이 존재하지 않거나 오해를 줄 수 있음
데이터의 모든 값이 같은 횟수로 나타나면 최빈값은 존재하지 않습니다. 반대로 연속형 데이터(정밀 측정값 등)에서는 모든 값이 고유할 수 있어, 구간으로 묶지 않으면 최빈값이 무의미합니다. 최빈값이 있더라도 데이터 중심 근처에 위치하지 않을 수 있습니다. 시험 점수가 65점과 90점에서 봉우리를 이루는 이봉분포에서 최빈값은 군집에 대한 정보를 줄 뿐 중심 경향은 알려주지 않습니다. 최빈값은 자연스럽게 반복되는 이산형 또는 범주형 데이터에서 가장 의미가 있습니다.
중앙값은 값의 크기를 무시함
이상값에 강건한 것이 중앙값의 장점이지만, 극단값에 담긴 유용한 정보도 무시한다는 뜻입니다. {1, 2, 3, 4, 1000}의 중앙값은 {1, 2, 3, 4, 5}와 같은 3입니다. 그 극단값이 오류가 아닌 실제 중요한 데이터라면, 중앙값만으로는 이를 포착할 수 없습니다. 예를 들어 리스크 분석에서 극단값을 무시하면 잠재 손실을 과소평가할 수 있습니다. 단일 요약 통계가 아닌 전체 분포를 항상 고려하세요.
범위는 두 극단값만 고려함
범위는 최댓값과 최솟값만 사용하므로, 하나의 이상값에 극도로 민감하면서 나머지 데이터의 분포는 무시합니다. {1, 5, 5, 5, 10}과 {1, 1, 1, 9, 10}은 모두 범위가 9이지만 분포는 매우 다릅니다. 사분위 범위(IQR)와 표준편차가 모든 데이터 포인트를 고려하는 더 강건하고 정보가 풍부한 산포도 측도입니다.
가중평균은 정확한 가중치가 필요함
가중평균의 신뢰성은 전적으로 부여된 가중치의 정확성과 적절성에 달려 있습니다. 잘못된 가중치는 오해의 소지가 있는 결과를 낳습니다. 학점 평균 계산에서 이수학점을 잘못 입력하면 부정확한 GPA가 산출됩니다. 설문 분석에서 부적절한 가중치는 특정 그룹 쪽으로 결과를 편향시킬 수 있습니다. 가중치는 진정한 중요도나 빈도를 반영해야 하며, 그 근거가 명확히 문서화되고 정당화되어야 합니다.
중심 경향만으로는 불충분함
산술평균, 중앙값, 최빈값 어느 것도 단독으로는 데이터의 완전한 이야기를 들려주지 못합니다. 유명한 앤스콤의 사중주(Anscombe's quartet)는 평균과 분산이 거의 동일하지만 그래프로 그리면 전혀 다른 분포를 보이는 네 데이터 집합을 보여줍니다. 표준편차, 사분위수, 왜도, 시각화는 어떤 평균에 대해서도 필수적인 보완 도구입니다. 종합적인 데이터 분석은 항상 중심 측도와 산포 측도를 함께 포함해야 합니다.
작은 표본은 대표성이 부족할 수 있음
작은 표본에서 계산한 평균은 신뢰할 수 없으며 더 큰 모집단을 대표하지 못할 수 있습니다. 5개의 데이터에서 구한 평균은 500개에서 구한 평균보다 불확실성이 훨씬 큽니다. 통계 이론에 따르면 큰 표본이 모집단 모수의 더 안정적이고 신뢰할 수 있는 추정치를 산출합니다. 작은 표본으로 작업할 때는 광범위한 결론을 내리는 데 신중해야 하며, 결과의 불확실성을 전달하기 위해 점 추정치와 함께 신뢰 구간을 보고하는 것을 고려하세요.
더 고급 통계 도구가 필요한 경우
단순 평균 계산을 넘어서는 상황에서는 다음과 같은 전문 접근법을 고려하세요:
- •절사평균 — 계산 전 양 끝에서 일정 비율의 극단값을 제거하여, 중앙값보다 더 많은 데이터를 활용하면서도 이상값 영향을 줄입니다.
- •표준편차 및 분산 — 데이터 포인트가 평균으로부터 얼마나 퍼져 있는지를 정량화하며, 데이터 변동성 이해와 신뢰 구간 구성에 필수적입니다.
- •백분위수 및 상자 그림 — 여러 지점(25번째, 50번째, 75번째 백분위수)에서 데이터 분포를 보여주어, 단일 평균보다 풍부한 분포 그림을 제공합니다.
다양한 평균(대푯값)의 유형 이해하기
'평균'이라는 용어는 각각 고유한 특성과 이상적인 적용 분야를 가진 여러 수학적 개념을 포함합니다. 데이터에 맞는 올바른 평균 유형을 선택하는 것이 정확한 분석과 의미 있는 결론의 핵심입니다.
산술평균
산술평균은 '평균'이라고 하면 대부분 떠올리는 개념입니다. 모든 값을 합산하고 개수로 나누어 구합니다: 평균 = (x₁ + x₂ + … + xₙ) / n. 산술평균은 데이터 집합의 균형점입니다 — 수직선 위 각 데이터 포인트에 동일한 무게추를 놓으면, 평균은 수직선이 균형을 이루는 지점입니다. 이 성질 덕분에 수학적으로 우아하며 통계 공식에서 광범위하게 사용됩니다.
산술평균은 중요한 수학적 성질을 갖습니다: 어떤 점으로부터의 편차 제곱합을 최소화하고(최소제곱 회귀의 핵심), 평균으로부터의 편차 합은 항상 0입니다. 그러나 이 성질들이 이상값에 대한 민감성도 초래합니다. 실제로 산술평균은 시험 점수, 온도 측정값 등 극단값이 없는 대칭 분포에서 가장 잘 작동합니다.
기하평균
기하평균은 n개의 양수 값을 모두 곱한 뒤 n제곱근을 취하여 구합니다: GM = (x₁ × x₂ × … × xₙ)^(1/n). 이는 각 값의 로그에 대한 산술평균의 지수함수와 같습니다. 기하평균은 항상 산술평균 이하이며(산술-기하 평균 부등식), 모든 값이 동일할 때만 같습니다.
기하평균은 곱셈적 과정과 변화율의 올바른 평균입니다. 어떤 투자가 3년간 +10%, −5%, +20%를 기록했다면, 연평균 수익률은 1.10, 0.95, 1.20의 기하평균인 (1.10 × 0.95 × 1.20)^(1/3) ≈ 1.0789, 약 7.89%입니다. 산술평균을 쓰면 실제 수익률을 과대평가합니다. 기하평균은 인간개발지수(HDI), 정규화 점수 시스템, 서로 다른 스케일의 비율 비교에도 사용됩니다.
조화평균
조화평균은 각 값의 역수에 대한 산술평균의 역수입니다: HM = n / (1/x₁ + 1/x₂ + … + 1/xₙ). 세 피타고라스 평균 중 항상 가장 작습니다(산술 ≥ 기하 ≥ 조화). 조화평균은 작은 값에 더 큰 가중치를 부여하며 비율의 평균에 적합합니다.
조화평균의 대표적 활용은 동일 거리에 대한 속도 평균입니다. 100km를 60km/h로, 100km를 40km/h로 달리면 평균 속도는 50km/h(산술평균)가 아니라 48km/h(조화평균)입니다. 느린 속도에서 더 많은 시간을 소비하기 때문입니다. 조화평균은 물리학(병렬 저항, 렌즈 방정식), 금융(포트폴리오 주가수익비율), 생태학(인구 밀도 평균)에서도 사용됩니다.
절사평균 (Trimmed Mean)
절사평균은 양 끝에서 일정 비율의 최솟값과 최댓값을 제거한 뒤 나머지의 산술평균을 구합니다. 5% 절사평균은 상위와 하위 각 5%를 제거합니다. 이 방법은 중앙값의 강건성과 산술평균의 수학적 성질을 결합하여, 대부분의 데이터를 활용하면서도 이상값에 덜 민감합니다.
절사평균은 경쟁 채점에서 널리 사용됩니다 — 올림픽 다이빙과 피겨스케이팅 심판은 최고점과 최저점을 제거하고 나머지를 평균합니다. 경제학에서는 미국 클리블랜드 연방준비은행이 근원 인플레이션 측도로 16% 절사평균 CPI를 발표합니다. 런던은행간 금리(LIBOR)도 역사적으로 제출 금리의 25% 절사평균을 사용했습니다. 이상값이 의심되지만 중앙값보다 세밀한 측도가 필요할 때 절사평균이 탁월한 선택입니다.
평균을 계산하고 중심 경향을 이해해야 하는 이유
평균 계산은 수치 데이터를 이해하는 데 근본적입니다. 학생이 GPA를 계산하든, 사업주가 월별 매출을 분석하든, 과학자가 실험 결과를 요약하든, 스포츠 팬이 선수 통계를 살피든, 평균은 원시 숫자를 의미 있는 요약으로 변환합니다. 산술평균은 데이터의 전반적인 수준을 빠르게 파악하게 해주고, 중앙값은 극단값에 왜곡되지 않는 대표 값을 제공합니다.
금융에서 평균은 필수 불가결합니다. 투자자는 포트폴리오 성과를 평가하기 위해 평균 수익률을 계산하고, 기업은 사업 건전성을 측정하기 위해 고객당 평균 매출을 추적합니다. 경제학자들은 평균 임금, 소비자 지출, 물가상승률을 모니터링하여 경제 상황을 진단합니다. 가중평균은 투자 규모가 다른 포트폴리오 수익률이나 만기와 이자율이 다른 채권 수익률 계산에 특히 중요합니다.
교육 분야에서 산술평균과 가중평균은 학생 성적, 반 석차, 학교 성과 지표를 결정합니다. 한국의 대학 입시에서 내신 등급 산출이나 수능 표준점수 분석에도 평균 개념이 핵심적으로 활용됩니다. 평균 GPA와 중앙값 GPA의 차이를 이해하면 반 내 성적 분포에 대한 중요한 정보를 얻을 수 있습니다. 평균이 중앙값보다 현저히 높다면 소수의 우수 학생이 평균을 끌어올리고 있음을 시사합니다.
과학 연구에서 평균은 무작위 측정 오차의 영향을 줄이고 기저 패턴을 드러냅니다. 연구자들은 여러 시행의 평균값을 계산하고 표준편차로 측정의 신뢰성을 정량화합니다. 기하평균은 미생물학(세균 증식률), 역학(상대 위험비), 환경 과학(오염물질 농도 지수) 등에서 필수적입니다. 각 평균 유형은 고유한 분석 목적에 부합하며, 적절한 평균을 선택하는 것은 데이터 리터러시의 핵심 역량입니다.
평균 계산기를 사용해야 하는 사람
학생과 교육자는 매일 평균 계산을 활용합니다. 학생은 학점 평균(GPA), 시험 평균, 과제 점수를 계산해야 합니다. 많은 성적 체계가 시험에 더 높은 가중치를 부여하는 가중평균을 사용합니다. 본 계산기를 사용하면 현재 성적을 파악하고 목표 GPA를 달성하기 위해 남은 과제에서 몇 점을 받아야 하는지 쉽게 계산할 수 있습니다.
비즈니스 전문가와 데이터 분석가는 핵심 성과 지표를 요약하기 위해 평균에 의존합니다. 평균 거래 금액, 평균 고객 생애 가치, 평균 응답 시간, 평균 일일 활성 사용자 수는 비즈니스 의사결정을 이끄는 지표입니다. 산술평균과 중앙값을 언제 사용해야 하는지 아는 것이 중요합니다 — 예를 들어 기업의 평균 급여는 소수의 고액 임원 때문에 왜곡될 수 있으며, 중앙값 급여가 일반 직원의 수준을 더 정확히 반영합니다.
연구자와 과학자는 실험 데이터를 요약하고 그룹을 비교하며 추세를 파악하기 위해 평균을 계산합니다. 임상 시험에서는 치료에 대한 평균 반응을 그룹 간 비교합니다. 품질 관리에서는 평균 측정값과 표준편차로 제조 공정이 규격 내에 있는지 판단합니다. 환경 과학자들은 기후 추세와 계절 패턴을 파악하기 위해 평균 기온, 강수량, 오염 수준을 시계열로 추적합니다.
운동선수, 코치, 스포츠 분석가는 성과 평가에 평균을 광범위하게 사용합니다. 타율, 경기당 득점, 평균 속도, 훈련 중 평균 심박수, 평균 스플릿 타임은 모두 핵심 지표입니다. 이동평균 — 최근 일정 기간의 데이터로 계산하는 평균 — 은 일별 변동을 완화하면서 성과 추세를 파악하는 데 유용합니다. 본 계산기는 간단한 교실 평균부터 가중 전문 분석까지 모든 활용 사례를 지원합니다.
평균 계산 방법 비교
다양한 유형의 평균이 존재하며, 각각 고유한 장단점이 있습니다. 아래 표는 가장 일반적인 방법을 비교하여 데이터에 적합한 평균을 선택하는 데 도움을 줍니다.
| 평균 유형 | 계산 방법 | 적합한 용도 | 한계 |
|---|---|---|---|
| 산술평균 (본 계산기) | 모든 값의 합을 개수로 나눔 | 범용 평균; 대칭 데이터; 성적 및 점수 계산 | 이상값에 크게 영향받음; 비대칭 데이터에서 오해 유발 |
| 중앙값 | 정렬된 데이터의 가운데 값 | 비대칭 데이터; 소득 및 가격; 이상값에 강건 | 값의 크기를 무시; 수학적 취급이 덜 용이 |
| 최빈값 | 가장 자주 나타나는 값 | 범주형 데이터; 인기 항목 파악; 품질 관리 | 존재하지 않을 수 있음; 유일하지 않을 수 있음; 연속 데이터에 부적합 |
| 가중평균 | (값 × 가중치)의 합을 가중치 합으로 나눔 | 학점 평균; 포트폴리오 수익률; 표본 가중치 설문 데이터 | 신뢰할 수 있는 가중치 필요; 여전히 이상값에 민감 |
| 기하평균 | n개 값의 곱의 n제곱근 | 성장률; 투자 수익률; 비율 및 백분율 | 0 또는 음수 값 처리 불가; 직관적 해석이 어려움 |
| 조화평균 | 역수들의 산술평균의 역수 | 비율 평균; 동일 거리 속도 평균; 주가수익비율 | 0 값 처리 불가; 작은 값에 과도한 가중치 부여 |
산술평균 (본 계산기)
- 계산 방법
- 모든 값의 합을 개수로 나눔
- 적합한 용도
- 범용 평균; 대칭 데이터; 성적 및 점수 계산
- 한계
- 이상값에 크게 영향받음; 비대칭 데이터에서 오해 유발
중앙값
- 계산 방법
- 정렬된 데이터의 가운데 값
- 적합한 용도
- 비대칭 데이터; 소득 및 가격; 이상값에 강건
- 한계
- 값의 크기를 무시; 수학적 취급이 덜 용이
최빈값
- 계산 방법
- 가장 자주 나타나는 값
- 적합한 용도
- 범주형 데이터; 인기 항목 파악; 품질 관리
- 한계
- 존재하지 않을 수 있음; 유일하지 않을 수 있음; 연속 데이터에 부적합
가중평균
- 계산 방법
- (값 × 가중치)의 합을 가중치 합으로 나눔
- 적합한 용도
- 학점 평균; 포트폴리오 수익률; 표본 가중치 설문 데이터
- 한계
- 신뢰할 수 있는 가중치 필요; 여전히 이상값에 민감
기하평균
- 계산 방법
- n개 값의 곱의 n제곱근
- 적합한 용도
- 성장률; 투자 수익률; 비율 및 백분율
- 한계
- 0 또는 음수 값 처리 불가; 직관적 해석이 어려움
조화평균
- 계산 방법
- 역수들의 산술평균의 역수
- 적합한 용도
- 비율 평균; 동일 거리 속도 평균; 주가수익비율
- 한계
- 0 값 처리 불가; 작은 값에 과도한 가중치 부여
평균 계산 및 활용 실전 가이드
성적을 계산하든, 비즈니스 데이터를 분석하든, 수학 문제를 풀든, 올바른 평균을 선택하고 계산하기 위한 실용적인 팁을 안내합니다.
학점 평균(GPA) 계산 방법
- •각 과목의 학점(등급 점수)과 이수학점을 나열하세요. 각 등급 점수에 이수학점을 곱해 품질 점수를 구합니다. 모든 품질 점수를 합산하고 총 이수학점으로 나누면 가중 GPA가 됩니다.
- •예: 4학점 과목에서 A(4.0), 3학점 과목에서 B(3.0)를 받으면 (4.0×4 + 3.0×3) / (4+3) = (16+9) / 7 = 3.57 GPA. 본 계산기의 가중평균 모드로 자동 계산할 수 있습니다.
- •기말고사에서 목표 성적을 달성하기 위해 필요한 최소 점수를 구하려면, 목표 성적으로 가중평균 방정식을 세운 뒤 미지수를 풀면 됩니다. 많은 과목이 기말고사에 총 성적의 20~40% 가중치를 부여합니다.
- •누적 GPA는 모든 학기의 전체 과목을 포함합니다. 누적 GPA를 목표 수준으로 올리기 위해 필요한 학기 GPA를 계산하려면 공식: 필요 학기 GPA = (목표 × 총 이수학점 − 현재 품질점수 합) / 학기 이수학점을 사용하세요.
비즈니스 분석에서 평균 활용
- •평균 거래 금액(ATV)을 추적하여 고객 지출 패턴을 파악하세요. ATV 상승은 고객이 방문당 더 많이 지출함을 나타내고, ATV 하락은 가격 문제나 제품 구성 변화를 시사할 수 있습니다.
- •직원 급여 분석에는 산술평균 대신 중앙값을 사용하세요. 평균 급여는 보통 임원 보상으로 인해 부풀려집니다. 중앙값이 일반 직원의 실제 급여를 더 정확하게 보여줍니다.
- •이동평균으로 시계열 데이터의 추세를 파악하세요. 7일 이동평균은 요일 효과를 평활화하고, 30일 이동평균은 월별 추세를 드러냅니다. 윈도우 크기 선택은 데이터의 주기성에 따라 달라집니다.
데이터에 맞는 올바른 평균 선택
- •이상값 없는 대칭 데이터에는 산술평균을 사용하세요 — 시험 점수, 키 측정값, 일별 기온 등. 데이터 히스토그램이 대략 종형 곡선이면 산술평균이 최적의 요약입니다.
- •이상값이 있는 비대칭 데이터에는 중앙값을 사용하세요 — 소득 수준, 주택 가격, 응답 시간, 입원 기간 등. 산술평균과 중앙값이 상당히 다르면 데이터가 편향되어 있으며 중앙값이 더 대표적입니다.
- •곱셈적 데이터에는 기하평균을 사용하세요 — 복리 성장률, 투자 수익률, 세균 인구 증가율, 지수 등. 백분율이나 비율을 곱하는 데이터라면 기하평균이 올바른 평균입니다.
- •범주형 데이터에는 최빈값을 사용하세요 — 설문 응답, 제품 선호도, 진단 코드 등. 최빈값은 비숫자 데이터에도 작동하는 유일한 평균이며, 가장 흔한 범주를 파악하는 데 유용합니다.
빠른 참조: 어떤 평균을 언제 사용할까
- •대칭 데이터, 이상값 없음 → 산술평균. 기본 선택이며 대부분의 일상 계산에 적합합니다.
- •비대칭 데이터, 이상값 있음 → 중앙값. 산술평균과 중앙값 사이에 큰 차이가 있으면 중앙값을 보고하세요.
- •성장률, 수익률, 비율 → 기하평균. 시간 경과에 따른 평균 백분율 변화 계산에 항상 사용하세요.
- •고정 거리/수량의 비율 → 조화평균. 동일 거리 속도, 동일 수량 가격 등.
흔히 저지르는 실수
백분율이나 비율을 직접 평균하지 마세요 — 맥락에 따라 가중평균 또는 기하평균을 사용해야 합니다. 예를 들어 10%와 20% 성장률을 15%로 평균하는 것은 틀립니다; 올바른 접근법은 기하평균입니다. 마찬가지로, 크기가 다른 그룹의 평균을 그룹 크기로 가중하지 않고 평균하면 안 됩니다. 데이터가 깨끗한지(입력 오류 없음) 항상 확인하고, 선택한 평균 유형이 데이터의 성격과 답하고자 하는 질문에 부합하는지 검증하세요.
평균 계산 시 유의 사항
평균은 강력한 요약 통계이지만, 잘못 사용하면 오해를 낳을 수 있습니다. 산술평균은 이상값(극단값)에 특히 민감합니다 — 나머지 데이터와 크게 다른 극단적 값 하나가 평균을 대폭 이동시켜, 대표값으로서의 의미를 잃게 할 수 있습니다. 항상 이상값 유무를 확인하고, 이상값이 있을 때는 중앙값 사용을 고려하세요.
평균을 해석할 때 기억할 점:
- 산술평균은 비대칭 분포에서 오해를 유발할 수 있습니다 — 소득, 주택 가격 등 오른쪽 꼬리가 긴 데이터에는 중앙값을 사용하세요
- 데이터에 최빈값이 없을 수도, 하나일 수도, 여러 개일 수도 있습니다 — 최빈값은 범주형 또는 이산형 데이터에 가장 유용합니다
- 범위는 두 극단값만 고려하며 그 사이의 데이터 분포에 대해서는 아무것도 알려주지 않습니다
- 가중평균은 정확하고 의미 있는 가중치가 필요합니다 — 잘못된 가중치는 신뢰할 수 없는 결과를 산출합니다
- 작은 표본 크기는 더 큰 모집단을 대표하지 못하는 평균을 산출할 수 있습니다
데이터를 완전히 이해하려면 항상 평균 너머를 살펴보세요. 변동성을 이해하기 위해 표준편차를 확인하고, 데이터 분포를 보기 위해 사분위수를 살피며, 가능하다면 분포를 시각화하세요. 평균 하나만으로는 전체 이야기를 알 수 없습니다 — 유명한 농담처럼, 한 발은 끓는 물에, 다른 한 발은 얼음물에 담근 통계학자는 '평균적으로' 편안한 셈입니다.
평균과 중심 경향에 대한 자주 묻는 질문
일상 용어에서 '평균(average)'과 '평균(mean)'은 흔히 같은 뜻으로 쓰이며, 보통 산술평균 — 모든 값의 합을 개수로 나눈 값 — 을 가리킵니다. 그러나 통계학에서 'average(평균)'는 산술평균, 중앙값, 최빈값을 포함하는 중심 경향 측도의 총칭입니다. 산술평균은 여러 평균 유형 중 하나일 뿐입니다. 선생님이 '반 평균'이라고 하면 거의 항상 산술평균을 뜻합니다. 뉴스에서 '평균 소득'이라 할 때는 산술평균인지 중앙값인지 명시해야 합니다. 소득 데이터에서 두 값은 크게 다를 수 있기 때문입니다. 한국 수학 교육과정에서는 '대푯값'이라는 용어로 이러한 중심 경향 측도를 통칭하며, 혼동을 피하려면 '산술평균', '중앙값', '최빈값' 등 정확한 용어를 사용하는 것이 좋습니다.
데이터 {12, 7, 3, 14, 6, 8, 7, 12, 7, 15}를 예로 들어 설명합니다. 산술평균: 모든 값을 더합니다(12+7+3+14+6+8+7+12+7+15 = 91). 개수(10)로 나누면 평균은 9.1입니다. 중앙값: 값을 정렬합니다 {3, 6, 7, 7, 7, 8, 12, 12, 14, 15}. 10개(짝수)이므로 5번째(7)와 6번째(8)의 평균을 구합니다: (7+8)/2 = 7.5. 최빈값: 각 값의 빈도를 셉니다 — 7이 3번, 12가 2번, 나머지는 1번. 최빈값은 7입니다. 범위: 최댓값에서 최솟값을 뺍니다: 15 − 3 = 12. 이 네 가지 측도를 함께 보면 데이터의 중심과 산포를 종합적으로 파악할 수 있습니다.
데이터가 비대칭이거나 이상값을 포함할 때 중앙값을 사용합니다. 가장 대표적인 예는 소득 데이터입니다: 9명의 직원이 5,000만 원을 벌고 CEO가 5억 원을 버는 회사에서, 산술평균 급여는 9,500만 원 — 대부분의 직원 실제 급여를 과대평가합니다. 중앙값 5,000만 원이 훨씬 대표적입니다. 중앙값이 선호되는 다른 경우: 소수의 고급 매물이 있는 주택 시장 가격, 간혹 극단적 지연이 발생하는 서비스 응답 시간, 입원 기간 데이터, 부의 분배 등. 일반 규칙으로, 산술평균과 중앙값이 10~15% 이상 차이나면 데이터가 편향되어 있을 가능성이 높으며 중앙값이 더 나은 요약 측도입니다.
모든 값이 동일한 횟수로 나타나면 최빈값이 존재하지 않습니다. {2, 4, 6, 8, 10}에서 각 값은 정확히 1번 나타나므로 최빈값이 없습니다. 이는 연속 측정값이나 작은 표본에서 흔합니다. 최빈값이 없다는 것은 어떤 값도 다른 값보다 더 대표적이거나 빈번하지 않다는 뜻일 뿐, 데이터에 문제가 있는 것은 아닙니다. 이 경우 산술평균과 중앙값이 더 유용합니다. 일부 교과서나 도구는 '최빈값 없음'으로 표시하거나 모든 값을 최빈값으로 나열하기도 하지만, 표준적 통계 관례는 최빈값이 존재하지 않는다고 기술하는 것입니다. 연속 데이터의 경우, 구간(계급)으로 묶어 가장 높은 빈도의 구간을 찾는 방식으로 최빈값을 구합니다.
성적의 가중평균을 구하려면 각 성적에 가중치(또는 이수학점)를 곱하고, 그 곱의 합을 총 가중치로 나눕니다. 예를 들어 수학(A = 4.0, 4학점), 영어(B+ = 3.3, 3학점), 과학(A− = 3.7, 4학점), 미술(B = 3.0, 2학점)의 성적이라면: 가중평균 = (4.0×4 + 3.3×3 + 3.7×4 + 3.0×2) / (4+3+4+2) = (16.0 + 9.9 + 14.8 + 6.0) / 13 = 46.7 / 13 = 3.59 GPA. 가중치 덕분에 이수학점이 많은 과목이 GPA에 비례적으로 더 큰 영향을 미칩니다. 본 계산기의 가중평균 모드에서 각 성적과 이수학점을 입력하면 즉시 결과를 확인할 수 있습니다.
완벽한 대칭 분포(정규 분포의 종형 곡선)에서는 산술평균, 중앙값, 최빈값이 모두 같고 중심에 위치합니다. 오른쪽 비대칭(양의 편향) 분포에서는 꼬리가 오른쪽으로 뻗으며, 일반적으로 최빈값 < 중앙값 < 산술평균의 관계가 성립합니다. 산술평균이 높은 극단값 쪽으로 끌리기 때문입니다. 소득 분포가 전형적인 예입니다 — 대부분 중간 소득이고 소수가 매우 높은 소득을 올립니다. 왼쪽 비대칭(음의 편향) 분포에서는 꼬리가 왼쪽으로 뻗으며 관계가 반전됩니다: 산술평균 < 중앙값 < 최빈값. 대부분의 학생이 높은 점수를 받고 소수만 매우 낮은 점수인 시험 분포가 그 예입니다. 이 경험적 관계(칼 피어슨 규칙)는 근사적이며 모든 분포에 적용되지는 않지만, 요약 통계로부터 데이터 형태를 이해하는 유용한 지침입니다.
이상값은 산술평균에는 극적인 영향을 미치지만 중앙값에는 거의 영향을 주지 않습니다. 데이터 {20, 22, 23, 24, 25, 26, 28}에서 평균은 24.0, 중앙값은 24입니다. 이제 이상값을 추가하면 {20, 22, 23, 24, 25, 26, 28, 200}: 평균은 46.0으로 거의 두 배가 되지만, 중앙값은 24.5로만 변합니다. 산술평균은 모든 값을 계산에 사용하므로 하나의 극단값이 결과를 직접 이동시킵니다. 중앙값은 가운데 위치만 중요하므로, 이상값이 추가되어도 중심에 있는 값에는 영향을 주지 않습니다. 이 성질을 저항성(robustness)이라 합니다. 이 때문에 이상값이 있을 수 있는 소득, 주택 가격, 대기 시간 데이터에서 중앙값이 선호됩니다.
산술평균은 모든 값을 더하고 개수로 나눕니다: AM = (x₁ + x₂ + … + xₙ) / n. 기하평균은 모든 값을 곱하고 n제곱근을 취합니다: GM = (x₁ × x₂ × … × xₙ)^(1/n). 핵심 차이는 산술평균이 덧셈적 데이터(값이 덧셈으로 결합)에 적합하고, 기하평균은 곱셈적 데이터(값이 곱셈으로 결합)에 적합하다는 것입니다. 투자 수익률에서 이 구분이 결정적입니다: 주식이 1년차 +50%, 2년차 −50%를 기록하면 산술평균 수익률은 0%로 본전인 것처럼 보입니다. 하지만 실제로는 100만 원 × 1.50 × 0.50 = 75만 원 — 25%를 잃었습니다. 기하평균은 정확히 (1.50 × 0.50)^(1/2) ≈ 0.866, 연평균 약 13.4% 손실을 나타냅니다. 기하평균은 항상 산술평균 이하이며(산술-기하 평균 부등식), 모든 값이 동일할 때만 같습니다.
네, 데이터에 최빈값이 여러 개일 수 있습니다. 최빈값이 정확히 하나이면 단봉(unimodal), 둘이면 이봉(bimodal), 셋 이상이면 다봉(multimodal)이라 합니다. 예를 들어 {1, 2, 2, 3, 4, 4, 5}는 2와 4가 모두 2번 나타나므로 이봉분포입니다. 이봉분포는 데이터에 두 개의 서로 다른 그룹이나 하위 모집단이 포함되어 있음을 시사합니다 — 예를 들어 성인 키 분포는 165cm 부근과 178cm 부근에 봉우리를 보일 수 있으며, 이는 여성과 남성 평균의 차이를 반영합니다. 다봉분포는 여러 인기 응답이 있는 설문 데이터, 특정 값에서 발생하는 제조 결함, 여러 출처의 데이터 결합 등에서 나타날 수 있습니다. 복수의 최빈값을 파악하면 단일 산술평균이나 중앙값으로는 드러나지 않는 데이터의 숨겨진 구조를 발견할 수 있습니다.
데이터 수가 짝수이면 하나의 가운데 값이 존재하지 않습니다. 대신 가운데 두 값의 평균을 중앙값으로 합니다. 단계별 방법: 먼저 모든 값을 오름차순으로 정렬합니다. 그런 다음 가운데 두 위치를 찾습니다 — n개 값에서 n/2번째와 (n/2 + 1)번째 위치입니다. 마지막으로 그 두 값의 평균을 구합니다. 예를 들어 {3, 7, 9, 12, 15, 18}(6개)에서 3번째(9)와 4번째(12)가 가운데 값이므로, 중앙값은 (9 + 12) / 2 = 10.5입니다. 중앙값이 반드시 원래 데이터에 존재하는 값일 필요는 없습니다 — 이 예에서 10.5는 원래 값 중 하나가 아닙니다. 데이터 수가 홀수이면 (n+1)/2번째 값이 곧 중앙값입니다. 예를 들어 {3, 7, 9, 12, 15}(5개)에서 중앙값은 3번째 값인 9입니다.