본문 바로가기
개발자 수학/확률 및 통계

평균, 중앙값, 분산, 표준편차: 데이터 이해의 기본 개념

by P_eli 2024. 9. 10.
728x90
반응형

데이터를 이해하고 분석하는 데 있어 평균, 중앙값, 분산, 그리고 표준편차는 매우 중요한 개념입니다. 이 글에서는 이 용어들을 초보자가 이해할 수 있도록 간단하고 쉽게 설명해보겠습니다. 데이터를 요약하고 분석할 때 이 개념들을 이해하면 훨씬 더 명확한 인사이트를 얻을 수 있습니다!

1. 평균 (Mean)

평균은 우리가 흔히 접하는 개념으로, 데이터를 대표하는 값입니다. 평균은 모든 데이터를 더한 후, 그 데이터의 개수로 나눈 값입니다. 이를 통해 각 데이터가 전체에서 어느 정도의 위치에 있는지 대략적인 위치를 알 수 있습니다.

 

(1) 평균 구하는 법

예를 들어, 5명의 학생이 받은 시험 점수가 다음과 같다고 해봅시다.

  • 70, 80, 90, 100, 60

이 점수들의 평균을 구하려면, 모든 점수를 더한 후 학생 수인 5로 나누면 됩니다.

$$\text{평균} = \frac{70 + 80 + 90 + 100 + 60}{5} = \frac{400}{5} = 80 $$

 

즉, 이 학생들의 평균 점수는 80점입니다.

 

(2) 평균의 특징

  • 모든 데이터 값을 고려하므로, 데이터 전체의 중심을 잘 나타냅니다.
  • 극단값(아주 크거나 작은 값)에 영향을 받을 수 있습니다. 예를 들어, 한 명이 0점을 받았다면 평균은 크게 낮아지게 됩니다.

2. 중앙값 (Median)

중앙값은 데이터를 크기 순으로 정렬했을 때, 가운데 위치한 값을 말합니다. 중앙값은 평균과 다르게 극단값에 크게 영향을 받지 않기 때문에, 데이터의 분포가 왜곡되어 있을 때 대표값으로 유용합니다.

 

(1) 중앙값 구하는 법

위에서 본 학생들의 점수(70, 80, 90, 100, 60)를 크기 순으로 정렬하면.

  • 60, 70, 80, 90, 100

가운데 있는 값이 80이므로, 이 데이터의 중앙값은 80입니다.

만약 데이터의 개수가 짝수일 경우, 가운데 두 값의 평균을 구합니다. 예를 들어, 4개의 데이터(60, 70, 90, 100)일 때는 가운데 두 값인 70과 90의 평균을 구해 중앙값을 계산합니다.

$$\text{중앙값} = \frac{70 + 90}{2} = 80$$

 

(2) 중앙값의 특징

  • 데이터의 순서에만 의존하기 때문에 극단적인 값에 영향을 받지 않습니다.
  • 데이터가 고르게 분포하지 않을 때도 대표값으로 적합합니다.

3. 분산 (Variance)

분산은 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타냅니다. 값들이 평균에서 얼마나 멀리 떨어져 있는지를 확인하는 개념으로, 분산이 클수록 데이터가 더 퍼져 있고, 작을수록 데이터가 평균에 가까이 모여 있다는 의미입니다.

(1) 분산 구하는 법

분산을 구하기 위해서는 각 데이터에서 평균을 뺀 값을 제곱한 후, 그 값들의 평균을 구합니다. 제곱을 하는 이유는, 평균보다 큰 값과 작은 값의 차이를 절대값으로 계산해 모든 차이를 양수로 만들기 위함입니다.

학생들의 점수가 70, 80, 90, 100, 60일 때, 먼저 평균을 구한 후 각 값과 평균의 차이를 계산합니다.

  • 평균: 80
  • 각 값과 평균의 차이: (70 - 80), (80 - 80), (90 - 80), (100 - 80), (60 - 80)
    • 차이: -10, 0, 10, 20, -20

이 차이를 제곱하고, 그 제곱 값들의 평균을 구하면 분산이 됩니다:

$$\text{분산} = \frac{(-10)^2 + 0^2 + 10^2 + 20^2 + (-20)^2}{5} = \frac{100 + 0 + 100 + 400 + 400}{5} = \frac{1000}{5} = 200$$

 

즉, 이 데이터의 분산은 200입니다.

 

(2) 분산의 특징

  • 분산이 크면 값들이 평균에서 멀리 떨어져 있음을 의미합니다.
  • 분산이 작으면 값들이 평균에 가까이 모여 있음을 나타냅니다.

4. 표준편차 (Standard Deviation)

표준편차는 분산의 제곱근으로, 데이터가 평균에서 얼마나 퍼져 있는지에 대한 구체적인 수치를 제공합니다. 분산이 제곱된 값이기 때문에 원래 단위와 달라지는데, 표준편차는 분산의 제곱근을 취하여 다시 원래 데이터 단위로 돌려줍니다.

(1) 표준편차 구하는 법

위에서 구한 분산 200의 제곱근을 구하면 표준편차가 됩니다:

$$\text{표준편차} = \sqrt{200} \approx 14.14$$

 

즉, 이 데이터의 표준편차는 약 14.14입니다. 이는 데이터가 평균에서 약 ±14.14 정도 떨어져 있음을 의미합니다.

 

(2) 표준편차의 특징

  • 표준편차가 클수록 데이터가 평균에서 더 많이 퍼져 있다는 것을 의미합니다.
  • 표준편차가 작을수록 데이터가 평균 근처에 모여 있음을 나타냅니다.

결론

평균, 중앙값, 분산, 표준편차는 데이터를 요약하고 분석할 때 매우 중요한 개념입니다. 평균은 모든 데이터를 고려해 대표값을 나타내며, 중앙값은 데이터의 중앙에 위치한 값을 보여줍니다. 분산과 표준편차는 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 지표로, 표준편차가 작을수록 데이터가 평균에 가까이 모여 있음을 의미합니다.

이러한 개념들을 잘 이해하면, 데이터가 어떤 특성을 가지고 있는지 더 명확하게 파악할 수 있습니다.

728x90
반응형