변이의 측정은 데이터 세트 내의 값들이 얼마나 서로 다른지, 즉 분포의 넓이나 퍼짐 정도를 나타내는 통계적 수치입니다. 중심 경향의 측정이 데이터의 '중심'을 나타낸다면, 변이의 측정은 데이터 세트 내의 '변동성'을 나타냅니다. 주요 변이의 측정치로는 범위(Range), 분산(Variance), 표준 편차(Standard Deviation), 그리고 사분위수(Quartiles)가 있습니다.
범위 (Range)
분산 (Variance)
- 정의: 각 데이터 포인트와 데이터 세트 평균 간의 차이의 제곱의 평균입니다. 분산은 데이터가 평균으로부터 얼마나 멀리 떨어져 있는지를 측정합니다.
- 계산 방법: Variance=n∑(xi−Mean)2, 여기서 xi는 각 데이터 포인트이고, n은 데이터 포인트의 개수입니다.
- 특징: 데이터의 분포도를 나타내지만, 원래 데이터와 단위가 다르기 때문에 직관적 이해가 어려울 수 있습니다.
표준 편차 (Standard Deviation)
- 정의: 분산의 제곱근으로, 데이터가 평균으로부터 얼마나 퍼져 있는지의 평균적인 거리를 나타냅니다.
- 계산 방법: 분산의 양의 제곱근값
- 특징: 분산보다 해석하기 쉬우며, 데이터의 단위와 일치합니다.
사분위수 (Quartiles)
- 정의: 데이터 세트를 네 등분한 값들로, 중앙값(제2사분위수)을 기준으로 하위 25%를 나타내는 제1사분위수(Q1), 상위 25%를 나타내는 제3사분위수(Q3)가 있습니다.
- 특징: 데이터의 분포를 이해하고, 이상치를 식별하는 데 유용합니다. Q3와 Q1의 차이인 사분위수 범위(IQR)는 데이터의 중간 50%가 얼마나 퍼져 있는 지를 나타내는 측정치로, IQR은 이상치의 영향을 덜 받으며 데이터의 분포와 변동성을 이해하는 데 유용한 도구입니다 .