티스토리 뷰

평균, 분산, 표준편차

히스토그램은 시각적인 표현에 적합하지만 분포의 특징을 ‘수치’로 나타내기에는 적합하지 않음

따라서 평균, 분산, 표준편차와 같은 대표적인 지표를 활용

  • 평균
    • 산술평균 : 우리가 일반적으로 부르는 평균
    • 기하평균 : 산술 평균의 역수, 상대적인 비를 갖는 단위 평균을 계산하는 데 유용 (ex. 속력)
  • 분산 : 각 측정치가 평균으로부터 얼마나 떨어져있는지 (편차) 를 제곱한 것들의 평균
  • 표준편차: 분산 값에 제곱근을 취한 것

표준화 점수 (Z score)

  • 공식 : (원점수 - 평균) / 표준편차
  • 통계학적으로 정규분포를 만들어, 각 관측치가 표준편차 상 어떤 위치를 차지하는 지 보여줌

변동계수 (CV, Coefficient of Variation)

  • 공식 : 표준 편차 / 평균
  • 측정 단위가 다른 자료를 비교할 때 사용애초에 신장의 평균은 170cm, 발 사이즈의 평균은 24cm 정도
  • ex ) 평균값이 다른 두 데이터 ( Ex. 신장, 발 사이즈)를 비교할 때 표준편차 등으로는 불가능

중앙값, 최빈치

  • 중앙값
    • 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값
    • 값이 짝수개일 때 → 중앙값이 두 개가 될 수 있어 그 두 값의 평균을 취함
    • 관측값들의 수가 적어 평균이 이상치의 영향을 받을 때 사용됨
  • 최빈치
    • 주어진 값 중 가장 많이 관측되는 값
    • 평균, 중앙값과 다르게 없을 수도 있고, 유일한 값이 아닐 수도 있음
    • 연속변수에는 적합하지 않음
    • 대칭분포
      • 평균 = 중앙값 = 최빈값
    • 비대칭분포
      • 우측으로 꼬리가 긴 형태 (Skewed right)
        • 최빈치 < 중앙값 < 평균
      • 좌측으로 꼬리가 긴 형태 (Skewed left)
        • 평균 < 중앙값 < 최빈치

범위, 사분위수범위

  • 범위 R : 최대값 - 최소값
  • 사분위수 : 데이터 표본을 4개의 동일한 부분으로 나눈 값
    • Q1 : 25%
    • Q2 : 50% 중앙값
    • Q3 : 75%
    • Q4 : 100%
    • 사분위수범위 IQR : Q3 - Q1
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함