티스토리 뷰
양적 변수
산포도 (Scatter Plot)
데이터가 얼마나 그리고 어떻게 퍼져있나를 나타내는 그래프라고 할 수 있음
2개 변수의 값을 그래프로 그려내는 것으로 둘의 관계를 알 수 있음
- 2개 변수 : 양적 변수 (숫자형)
- 관계 : 흔히 상관관계를 나타냄 ( 두 변수의 선형관계 )
- 인과관계가 아닌 연관성을 드러냄
- 인과관계는 회귀분석으로 알 수 있음
- 양의 상관관계, 음의 상관관계, 무관계
두 양적 변수의 선형관계 정보를 알려주는 값은 하기 2가지가 있음
- 공분산
- 상관계수
공통적으로 하기 관계를 가짐
양의 선형(linear) 관계 : 두 변수 값은 함께 증가
음의 선형(linear) 관계가 있음 : 한 변수 값이 감소할 때 다른 변수 값은 증가
공분산
다만 두 변수의 측정단위에 따라 값이 달라짐
즉, 공분산이 더 크다고 해당 조합의 관계성이 더 강하다고 할 수 없음
→ 따라서 단위와 상관없이 절대적인 연관성을 나타내는 것이 상관계수
상관계수 (r)
흔히 피어슨 상관계수를 의미함
공분산을 각각의 표준편차로 나누어줌으로써 단위와 상관없이 절대적 관계성을 나타내는 것이 가능해짐
- 범위 : -1 ~ +1
- 통계적 유의성 : p 값
- 각 -1, 1로 갈수록 음, 양의 관계가 강함을 나타내며 0으로 가까이 갈 수록 관계가 약함을 나타냄.
- 양수 r = 양의 상관관계 : 두 변수 값은 함께 증가
- 음수 r = 음의 상관관계 : 한 변수 값이 감소할 때 다른 변수 값은 증가
- r 이 0에 근접 : 선형 관계가 약해짐, 즉 무관계
- p 값 : 표본 관측값을기반으로 모집단 상관 계수가 0과 다르다는 유의성을 제공
편상관계수
두 변수 간 상관관계에서 제 3의 변수의 영향을 배제하는 것
예)
직장인의 연봉과 혈압 간에는 양의 상관계수가 발견됨
다만 제 3의 변수인 '나이'가 영향을 끼치는데, 나이가 많은 직장인은 비교적 연봉과 혈압도 높기 때문에
연봉과 혈압이 양의 상관관계를 지니고 있는 것처럼 보이므로
나이를 배제해야 연봉과 혈압의 순수한 관계성을 파악할 수 있음
회귀분석
두 변수의 인과관계를 분석할 때 사용됨
- 독립변수(설명변수)
- 종속변수(반응변수)
즉 독립변수의 변화로부터 종속변수의 변화를 밝혀내는 것으로 하기를 알 수 있음
- 종속변수와 독립변수 간에 선형관계
- 종속변수에 영향을 미치는 독립변수가 유의성과 그 영향력
- 추정된 회귀모형을 통한 종속변수의 예측치
회귀 기본원리
선형 회귀모델의 직선과 각 실제값의 차이
( = 모형의 예측값과 실제값간의 오차인 잔차 residual error)를 줄이는 것
이 때 최소자승법 (LSM : Least Squares Method) 이 사용됨
회귀계수 regression coefficient
독립변수가 한 단위 변화함에 따라 종속변수에 미치는 영향력 크기
- 공식 : 종속변수의 표준편차를 독립변수의 표준편차로 나눈 값의 두 변수의 상관관계를 곱함
가정사항 및 검정
- 선형성 : 두 변수간 관계가 선형 관계인지 여부
- 산포도로 선형관계 파악 가능
- 정규성 : 잔차가 정규분포에 해당하는지 여부
- 등분산성 : 잔차의 분산이 동일한지 여부
- Residual Plot (x축 : 모형 예측값 / y축 : 잔차값) 으로 파악가능
- 예측 값에 따라 잔차의 분포가 퍼질 때 심각한 이분산 문제가 있다고 여겨진다.
- 독립성 : 잔차간에 상관관계가 없어야한다
- 다중공선성 : 설명변수 간 상관관계가 클 때를 의미한다.
- Variance Inflation Factor (VIF) 계수가 10을 넘을 때 심각한 다중공선성이 있다고 진단.
- 필요성이 낮은 변수를 소거하여 대응 가능
질적변수
질적 변수의 관계를 나타내는 또다른 그래프로는 피벗테이블도 존재
주변도수(marginal frequency)를 나타냄
'데이터분석 > 통계' 카테고리의 다른 글
2. 확률과 확률분포_사건과 확률 (0) | 2023.06.25 |
---|---|
1. 통계학 기초와 요약_시계열 데이터의 기술과 간단한 분석 (0) | 2023.06.24 |
1. 통계학 기초와 요약_질적데이터의 도수분포와 그래프 표현 (0) | 2023.06.17 |
1. 통계학 기초와 요약_양적데이터의 요약과 그래프 표현 (0) | 2023.06.14 |
1. 통계학 기초와 요약_분포의 특징을 나타내는 지표 (2) | 2023.06.06 |
- Total
- Today
- Yesterday
- 분산
- Lambda
- 확률
- Python
- leatcode
- hash
- 사분위수
- 뇌하수체선종
- counter
- 군고구마
- 중앙값
- programmers
- 쿠싱
- 파이썬
- TensorFlow
- 쿠싱증후군
- 힙
- 상대도수
- 코딩테스트
- 분당서울대병원
- 조건부확률
- 확률분포
- 평균
- 상관관계
- random forest
- SQL
- 프로그래머스
- neural network
- 통계
- 뇌하수체
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |