개요 어떤 사건이 일어나는 경우 다른 사건이 일어날 확률 P(A ∣ B) = 사건 B가 일어나는 경우에 사건 A가 일어날 확률 예시 한 집단에 10대부터 50대까지의 연령이 존재하고, 안경을 쓴 사람과 그렇지 않은 사람이 있다. 이 중 40대(A)는 30%, 안경을 쓴 사람(B)은 20%, 40대이면서 안경을 쓴 사람(AB)은 6%이다. 해당 집단에서 안경을 쓴 어떤 한 사람을 뽑았을 때 그 사람이 40대일 확률은 P(AB) / P(B) = 0.06 / 0.2 = 0.3 독립성 사건 A와 B가 독립이라는 것은, P(A ∣ B) = P(A) (= P(B ∣ A) = P(B)) 통계의 함정 A : 운전자가 안전띠를 매는 사건 B : 운전자가 자동차 사고로 사망하는 사건 자동차 사고로 사망한 사람의 40%는 ..
실험이나 관찰을 실시해 시험하는 시행(Trial) 에 의한 결과 ex) 시행(Trial) 예시 : 동전 앞뒷면 혹은 주사위 던지기 표본공간 Sample Space 標本空間 시행의 모든 결과들의 모임을 뜻하며, 전사상(全事象)이라고도 합 모집단 Ω로 표기됨 동전 던지기 시행에서 표본 공간 : {앞면, 뒷면} 주사위 던지기 시행에서 표본공간 : {1, 2, 3, 4, 5, 6} 사상=사건(Event) 표본공간에서의 부분 집합 벤다이어그램과 집합으로 표현하자면 하기와 같음 근원사건 Elementary Event : 표본공간에서 더 이상 쪼개질 수 없는 단 하나의 요소를 갖는 부분집합 합집합 : 2개의 사건 A와 B 중 A 혹은 B가 일어나는 사건 교집합 : 두 사건 A와 B 중 A와 B가 동시에 일어나는 사건..
시계열 데이터 time series data 시간의 흐름에 따라 순서대로 관측된 데이터를 의미 주 목적 : 시계열 데이터의 법칙을 모형화하고, 이 모형으로 미래 값을 예측하기 위함 지수화와 기하평균 지수화 시계열간 값의 단위와 크기를 통일하기 위함으로, 관측치를 Y = Y0, Y1, Y2….Yt 라고 할 때 (t= 0, 1, 2, …..T) 공식 : 각 시점의 시계열 값 / 기준 시점의 시계열 값으로 나눈 값 (qt = Yt / Ys) 기하평균 (Geometric mean) n개의 양수 값을 모두 곱한 것의 n제곱근으로, 어떤 지표의 평균 성장률 계산에 주로 사용됨 (예: 대한민국의 연평균성장률, 대한민국의 연평균부채증가율) 시계열데이터의 변동 변동 Yt = Tt + Ct + St + It 경향 변동(=..
양적 변수 산포도 (Scatter Plot) 데이터가 얼마나 그리고 어떻게 퍼져있나를 나타내는 그래프라고 할 수 있음 2개 변수의 값을 그래프로 그려내는 것으로 둘의 관계를 알 수 있음 2개 변수 : 양적 변수 (숫자형) 관계 : 흔히 상관관계를 나타냄 ( 두 변수의 선형관계 ) 인과관계가 아닌 연관성을 드러냄 인과관계는 회귀분석으로 알 수 있음 양의 상관관계, 음의 상관관계, 무관계 두 양적 변수의 선형관계 정보를 알려주는 값은 하기 2가지가 있음 공분산 상관계수 공통적으로 하기 관계를 가짐 양의 선형(linear) 관계 : 두 변수 값은 함께 증가 음의 선형(linear) 관계가 있음 : 한 변수 값이 감소할 때 다른 변수 값은 증가 공분산 다만 두 변수의 측정단위에 따라 값이 달라짐 즉, 공분산이 ..
5수요약 최소치 min Q1 Q2 중앙값 median Q3 최대치 max *사분위수범위 IQR : Q3 - Q1 box and whisker plot = 상자와 수염 플롯 상기 5수요약을 시각화하는 그래프 구분 설명 수염 whisker 상자의 좌우 상하로 뻗어나간 선 IQR 사분위수 범위 = Q3 - Q1 로 박스의 크기 박스 내부 선 중앙값 낮은 수염 lower whisker 최소값 : 중앙값 - 1.5*IQR 의 값 중 가장 작은 값 높은 수염 upper whisker 최대값 : 중앙값 - 1.5*IQR 의 값 중 가장 큰 값 점 이상치 : 최소값 보다 작거나, 최대값 보다 큰 수
평균, 분산, 표준편차 히스토그램은 시각적인 표현에 적합하지만 분포의 특징을 ‘수치’로 나타내기에는 적합하지 않음 따라서 평균, 분산, 표준편차와 같은 대표적인 지표를 활용 평균 산술평균 : 우리가 일반적으로 부르는 평균 기하평균 : 산술 평균의 역수, 상대적인 비를 갖는 단위 평균을 계산하는 데 유용 (ex. 속력) 분산 : 각 측정치가 평균으로부터 얼마나 떨어져있는지 (편차) 를 제곱한 것들의 평균 표준편차: 분산 값에 제곱근을 취한 것 표준화 점수 (Z score) 공식 : (원점수 - 평균) / 표준편차 통계학적으로 정규분포를 만들어, 각 관측치가 표준편차 상 어떤 위치를 차지하는 지 보여줌 변동계수 (CV, Coefficient of Variation) 공식 : 표준 편차 / 평균 측정 단위가 ..
1.2 양적 데이터의 분포 1.2.1 히스토그램 (도수분포표) 최소치에서 최대치까지 등급을 부여해 그 등급 별 “빈도”를 수치로 나타낸 표 도수분포표 작성에는 하기의 과정이 필요 등급의 수, 등급간격을 결정 등급의 최소치를 결정 상대도수(ratio)를 부여 히스토그램의 대표적 그래프 모형 (4개의 패턴이 존재) 벨 bell 형태 : 좌우대칭 우측으로 꼬리가 긴 형태 (Skewed right) 좌측으로 꼬리가 긴 형태 (Skewed left) 단봉형 1.2.2 그 외 분포표 1) 줄기잎 stem and leaf plots 주로 데이터양이 적을 때 사용 예시) 체중: 71, 72, 73, 80, 82 7 | 123 8 | 02 2) 누적 상대도수 3) 누적 분포표 4) 로렌츠 곡선 소득 분배 정도를 나타낼 ..
- Total
- Today
- Yesterday
- 힙
- 코딩테스트
- 뇌하수체선종
- TensorFlow
- hash
- 쿠싱
- neural network
- 분산
- Lambda
- 파이썬
- 프로그래머스
- 분당서울대병원
- 중앙값
- SQL
- 평균
- 상관관계
- Python
- counter
- 쿠싱증후군
- 군고구마
- programmers
- 조건부확률
- 사분위수
- 확률분포
- 확률
- 통계
- leatcode
- random forest
- 뇌하수체
- 상대도수
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |