'데이터분석' 카테고리의 글 목록

표본분포 모집단으로부터 무작위 반복 추출한 표본 통계량에 대한 분포로, 크게 2가지의 과제로 나뉨 정규모집단의 평균과 분산 측정이 중요한 분포(카이제곱, T, F) n이 클 때의 표본분포의 성질에 대한 정리(대수의 법칙, 중심극한정리) 2.1 정규모집단의 평균과 분산 측정이 중요한 분포 표본을 통해 모집단 통계량(평균, 분산) 추론이 중요한 분포 2.1.1 카이제곱분포 (chi-squared distribution) [ 정의 ] n개의 서로 독립적인 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포 주요 용도 : 표본분산을 통한 모분산 추측(모분산에 대한 가설검정이나 신뢰구간 도출) 그룹들의 비율을 비교하며, 독립변수 종속변수가 모두 범주형 자료(Categorical data)인 분석에 유용 예시) 여성..

데이터분석/통계 2023. 8. 3. 13:59

2. 확률과 확률분포_ 2변수의 확률분포

동시확률분포와 주변확률분포 1) 동시확률분포=결합확률분포(Joint Probability Distribution) 말 그대로 두 개의 사건이 동시에 일어날 확률이며 한 가지 대상에 대해 여러 변수의 분포 확인이 가능 이 때 두 사건은 서로 독립적이어야 함 2) 주변확률분포(Marginal Probability Distribution) 두개의 변수로 이루어진 결합 확률 분포를 하나의 변수로 표현 공분산과 상관관계 공분산 Cov[X,Y] = E[(X-mx)(Y-my)] 상관관계 Pxy = Cov[X,Y] / √V[X]*V[Y] 2변수 X, Y 합의 평균과 분산은 하기와 같음 평균 E[X+Y] = E[X] + E[Y] 분산 V[X+Y] = V[X] + V[Y] + 2E[(X-mx)(Y-my)] = V[X] +..

데이터분석/통계 2023. 7. 31. 14:48

2. 확률과 확률분포_ 연속확률분포

확률밀도함수 : 연속확률변수를 나타내는 함수(특정 확률 변수의 특정 값에서 가지는 크기를 나타내는 함수) 즉, 확률 변수가 특정 범위를 가질 때를 나타내는 함수 ex) 시계 바늘이 0시와 1시 사이에 있을 확률 → 1/12 probability density function = PDF (확률질량함수 PMF의 연속형 버전) 누적분포함수 : 확률 변수가 특정 값보다 작거나 같을 때를 나타냄 ex) 3시 보다 적을 확률 → 3/12 Cumulative Distribution Function = CMF 균일분포 Uniform Distribution 분포가 특정 범위(a ≤ x ≤ b) 내에서 균등하게 나타나 있을 경우를 가리키는데, 이 분포는 두 개의 매개변수 a, b를 가지며 [a, b] 내에서 균등한 확률을..

데이터분석/통계 2023. 7. 27. 13:47

2. 확률과 확률분포_ 이산확률분포

확률질량함수 : 이산확률변수를 나타내는 함수 probability mass function = PMF 베르누이 분포 (Bernoulli Trial) 임의의 결과가 '성공' 또는 '실패'의 두 가지 중 하나인 실험 이항분포 (Binomial Distribution) 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포 ⇒ B(n,p) n=1일 때 이항 분포는 베르누이 분포 ⇒ B(1, 1/2) 예: 주사위를 10회 던져서 숫자 6이 나오는 확률 → n = 10, p = 1/6 인 이항분포 ⇒ B(10, 1/6) 푸아송 분포 (Poisson Distribution) 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현 예시 일정 주어진 시간 동안에 도착한 고객의 수 1킬로미터 도..

데이터분석/통계 2023. 7. 24. 14:52

2. 확률과 확률분포_기대치와 분산

모집단의 특성을 나타내는 대표적인 수치로는 기대치와 분산이 있음. 기대치(Expectation) 어떤 확률 과정을 무한히 반복했을 때 얻을 수 있는 값들의 평균으로 기대하는 값으로 결괏값과 그것의 확률들의 곱들의 합으로도 나타낼 수 있음 보통은 표본평균을 의미하나 시행횟수 n → ∞ 로 갈 수록 표본평균은 모평균에 수렴함 예) 주사위를 던졌을 때의 기대치 = 3.5 주사위를 던졌을 때 나올 수 있는 값들은 1부터 6까지의 숫자이고 각각의 확률은 1/6 분산(Variance) 각 측정치가 평균으로부터 얼마나 떨어져있는지 (편차) 를 제곱한 것들의 평균 이를 기대치로 나타내면 아래와 같음

데이터분석/통계 2023. 7. 24. 14:48

2. 확률과 확률분포_베이즈 정리 / 확률변수 및 확률분포

베이즈 정리 어떤 사건이 일어난 후 앞으로 일어날 다른 사건의 가능성을 구하는 것 즉, 기존 사건들의 확률(사전 확률)을 알고 있다면, 각 원인들의 조건부 확률(사후 확률)을 구할 수 있음 기존 사건들의 데이터가 쌓이면 쌓일 수록 조건부 확률의 정확성이 높아짐 확률변수와 확률분포 확률변수 Random Variable : 시행의 결과에 따라 값이 결정되는 변수 확률분포 Probability Distribution : 확률변수가 특정한 값을 가질 확률을 나타내는 함수 확률 변수가 어떤 종류의 값을 가지는가에 따라 이산 확률 분표와 연속 확률 분포로 나뉨 이산확률분포 discrete probability distribution 확률 질량 함수로 표현 가능하며 대표적 예시는 하기와 같음 푸아송 분포 : 단위 시..

데이터분석/통계 2023. 7. 2. 17:09

OLS (Ordinary Least Squares)

OLS (Ordinary Least Squares) 들어가기 전(용어정리) 오차: 모집단에서, 회귀식의 예측값과 실제 관측값과의 차이 잔차: 표본집단에서, 회귀식의 예측값과 실제 관측값과의 차이 주로 표본집단이 사용되므로 회귀식에서 사용되는 오차는 잔차를 의미하는 경우가 대부분. 1. OLS란 선형회귀식에 주로 이용되는 파라메터 측정기법 중 하나로,오차의 제곱의 합이 최소가 되는 원리를 이용 2. OLS의 전제조건 (회귀식의 전제조건과도 상응) OLS추정이 일관되고, 편향성을 가지지 않기 위해서는 크게 3가지의 전제조건이 필요하다. 2.1 독립변수가 외인성(exogenous)이어야 함. regressors are exogenous 독립변수는 회귀식 내에서 발생되는 것이 아닌, 외부적 요인에 의한 것이어야..

데이터분석/통계 2023. 7. 1. 17:25

2. 확률과 확률분포_조건부확률

개요 어떤 사건이 일어나는 경우 다른 사건이 일어날 확률 P(A ∣ B) = 사건 B가 일어나는 경우에 사건 A가 일어날 확률 예시 한 집단에 10대부터 50대까지의 연령이 존재하고, 안경을 쓴 사람과 그렇지 않은 사람이 있다. 이 중 40대(A)는 30%, 안경을 쓴 사람(B)은 20%, 40대이면서 안경을 쓴 사람(AB)은 6%이다. 해당 집단에서 안경을 쓴 어떤 한 사람을 뽑았을 때 그 사람이 40대일 확률은 P(AB) / P(B) = 0.06 / 0.2 = 0.3 독립성 사건 A와 B가 독립이라는 것은, P(A ∣ B) = P(A) (= P(B ∣ A) = P(B)) 통계의 함정 A : 운전자가 안전띠를 매는 사건 B : 운전자가 자동차 사고로 사망하는 사건 자동차 사고로 사망한 사람의 40%는 ..

데이터분석/통계 2023. 7. 1. 12:51

이전 1 2 3 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

ToDo_DATA

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역