- 통계분석 개요
- 통계학이란?
- 자료로 부터 유용한 정보를 이끌어 내는 학문
- 정보를 이끌어내는 작업에는 자료의 수집과 정리, 이를 해석하는 방법을 포함
- 모집단과 표본
- 모집단 : 정보의 대상이 되는 것, 즉 알고자 하는 것 전체
- 표본 : 모집단에서 분석 대상으로 관찰된 일부
- 표본 추출(sampling) 방법
- 확률적 추출(probability sampling)
- 단순 무작위 추출(simple random sampling) : 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 무작위로 추출
- 계통 추출(systematic sampling) : 모집단의 개체에 번호를 매기고, 일정 간격으로 표본을 추출
- 층화추출(stratified sampling) : 모집단을 성격에 따라 몇 개의 집단 또는 층(strata)으로 나누고, 각 집단에서 표본을 무작위로 추출
- 군집추출(cluster sampling) : 모집단을 성격에 따라 몇 개의 군집(cluster)로 나누고, 이 집단 중에서 몇 개를 선택 후 선택된 집단에서 임의 선택
- 비확률적 추출(nonprobability sampling)
- 판단추출(judgement sampling) : 전문지식이 있는 연구자가 자신의 판단에 따라 표본을 선택
- 할당추출(quota sampling) : 모집단을 여러 집단으로 나눈 후, 각 집단에서 연구자의 판단에 따라 표본을 선택
- 편의추출(convenience sampling) : 연구자가 쉽게 접근할 수 있는 표본을 선택
- 자료의 종류
- 명목척도(nominal scale) : 측정 대상을 특성을 분류하거나 확인하기 위한 목적으로 숫자 부여(예. 성별, 출생지)
- 서열척도(ordinal scale) : 대소 또는 높고 낮음의 순위를 제공. 양적인 비교는 불가능(예. 상품에 대한 선호순위)
- 등간척도(interval scale) : 순서를 부여하되 순위 사이의 간격이 동일하여 양적 비교가 가능. 단 절대 0점이 존재하지 않음(예. 온도계수치, 물가지수)
- 비율척도(ratio scale) : 측정값 사이의 비율 계산이 가능한 척도. 절대 0점이 존재(예. 몸무게, 나이, 제품가격)
- 통계분석
- 기술통계학(Descriptive statistics)
- 모집단 전체 혹은 표본으로 얻은 데이터에 대한 숫자 요약이나 그래프 요약을 통해,
- 데이터가 가진 정보를 정리하는 이론과 방법
- 추론통계학(Inferential statistics)
- 표본으로부터 얻은 정보를 이용하여 모집단의 특성을 추론하거나,
- 변수들 간의 함수 관계의 진위 여부를 판단하는 일련의 과정에 관한 이론과 방법
- 확률 및 확률 분포
- 확률의 정의
- 표본 공간 S의 부분집한인 각 사살애 대해 실수값을 가지는 함수 P가 다음 세가지 성질을 만족하면 확률이라 한다.
- 모든 사건의 확률값은 0과 1사이에 있다.
- 전체 집합의 확률은 1이다.
- 서로 배반인 사건들의 합집합의 확률은 각 사건의 확률의 합이다. 즉, 배반사건이란 교집합이 공집합인 사건이다.
- 조건부확률과 독립사건
- 조건부확률(Conditional probability) : 사건 B가 일어났다는 조건 아래서 A가 일어날 확률을 P(B|A)로 표시
- P(B|A) = P(A∩B) / P(AP
- 확률변수와 확률분포
- 확률변수(random variable) : 표본공간에 발생하는 원소를 정의역으로 하고 이에 대응되는 실수 값을 치역으로 하는 함수
- 확률분포(probability distribution) : 치역에 해당하는 실수값을 확률로 나타낸 것
- 결합확률분포(joint probability distribution) : 두 확률변수 X, Y의 모든 값과 이에 대응하는 확률을 표나 그림으로 나타낸 것
- 이산형 확률변수(discrete random variable) : 사건의 확률이 그 사건들이 속한 점의 합으로 표현할 수 있는 확률 변수
- 베르누이 확률분포, 이항분포, 기하분포, 다항분포, 포아송 분포
- 연속형 확률분포(continuous random variable) : 사건의 확률이 0보다 큰 값을 갖는 함수의 면적으로 표현할 수 있는 확률 변수
- 균일분포, 정규분포(카이제곱분포, F분포), 지수분포
- 확률변수의 기댓값과 분산
- 확률변수 X가 취하는 변화에 따라 확률값은 분포를 이루게 되고, 이러한 확률분포의 중신이 되는 평균(mean)을 기댓값이라 한다.
- 추정과 가설검정
- 좋은 추정이 되기 위한 조건
- 불편성(unbiasedness) : 추정량의 기댓값이 모수의 값과 같아야 한다.
- 효율성(efficiency) : 추정량의 분산이 될 수 있는 대로 작아야 한다.
- 충족성(sufficiency) : 표본자료에 내재된 모든 정보를 활용할 수 있도록 정의된 추정량. 충족성의 효율성의 필요조건
- 일관성(consistency) : 표본의 크기가 커짐에 따라 표본오차가 작어져야 한다.
- 점추정
- 가장 참값이라고 여겨지는 하나의 값을 택하는 것
- 즉 모수가 특정한 값일 것이라고 추정하는 것
- 구간 추정
- 일정한 크기의 신뢰수준으로 무수가 특정한 구간에 있을 것이라고 선언하는 것
- 신뢰수준 95%의 의미
- 한 개의 모집단에서 동일한 방법으로 동일한 자료의 개수의 표본을 무한히 많이 추출하여 각 확률표본 마다 신뢰구간을 구하면,
- 이 무한히 많은 신뢰구간 중에서 95%의 신뢰구간이 미지의 모수를 포함한다는 의미
- 주어진 한 개의 신뢰구간이 미지의 모수를 포함할 확률이 95%인 의미가 아니다!
- 가설검정
- 모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론
- 표본을 이용하여 미지의 모집단 모수에 대한 두 가지 가설을 놓고 어느 가설을 선택할 것인지 통계적으로 의사결정 하는 것
- 대립 가설(alternative hypothesis) : 연구자가 입증하려는 주장을 담은 가설, H0
- 귀무 가설(null hypothesis) : 대립 가설과 반대의 증거를 찾기 위해 정한 가설, H1
- 가설검정에서는 제 1종 오류를 범할 확률의 최대 허용치를 특정 값으로 지정하고, 제 2종 오류의 확률을 가장 낮추는 검정 방법을 채택
- 제 1종 오류 : 귀무가설이 옳은 데도 불구하고 기각하게 되는 오류
- 제 2종 오류 : 귀무가설이 옳지 않은데도 채택하는 오류
- 관련 단어
- 검정통계량(test statistics) : 관찰된 표본으로부터 구하는 통계량. 분포가 가설에 주어지는 모수에 의존. 검정 시 가설의 진위를 판단하는 수단
- 유의확률(significance probability) : 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률
- 유의수준(significance level) : 귀무가설이 맞는데 잘못해서 기각할 확률(1종 오류)의 최댓값
- 기각역(critical region) : 검정통계량의 분포에서 유의수준에 크기에 해당하는 영역. 검정통계량의 유의성 판단 기준
- 비모수적 검정
- 모수적검정(parametric method) : 검정하고자 하는 모집단의 분포에 대해 가정을 하는 것
- 비모수적 검정(nonparametric method) : 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 방법
- 모수적추론 vs 비모수적추론 vs 베이지안추론 비교
모수적 추론
parametiric
inference
|
비모수적 추론
non-parametric
inference
|
베이지안 추론
Bayesian
inference
|
모집단에 특정 분포를 가정하고, 분포의 특성을 결정하는 모수에 대해 추론 하는 방법
|
모집단에 대한 분포가정을 하지 않음
모집단의 특성을 몇 개의 모수로 결정하기 어려우며 수 많은 모수가 필요 할 수 있음
|
모수를 상수가 아닌 확률변수로 봄 -> 확률분포를 가짐.
사후분포(posterior
distribution)를 유도
|
댓글 없음:
댓글 쓰기