미림반점: ADsP : 과목III. 데이터 분석 - 통계학 개론

2018년 7월 21일 토요일

ADsP : 과목III. 데이터 분석 - 통계학 개론

통계분석 개요

통계학이란?

자료로 부터 유용한 정보를 이끌어 내는 학문
정보를 이끌어내는 작업에는 자료의 수집과 정리, 이를 해석하는 방법을 포함

모집단과 표본

모집단 : 정보의 대상이 되는 것, 즉 알고자 하는 것 전체
표본 : 모집단에서 분석 대상으로 관찰된 일부

표본 추출(sampling) 방법

확률적 추출(probability sampling)

단순 무작위 추출(simple random sampling) : 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 무작위로 추출
계통 추출(systematic sampling) : 모집단의 개체에 번호를 매기고, 일정 간격으로 표본을 추출
층화추출(stratified sampling) : 모집단을 성격에 따라 몇 개의 집단 또는 층(strata)으로 나누고, 각 집단에서 표본을 무작위로 추출
군집추출(cluster sampling) : 모집단을 성격에 따라 몇 개의 군집(cluster)로 나누고, 이 집단 중에서 몇 개를 선택 후 선택된 집단에서 임의 선택

비확률적 추출(nonprobability sampling)

판단추출(judgement sampling) : 전문지식이 있는 연구자가 자신의 판단에 따라 표본을 선택
할당추출(quota sampling) : 모집단을 여러 집단으로 나눈 후, 각 집단에서 연구자의 판단에 따라 표본을 선택
편의추출(convenience sampling) : 연구자가 쉽게 접근할 수 있는 표본을 선택

자료의 종류

명목척도(nominal scale) : 측정 대상을 특성을 분류하거나 확인하기 위한 목적으로 숫자 부여(예. 성별, 출생지)
서열척도(ordinal scale) : 대소 또는 높고 낮음의 순위를 제공. 양적인 비교는 불가능(예. 상품에 대한 선호순위)
등간척도(interval scale) : 순서를 부여하되 순위 사이의 간격이 동일하여 양적 비교가 가능. 단 절대 0점이 존재하지 않음(예. 온도계수치, 물가지수)
비율척도(ratio scale) : 측정값 사이의 비율 계산이 가능한 척도. 절대 0점이 존재(예. 몸무게, 나이, 제품가격)

통계분석

기술통계학(Descriptive statistics)

모집단 전체 혹은 표본으로 얻은 데이터에 대한 숫자 요약이나 그래프 요약을 통해,
데이터가 가진 정보를 정리하는 이론과 방법

추론통계학(Inferential statistics)

표본으로부터 얻은 정보를 이용하여 모집단의 특성을 추론하거나,
변수들 간의 함수 관계의 진위 여부를 판단하는 일련의 과정에 관한 이론과 방법

확률 및 확률 분포

확률의 정의

표본 공간 S의 부분집한인 각 사살애 대해 실수값을 가지는 함수 P가 다음 세가지 성질을 만족하면 확률이라 한다.

모든 사건의 확률값은 0과 1사이에 있다.
전체 집합의 확률은 1이다.
서로 배반인 사건들의 합집합의 확률은 각 사건의 확률의 합이다. 즉, 배반사건이란 교집합이 공집합인 사건이다.

조건부확률과 독립사건

조건부확률(Conditional probability) : 사건 B가 일어났다는 조건 아래서 A가 일어날 확률을 P(B|A)로 표시
P(B|A) = P(A∩B) / P(AP

확률변수와 확률분포

확률변수(random variable) : 표본공간에 발생하는 원소를 정의역으로 하고 이에 대응되는 실수 값을 치역으로 하는 함수
확률분포(probability distribution) : 치역에 해당하는 실수값을 확률로 나타낸 것
결합확률분포(joint probability distribution) : 두 확률변수 X, Y의 모든 값과 이에 대응하는 확률을 표나 그림으로 나타낸 것
이산형 확률변수(discrete random variable) : 사건의 확률이 그 사건들이 속한 점의 합으로 표현할 수 있는 확률 변수

베르누이 확률분포, 이항분포, 기하분포, 다항분포, 포아송 분포

연속형 확률분포(continuous random variable) : 사건의 확률이 0보다 큰 값을 갖는 함수의 면적으로 표현할 수 있는 확률 변수

균일분포, 정규분포(카이제곱분포, F분포), 지수분포

확률변수의 기댓값과 분산

확률변수 X가 취하는 변화에 따라 확률값은 분포를 이루게 되고, 이러한 확률분포의 중신이 되는 평균(mean)을 기댓값이라 한다.

추정과 가설검정

좋은 추정이 되기 위한 조건

불편성(unbiasedness) : 추정량의 기댓값이 모수의 값과 같아야 한다.
효율성(efficiency) : 추정량의 분산이 될 수 있는 대로 작아야 한다.
충족성(sufficiency) : 표본자료에 내재된 모든 정보를 활용할 수 있도록 정의된 추정량. 충족성의 효율성의 필요조건
일관성(consistency) : 표본의 크기가 커짐에 따라 표본오차가 작어져야 한다.

점추정

가장 참값이라고 여겨지는 하나의 값을 택하는 것
즉 모수가 특정한 값일 것이라고 추정하는 것

구간 추정

일정한 크기의 신뢰수준으로 무수가 특정한 구간에 있을 것이라고 선언하는 것
신뢰수준 95%의 의미

한 개의 모집단에서 동일한 방법으로 동일한 자료의 개수의 표본을 무한히 많이 추출하여 각 확률표본 마다 신뢰구간을 구하면,
이 무한히 많은 신뢰구간 중에서 95%의 신뢰구간이 미지의 모수를 포함한다는 의미
주어진 한 개의 신뢰구간이 미지의 모수를 포함할 확률이 95%인 의미가 아니다!

가설검정

모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론
표본을 이용하여 미지의 모집단 모수에 대한 두 가지 가설을 놓고 어느 가설을 선택할 것인지 통계적으로 의사결정 하는 것

대립 가설(alternative hypothesis) : 연구자가 입증하려는 주장을 담은 가설, H0
귀무 가설(null hypothesis) : 대립 가설과 반대의 증거를 찾기 위해 정한 가설, H1

가설검정에서는 제 1종 오류를 범할 확률의 최대 허용치를 특정 값으로 지정하고, 제 2종 오류의 확률을 가장 낮추는 검정 방법을 채택

제 1종 오류 : 귀무가설이 옳은 데도 불구하고 기각하게 되는 오류
제 2종 오류 : 귀무가설이 옳지 않은데도 채택하는 오류

관련 단어

검정통계량(test statistics) : 관찰된 표본으로부터 구하는 통계량. 분포가 가설에 주어지는 모수에 의존. 검정 시 가설의 진위를 판단하는 수단
유의확률(significance probability) : 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률
유의수준(significance level) : 귀무가설이 맞는데 잘못해서 기각할 확률(1종 오류)의 최댓값
기각역(critical region) : 검정통계량의 분포에서 유의수준에 크기에 해당하는 영역. 검정통계량의 유의성 판단 기준

비모수적 검정

모수적검정(parametric method) : 검정하고자 하는 모집단의 분포에 대해 가정을 하는 것
비모수적 검정(nonparametric method) : 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 방법
모수적추론 vs 비모수적추론 vs 베이지안추론 비교

모수적 추론 parametiric inference	비모수적 추론 non-parametric inference	베이지안 추론 Bayesian inference
모집단에 특정 분포를 가정하고, 분포의 특성을 결정하는 모수에 대해 추론 하는 방법	모집단에 대한 분포가정을 하지 않음 모집단의 특성을 몇 개의 모수로 결정하기 어려우며 수 많은 모수가 필요 할 수 있음	모수를 상수가 아닌 확률변수로 봄 -> 확률분포를 가짐. 사후분포(posterior distribution)를 유도

댓글 없음:

댓글 쓰기

피드 구독하기: 댓글 (Atom)