2018년 5월 6일 일요일

만화로 아주 쉽게 배우는 통계학 (1/2)


0. 통계학이란


통계학이란?
숫자로 어떤 사실을 도출하는 기술
주관에서 객관을 도출하는 도구

숫자에서 사실을 도출하는 4단계
  1. 어떤 일에 막연한 인상을 받는다.
  2. 그것을 '숫자' 표현하고 살펴본다.
  3. 2단계의 숫자가 1단계에서 받은 인상을 뒷받침하고 있음을 인식한다.
  1. 3단계를 검증하기 위해 통계학을 이용해 계산한다.

통계학 기법은 크게 기술통계와 추리통계로 나뉜다.
  1. 기술통계
  • 데이터로 얻은 숫자들의 나열에서 숨어있는 어떤 특성을 도드라지게 계산하는 방법
  1. 추리통계
  • 확률 기법을 이용하여 일부 데이터로 전체 정황을 추측하는 계산 방법



1. 평균과 표준편차  


(산술)평균
  • 모든 데이터의 합계를 데이터 개수로 나눈것

평균값의 역할
  • 제각각으로 분포하는 데이터 중에서 대표적인 수로 선출된
  • 최대값과 최소값 사이의
  • 평균을 알면, 실제 데이터는 주변에 분포하고 있음을 있음
  • 모든 데이터를 같은 수로 가정하면, 평균값은 합계의 의미로 봤을 원래의 데이터로 보기에도 손색이 없는

표준편차
  • 평균값 주변에 얼마나 흩어져 있거나 퍼져 있는지 알려주는 지표
  • SD: Standard Deviation

표준화란
  • 데이터의 특별함과 평범함을 일률적으로 평가하는 방법
  • 데이터의 고유 성질을 제거하고 통일하여 올바른 판단을 하는데 도움을 준다.

표준화의 성질
  • 평균값과 일치하는 데이터는 0으로 가공한다.
  • 평균값에서 표준편차만큼 데이터는 +1 가공하고, 표준편차만틈 작은 데이터는 -1 가공한다.
  • 평군과의 거리가 표준편차의 k배만큼 데이터는 +k 가공하고 표준편차의 k배만틈 작은 데이터는 -k 가공한다.


2. 정규 분포

추리통계
  • 관측된 표본을 갖고 모집단에 대해 추리하는

모집단이란
  • 알고 싶은 대상에 관한 모든 수를 모아 놓은
  • 유한 모집단과 무한 모집단이 있다.

표본이란
  • 모집단에서 관측된 일부의

유한 모집단
  • 유한개인 조사 대상물을 전부 모은
  • 조사 대상이 구체적

무한 모집단
  • 표본을 몇번 관측하든 변함이 없는 확률 분포
  • 직접 만지거나 없는 가공의 존재
  • 표본을 관측하든 모집단의 상태가 변하지 않는다.
  • ) 동전을 던졌을 , 동전의 앞면이 나올 확률과 뒷면이 나올 확률을 조사한다고 , 동전은 무한히 던질 있다.
  • ) 동전 던지기를 1 해도 다음번 동전 던지기에는 아무 영향을 주지 않는다.

모평균(μ), 모분산, 모표준편차(σ)
  • 모집단에 대한 평균, 분산, 표준편차를 의미한다.
  • 모평균을 나타내는 확률분포에서는 μ의 주변에 있는 수치가 관측될 것이라고 추정가능하다.
  • 모집단을 나타내는 확률분포는 σ의 주변에 있는 수치가 관측되며 물론 수치는 μ의 앞뒤로 퍼져있다고 추정가능하다.

정규모집단
  • 확률분포도가 특징적인 형태를 , 무리의 분포
  • 세상에서 가장 빈번하게 보이는 모집단



표준정규모집단
  • 정규모집단의 표준모델
  • 표준 정규 모집단의 확률분포도 특징
    • Y축을 대칭축으로 하여 좌우대칭을 이룬다.
    • 모양을 띠며 가장 높은 곳은 x=0 부분이다.
    • 확률 밀도는 아무리 플러스 x 아무리 작은 마이너스 x 0 되지 않는다. , 그래프의 양끝이 무한대이다.
    • x >= 2 부분에서 그래프는 급격히 낮아진다. 마찬가지로 x <= -2 부분에도 그래프는 급격히 낮아진다.
  • 폭을 가진 영역의 면적이 확률
    • 확률 밀도(곡선 높이) 폭을 설정하여 면적으로 만들었을 확률로 전환되는


일반적 정규 모집단을 만드는 방법
  • 일반적인 정규모집단은 표준정규모집단을 가공한
  • 표준정규모집단을 일반적인 정규모집단으로 만드는 과정
    • Y축을 중심으로 좌우로 σ배로 늘린다.
    • 모든 확률이 1 것을 유지하기 위해 그래프의 높이는 σ분 1 낮아진다.
    • 산꼭대기 부분인 x좌표가 μ가 되는 곳까지 가로축 방향으로 평행이동 한다.
    • 아래 도표는  σ= 2,  μ= 3 경우에 대한 구체적인

 

일반 정규모집단을 표준정규모집단으로 변환하려면 위의 내용을 역산하면 된다.
  • 가로축 방향으로  -μ만큼 이동,  σ분의 1 축소
  • , 모평균을 다음 모표준편차로 나눈다.

정규모집단을 다룰 때는 표준정규모집단의 지식만 있으면 충분하다.

  • 정규모집단을 표준정규모집단으로 변환할 있기 때문.
  • 정규모집단의 표본을 표준화하면 그것은 표준정규모집단에서 관측된 수치로 간주한다.
  • 표준화했을 때의 값이 2이상 또는 -2이하인 표본은 일어날 확률이 4.6% 정도인 아주 드문 사건이라고 간주할 있다.


 3. 가설 검정


추리통계 세팅
  1. 모집단의 유형을 정한다.
    • -1) 동전 던지기, 1또는 0 관측되는 유형
    • -1) 1 동전의 앞면이고, 0 동전의 뒷면
    • -2) 관측하는 표본은 정규모집단에서 나온다.
  2. 유형의 모집단을 구별하기 위한 파라미터를 도입한다.
    • -1) 앞면이 나올 확률을 p라는 변수로 놓는다.
    • -1) 파라미터p 값을 하나 정하면 동전 던지기의 유형 중에서 모집단이 선출된다
    • -1) 파라미터p 값이 변하면 모집단도 변화한다.
    • -2) 정규모집단의 종류는 모평균 μ와 σ로 결정된다.

통계적 추정은 정규 모집단에서 나온 표본을 관측하여 표본들로 파라미터 μ와 σ 추정하는 방법이다.
  • 통계적 추정의 기법
    • 가설 검정
    • 구간 추정


확률의 순문제
  • 모집단을 알고 있고 표본을 모르는 경우
  • 표본에 대해 어떤 것을 예언하는

확률의 역문제
  • 표본은 이미 관측되었고 모집단( 파라미터) 모르는 경우
  • 모집단에 대해 어떤 것을 예언하는 ..

가설검정의 원리
  1. 모집단의 파라미터에 대한 가설을 세운다.
  2. 가설의 모집단에 대해, 관측되는 표본에 관해 높은 확률로 맞출 예언을 만든다.
  3. 예언이 현실에서 관측된 표본에 적용되지 않는다면 버리고, 적용된다면 가설을 그대로 갖고 간다.
  • 역문제를 순문제로 바꿔서 접근
  • 가설을 설정하는 것은 모집단을 하나로 고정하는 것이며, 그로 인해 확률의 순방향에 대해 논의할 있어진다.

유의수준
  • 기각할 확률 N%
  • 가설이 정확하다는 전제하에서 N%이하의 확률로 일어나는 것은 매우 드문 일이라고 판단하는 지표
  • 유의수준 5% 표준정규모집단에서 관측되는 표본이 -1.96 이상 + 1.96 이하



댓글 없음:

댓글 쓰기

18회 ADsP 합격 후기

ADP도 아니고, 겨우 ADsP인데 무척 힘들게 공부했는데ㅜㅜ 결과적으로는 좋은 결과가 나와서 행복하네요! 꽤나 아슬아슬하게 합격해서 창피하긴합니다만ㅋ 합격하면 된거지 뭐 라고 생각하려구요! 언제가 될지는 모르겠습니다만, ADP도 ...