2018년 5월 6일 일요일
만화로 아주 쉽게 배우는 통계학 (2/2)
책의 제목과는 달리, 만화로 배운 것 같지는 않다.
상대적으로 쉽게 정리한 것 같긴한데... 만화 끝나고 나오는 글로 배운 것 같다.
그럼에도...
통계쪽 지식이 거의 없는 나에게는 너무 어려워서..ㅜ 읽다가 딴짓하다가를 반복...
몇줄안되는 짧은 문장도 집중해서 읽지를 못하고... 읽어도 이해를 못하고... 좌절을 했지만...
일단 다 읽긴 했다... 이해는 잘 하지 못했지만....ㅜ_ㅜ
이 책 덕에 확실히 알게된 것은 표준화라는 개념
이전에는 왜 표준화를 해야하는지 이해가 되지 않았는데,
'데이터의 특별함을 일률적으로 평가 하기 위함'이라는게 확실히 와닿았다.
추리통계는 업무에서 어떻게 사용할 수 있을지 여전히 모르겠다.
게임의 로그데이터는 상대적으로 모집단에 대한 정보를 얻기 쉽기때문에,
추리통계가 덜 중요하지 않을까? 라는 생각이 들기도 한다.
또 추리통계로 어떤 결론을 도출했다고 해도... 내가 이걸 상사에게 잘 보고할수 있을까...
못할거야...
다만, 아직 추리통계에 대해 잘 알고있지 못하므로 무지에서 비롯된 성급한 결론일거라 생각하고 시간이 된다면 통계학에 대한 공부는 더 해보려고 한다.
만화로 아주 쉽게 배우는 통계학 (1/2)
0. 통계학이란
통계학이란?
숫자로 어떤 사실을 도출하는 기술
숫자에서 사실을 도출하는 4단계
- 어떤 일에 막연한 인상을 받는다.
- 그것을 '숫자'로 표현하고 살펴본다.
- 2단계의 숫자가 1단계에서 받은 인상을 뒷받침하고 있음을 인식한다.
- 3단계를 검증하기 위해 통계학을 이용해 계산한다.
통계학 기법은 크게 기술통계와 추리통계로 나뉜다.
- 기술통계
- 데이터로 얻은 숫자들의 나열에서 숨어있는 어떤 특성을 도드라지게 계산하는 방법
- 추리통계
- 확률 기법을 이용하여 일부 데이터로 전체 정황을 추측하는 계산 방법
1. 평균과 표준편차
(산술)평균
- 모든 데이터의 합계를 데이터 총 개수로 나눈것
평균값의 역할
- 제각각으로 분포하는 데이터 중에서 대표적인 수로 선출된 값
- 최대값과 최소값 사이의 값
- 평균을 알면, 실제 데이터는 그 주변에 분포하고 있음을 알 수 있음
- 모든 데이터를 같은 수로 가정하면, 평균값은 합계의 의미로 봤을 때 원래의 데이터로 보기에도 손색이 없는 수
표준편차
- 평균값 주변에 얼마나 흩어져 있거나 퍼져 있는지 알려주는 지표
- SD: Standard Deviation
표준화란
- 데이터의 특별함과 평범함을 일률적으로 평가하는 방법
- 데이터의 고유 성질을 제거하고 통일하여 올바른 판단을 하는데 도움을 준다.
표준화의 성질
- 평균값과 일치하는 데이터는 0으로 가공한다.
- 평균값에서 딱 표준편차만큼 큰 데이터는 +1로 가공하고, 표준편차만틈 작은 데이터는 -1로 가공한다.
- 평군과의 거리가 표준편차의 k배만큼 큰 데이터는 +k로 가공하고 표준편차의 k배만틈 작은 데이터는 -k로 가공한다.
2. 정규 분포
추리통계
모집단이란
- 알고 싶은 대상에 관한 모든 수를 모아 놓은 것
- 유한 모집단과 무한 모집단이 있다.
표본이란
- 모집단에서 관측된 일부의 수
유한 모집단
- 유한개인 조사 대상물을 전부 모은 것
- 조사 대상이 구체적
무한 모집단
- 표본을 몇번 관측하든 변함이 없는 확률 분포
- 직접 만지거나 볼 수 없는 가공의 존재
- 표본을 몇 개 관측하든 모집단의 상태가 변하지 않는다.
- 예) 동전을 던졌을 때, 동전의 앞면이 나올 확률과 뒷면이 나올 확률을 조사한다고 할 때, 동전은 무한히 던질 수 있다.
- 예) 동전 던지기를 1회 해도 다음번 동전 던지기에는 아무 영향을 주지 않는다.
모평균(μ), 모분산, 모표준편차(σ)
- 모집단에 대한 평균, 분산, 표준편차를 의미한다.
- 모평균을 나타내는 확률분포에서는 μ의 주변에 있는 수치가 관측될 것이라고 추정가능하다.
- 모집단을 나타내는 확률분포는 σ의 주변에 있는 수치가 관측되며 물론 그 수치는 μ의 앞뒤로 퍼져있다고 추정가능하다.
정규모집단
- 확률분포도가 특징적인 형태를 한, 한 무리의 분포
- 이 세상에서 가장 빈번하게 보이는 모집단
표준정규모집단
- 정규모집단의 표준모델
- 표준 정규 모집단의 확률분포도 특징
- Y축을 대칭축으로 하여 좌우대칭을 이룬다.
- 종 모양을 띠며 가장 높은 곳은 x=0인 부분이다.
- 확률 밀도는 아무리 큰 플러스 x나 아무리 작은 마이너스 x도 0이 되지 않는다. 즉, 그래프의 양끝이 무한대이다.
- x >= 2 의 부분에서 그래프는 급격히 낮아진다. 마찬가지로 x <= -2의 부분에도 그래프는 급격히 낮아진다.
- 폭을 가진 영역의 면적이 확률
- 확률 밀도(곡선 높이)는 폭을 설정하여 면적으로 만들었을 때 확률로 전환되는 양
일반적 정규 모집단을 만드는 방법
- 일반적인 정규모집단은 표준정규모집단을 가공한 것
- 표준정규모집단을 일반적인 정규모집단으로 만드는 과정
일반 정규모집단을 표준정규모집단으로 변환하려면 위의 내용을 역산하면 된다.
- 가로축 방향으로 -μ만큼 이동, σ분의 1 축소
- 즉, 모평균을 뺀 다음 모표준편차로 나눈다.
정규모집단을 다룰 때는 표준정규모집단의 지식만 있으면 충분하다.
- 정규모집단을 표준정규모집단으로 변환할 수 있기 때문.
- 정규모집단의 표본을 표준화하면 그것은 표준정규모집단에서 관측된 수치로 간주한다.
- 표준화했을 때의 값이 2이상 또는 -2이하인 표본은 일어날 확률이 4.6% 정도인 아주 드문 사건이라고 간주할 수 있다.
3. 가설 검정
추리통계 세팅
- 모집단의 유형을 정한다.
- 예-1) 동전 던지기, 즉 1또는 0이 관측되는 유형
- 예-1) 1이 동전의 앞면이고, 0이 동전의 뒷면
- 예-2) 관측하는 표본은 정규모집단에서 나온다.
- 이 유형의 모집단을 구별하기 위한 파라미터를 도입한다.
- 예-1) 앞면이 나올 확률을 p라는 변수로 놓는다.
- 예-1) 파라미터p의 값을 하나 정하면 동전 던지기의 유형 중에서 모집단이 한 개 선출된다
- 예-1) 파라미터p의 값이 변하면 모집단도 변화한다.
- 예-2) 정규모집단의 종류는 모평균 μ와 σ로 결정된다.
통계적 추정은 정규 모집단에서 나온 표본을 몇 개 관측하여 그 표본들로 파라미터 μ와 σ를 추정하는 방법이다.
- 통계적 추정의 기법
- 가설 검정
- 구간 추정
- 모집단을 알고 있고 표본을 모르는 경우
- 표본에 대해 어떤 것을 예언하는 것
확률의 역문제
- 표본은 이미 관측되었고 모집단(의 파라미터)을 모르는 경우
- 모집단에 대해 어떤 것을 예언하는 것..
가설검정의 원리
- 모집단의 파라미터에 대한 가설을 세운다.
- 가설의 모집단에 대해, 관측되는 표본에 관해 높은 확률로 맞출 예언을 만든다.
- 그 예언이 현실에서 관측된 표본에 적용되지 않는다면 버리고, 적용된다면 가설을 그대로 갖고 간다.
- 역문제를 순문제로 바꿔서 접근
- 가설을 설정하는 것은 모집단을 하나로 고정하는 것이며, 그로 인해 확률의 순방향에 대해 논의할 수 있어진다.
유의수준
- 기각할 확률 N%
- 가설이 정확하다는 전제하에서 N%이하의 확률로 일어나는 것은 매우 드문 일이라고 판단하는 지표
- 유의수준 5%는 표준정규모집단에서 관측되는 표본이 -1.96 이상 + 1.96 이하
피드 구독하기:
글 (Atom)
18회 ADsP 합격 후기
ADP도 아니고, 겨우 ADsP인데 무척 힘들게 공부했는데ㅜㅜ 결과적으로는 좋은 결과가 나와서 행복하네요! 꽤나 아슬아슬하게 합격해서 창피하긴합니다만ㅋ 합격하면 된거지 뭐 라고 생각하려구요! 언제가 될지는 모르겠습니다만, ADP도 ...

-
1. 군집분석(cluster analysis)이란? a. 각 개체에 관측된 여러 개의 변수값으로 부터 n개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화 하고, b. 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하는 다변량...
-
1. 분류분석의 목적 a. 반응변수가 범주형인 경우, 새로운 자료에 대한 분류가 주목적 b. 반응변수가 연속형인 경우, 그 값을 예측하는 것이 주 목적 2. 로지스틱 회귀모형 a. 로지스틱 회귀모형이란? - 반응변수가 ...
-
1. 연관규칙 a. 연관규칙(Association rule)이란 - 항목들간의 조건-결과 식으로 표현되는 유용한 패턴 - 이러한 패턴을 발견해 내는 것을 연관분석(Association Analysis)이라고 하고, 흔히 장바구니 분석이라고 ...