미림반점: ADsP : 과목III. 데이터 분석 - 회귀분석

2018년 7월 22일 일요일

ADsP : 과목III. 데이터 분석 - 회귀분석

회귀 분석(Regression Analysis)

회귀 분석이란?

변수와 변수 사이의 관계를 알아보기 위한 통계적 방법
독립변수의 값에 의하여 종속변수의 값을 예측하기 위함

독립변수(independent variable) : 종속변수에 영향을 미치는 변수
종속변수(dependent variable) : 분석의 대상이 되는 변수

회귀분석의 종류

독립변수의 수에 의한 구분

1개 - 단순 회귀 분석
2개 이상 - 다중 회귀 분석

독립변수 척도에 의한 구분

등간, 비율 - 일반 회귀
명목, 서열 - 더미 회귀

독립, 종속 변수의 관계에 의한 구분

선형회귀
비선형회귀

회귀모형에 대한 가정

선형성 : 독립변수의 변화에 따라 종속변수도 변화하는 선형인 모형
독립성 : 잔차와 독립변수의 값이 관련되어 있지 않음
등분산성 : 오차항들의 분포는 동일한 분산을 가짐
비상관성 : 잔차들끼리 상관이 없어야 함
정상성 : 잔차항이 정규분포를 이뤄야 함

회귀분석 모형에서 확인할 사항

모형이 통계적으로 유의미한가? F분포값과 유의확률(p-value)를 확인
회귀계수들이 유의미한가? 회귀계수의 t값과 유의확률(p-value)를 확인
모형이 얼마나 설명력을 갖는가? 결정 계수를 확인
모형이 데이터를 잘 적합하고 있는가? 잔차통계량을 확인하고 회귀진단

다중공선성(Multicolinearity)

모형의 일부 예측변수가 다른 예측변수와 상관되어 있을 때 발생하는 조건이다.
중대한 다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 된다.
R에서는 vif 함수를 이용해 VIF값을 구할 수 있으며, 보통 VIF값이 4가 넘으면 다중공선성이 존재한다고 본다.
해결방안 : 높은 상관 관계가 있는 예측변수를 모형에서 제거한다.

최적 회귀방정식의 선택 : 단계별 변수선택(Stepwise Variable Selection)

후진 제거법(Backward Elimination) : 기준 통계치에 가장 도움이 되지 않는 변수를 하나씩 제거하는 방법
전진 선택법(Forward Selection) : 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가하는 방법
단계별 선택법(Stepwise Selection) : 모든 변수가 포함된 모델에서 기준 통계치에 도움되지 않는 변수를 삭제하거나, 모델에 빠진 변수중 통계치를 개선시키는 변수를 추가하는 방법

회귀모델에서 변수를 선택하는 판단 기준

Cp(멜로우스 통계량), AIC(아케이케), BIC(슈바르츠 통계량)을 기준으로 세 통계량이 작을 수록 좋다.

AIC : step()함수 이용
BIC : leaps 패키지의 redsubsets() 함수를 이용

정규화 선형회귀(Regularized Linear Regression)

정규화 선형회귀란?

선형회귀계수에 대한 제약 조건을 추가하여 모형이 과도하게 최적화되는, 즉 과적합(overfitting)을 막는 방법

딥러닝에서 과적합 문제를 해결하는 방법

더 많은 데이터를 사용한다.
Cross Validation
정규화(Regularization) - Ridge 회귀모형, Lasso 회귀모형, Elastic Net 회귀 모형

세 가지 정규화 방법의 비교

구분	릿지회귀	라소회귀	엘라스틱넷
제약식	L2norm	L1norm	L1 + L2norm
변수선택	불가능	가능	가능
장점	변수 간 상관관계가 높아도 좋은 성능	변수 간 상관관계가 높으면 성능이 떨어짐	변수 간 상관관계를 반영한 정규화

댓글 없음:

댓글 쓰기

피드 구독하기: 댓글 (Atom)