- 다변량 분석
- 다변량 분석의 목표
- 간단한 형식으로 데이터를 요약하는 것
- 이를 통해 반응변수와 설명변수 간의 관계를 쉰게 이해하기 위함
- 다변량 분석의 방법
- 정보의 손실 없이 설명 변수의 숫자를 줄이거나 다수의 개체를 몇 개의 작은 그룹으로 나눈다.
- 개발된 분석 방법은 아래와 같다.
- 주성분분석(Principal COmponent Analysis)
- 요인분석(Factor Analysis)
- 판별분석(Discriminant Analysis)
- 군집분석(Cluster Analysis)
- 정준상관분석(Canonical Correlation Analysis)
- 다차원척도법(Multi-dimensional Scaling)
- 상관분석
- 상관분석이란?
- 데이터 안의 두 변수 간의 관련성을 파악하는 방법
- 상관계수는 두 변수간 관련성의 정도를 의미
- 측정 방법 : 피어슨 상관계수, 스피어만 상관계수, 켄달의 순위상관계수
- 흔히 상관계수라고 하면 피어슨 상관계수를 의미
구분
|
사용척도
|
분석방법
|
상관분석
|
서열척도
|
스피어만 상관분석
|
등간척도, 비율척도
|
피어슨 상관분석
|
|
편상관분석
|
- 상관계수와 상관관계
- 상관계수 r의 범위는 -1 ≤ r ≤ 1
- 상관계수가 0에 가까울 수록 상관이 낮다고 말한다. (단, r=0이라 함은 두 변수간 직선적 관계가 없다는 의미이다.
- 피어슨의 상관계수 vs 스피어만 상관계수
피어슨의 상관계수
|
스피어만 상관계수
|
두 변수 간의 선형관계의 크기를 측정하는 값으로
비선형적인 관계는 나타내지 못한다.
연속형 변수만 가능
예. 국어 점수와 영어점수의 상관계수
|
두 변수 간의 비선형적인 관계도 나타낼 수 있음
연속형 외에 이산형 순서형도 가능
예. 국어성적 석차와 영어성적 석차의 상관계수
|
- 결정계수
- 회귀 분산분석에서, 총 제곱합(총 변동, SST) = 회귀제곱합(설명된 변동, SSR) + 오차제곱합(설명안된 변동, SSE)
- R2(결정계수) = 회귀제곱합(SSR) / 총 제곱합(SST)
- 결정계수가 클 수록 회귀방정식과 상관계수의 설명력이 높아진다.
- 다차원 척도법(MDS, Multidimensional Scaling)
- 다차원 척도법이란?
- 개체들 사이의 유사성/ 비유사성을 측정하여 2차원 또는 3차원 공간상에 표현하는 방법
- 개체간의 근접성을 시각화하여 데이터 속에 잠재한 패턴이나 구조를 찾아내는 통계기법
- 특징
- 차원의 수가 많을 수록 추정의 적합도가 높아지지만 해석이 어려워서 일반적으로 두 개 차원의 지각도를 작성
- 유사성의 계산은 Euclidean 거리를 활용
- 주성분분석(PCA, Principal Component Analysis)
- 주성분분석이란?
- 데이터에 많은 변수가 있을 때 변수의 수를 줄이는 차원 감소 기법중 하나.
- 상관관계가 있는 변수들을 선형 결합하여 변수를 축약
- 즉, 변수들 간에 내재하는 상관관계 및 연관성을 이용하여 소수의 주성분으로 차원을 축소하는 분석기법
- 주성분분석 vs 요인분석
- 자료의 축소라는 차원에서 같은 의미로 해석하기 쉬우나 다른 개념
- 주성분분석 : 많은 데이터에 포함된 정보의 손실을 최소화해서 단순히 데이터를 축소하는 방법
- 공통요인분석 : 자료의 축소라는 의미도 포함해 데이터에 내재적 속성까지 찾아내는 방법
댓글 없음:
댓글 쓰기