2018년 7월 22일 일요일

ADsP : 과목III. 데이터 분석 - 다변량 분석


  1. 다변량 분석
    1. 다변량 분석의 목표
    • 간단한 형식으로 데이터를 요약하는
    • 이를 통해 반응변수와 설명변수 간의 관계를 쉰게 이해하기 위함

    1. 다변량 분석의 방법
    • 정보의 손실 없이 설명 변수의 숫자를 줄이거나 다수의 개체를 개의 작은 그룹으로 나눈다.
    • 개발된 분석 방법은 아래와 같다.
      • 주성분분석(Principal COmponent Analysis)
      • 요인분석(Factor Analysis)
      • 판별분석(Discriminant Analysis)
      • 군집분석(Cluster Analysis)
      • 정준상관분석(Canonical Correlation Analysis)
      • 다차원척도법(Multi-dimensional Scaling)

  1. 상관분석
    1. 상관분석이란?
    • 데이터 안의 변수 간의 관련성을 파악하는 방법
    • 상관계수는 변수간 관련성의 정도를 의미
    • 측정 방법 : 피어슨 상관계수, 스피어만 상관계수, 켄달의 순위상관계수
      • 흔히 상관계수라고 하면 피어슨 상관계수를 의미
구분
사용척도
분석방법
상관분석
서열척도
스피어만 상관분석

등간척도, 비율척도
피어슨 상관분석


편상관분석

  1. 상관계수와 상관관계
  • 상관계수 r 범위는 -1 r 1
  • 상관계수가 0 가까울 수록 상관이 낮다고 말한다. (, r=0이라 함은 변수간 직선적 관계가 없다는 의미이다.

  1. 피어슨의 상관계수 vs 스피어만 상관계수
피어슨의 상관계수
스피어만 상관계수
변수 간의 선형관계의 크기를 측정하는 값으로
비선형적인 관계는 나타내지 못한다.
연속형 변수만 가능
. 국어 점수와 영어점수의 상관계수
변수 간의 비선형적인 관계도 나타낼 있음
연속형 외에 이산형 순서형도 가능
. 국어성적 석차와 영어성적 석차의 상관계수

  1. 결정계수
  • 회귀 분산분석에서, 제곱합( 변동, SST) = 회귀제곱합(설명된 변동, SSR) + 오차제곱합(설명안된 변동, SSE)
  • R2(결정계수) = 회귀제곱합(SSR) / 제곱합(SST)
  • 결정계수가 수록 회귀방정식과 상관계수의 설명력이 높아진다.

  1. 다차원 척도법(MDS, Multidimensional Scaling)
    1. 다차원 척도법이란?
    • 개체들 사이의 유사성/ 비유사성을 측정하여 2차원 또는 3차원 공간상에 표현하는 방법
    • 개체간의 근접성을 시각화하여 데이터 속에 잠재한 패턴이나 구조를 찾아내는 통계기법

    1. 특징
    • 차원의 수가 많을 수록 추정의 적합도가 높아지지만 해석이 어려워서 일반적으로 차원의 지각도를 작성
    • 유사성의 계산은 Euclidean 거리를 활용

  1. 주성분분석(PCA, Principal Component Analysis)
    1. 주성분분석이란?
    • 데이터에 많은 변수가 있을 변수의 수를 줄이는 차원 감소 기법중 하나.
    • 상관관계가 있는 변수들을 선형 결합하여 변수를 축약
    • , 변수들 간에 내재하는 상관관계 연관성을 이용하여 소수의 주성분으로 차원을 축소하는 분석기법

    1. 주성분분석 vs 요인분석
    • 자료의 축소라는 차원에서 같은 의미로 해석하기 쉬우나 다른 개념
    • 주성분분석 : 많은 데이터에 포함된 정보의 손실을 최소화해서 단순히 데이터를 축소하는 방법
    • 공통요인분석 : 자료의 축소라는 의미도 포함해 데이터에 내재적 속성까지 찾아내는 방법

댓글 없음:

댓글 쓰기

18회 ADsP 합격 후기

ADP도 아니고, 겨우 ADsP인데 무척 힘들게 공부했는데ㅜㅜ 결과적으로는 좋은 결과가 나와서 행복하네요! 꽤나 아슬아슬하게 합격해서 창피하긴합니다만ㅋ 합격하면 된거지 뭐 라고 생각하려구요! 언제가 될지는 모르겠습니다만, ADP도 ...