미림반점: 7월 2018

2018년 7월 29일 일요일

ADsP : 과목III. 데이터 분석 - 연관분석

1. 연관규칙
a. 연관규칙(Association rule)이란
- 항목들간의 조건-결과 식으로 표현되는 유용한 패턴
- 이러한 패턴을 발견해 내는 것을 연관분석(Association Analysis)이라고 하고, 흔히 장바구니 분석이라고 함.

b. 연관규칙의 측정 지표
- 아이템이 많아지면 어떤 연관규칙이 유의미한지 측정할 수 있는 평가지표가 필요
- 지지도(Support) : 전체 거래항목 중 상품 A와 상품 B를 동시에 포함하여 거래하는 비율
§ P(A ∩ B) : A와 B가 동시에 포함된 거래 수 / 전체 거래 수
- 신뢰도(Confidence) : 상품 A를 포함하는 거래 중 A와 B가 동시에 거래되는 비율
§ P(A ∩ B) / P(A) : A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수
- 향상도(Lift) : 상품 A가 주어지지 않았을 때 B의 확률 대비 A가 주어졌을 때 B의 확률 증가 비율
§ P(A ∩ B) / P(A) × P (B) = P(B | A) / P(B) : A와 B가 동시에 일어난 횟수 / A와 B가 독립사건일 때, A와 B가 동시에 일어날 확률
§ A와 B 사이에 아무런 상호관계가 없으면 향상도는 1
§ 향상도가 1보다 높을 수록 연관성이 높다.
§ 즉, 향상도가 1보다 크면 B를 구매할 확률보다 A를 구매한 후 B를 구매할 확률이 더 높다는 의미

c. Apriori 알고리즘 분석 절차
- 최소지지도를 설정
- 개별품목 중에서 최소 지지도를 넘는 모든 품목을 찾음
- 찾은 개별 품목만을 이용하여 최소 지지도를 넘는 두 가지 품목 집합을 찾음
- 찾은 품목 집합을 결합하여 최소 지지도를 넘는 세 가지 품목 집합을 찾음
- 반복적으로 수행하여 최소 지지도가 넘는 빈발품목을 찾음

d. 연관분석의 장점
- 조건반응으로 표현되는 연관분석의 결과를 이해하기 쉬움
- 강력한 비목적성 분석기법
- 사용이 편리한 데이터 분석
- 분석 계산이 간단

e. 연관분석의 단점
- 분석 품목의 수가 증가하면 분석 계산이 기하급수적으로 증가
- 너무 세부화된 품목으로 연관규칙을 찾으려면 의미 없는 결과가 도출
- 상대적으로 거래량이 적으면 규칙 발견 시 제외되기 쉬움

ADsP : 과목III. 데이터 분석 - 군집분석

1. 군집분석(cluster analysis)이란?
a. 각 개체에 관측된 여러 개의 변수값으로 부터 n개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화 하고,
b. 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하는 다변량분석 기법
c. 군집화의 방법
d.

2. 계층적 군집
a. 가장 유사한 개체를 묶어나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
b. 각 개체는 하나의 군집에만 속하게 된다.

c. 군집 연결방법에 따라 군집의 결과가 달라질 수 있다.

군집 방법	두 군집 사이의 거리
단일연결법 single linkage	한 군집의 점과 다른 군집의 점 사이의 가장 짧은 거리 사슬 모양으로 생길 수 있으며, 고립된 군집을 찾는데 중점을 둔 방법
완전연결법 complete linkage	한 군집의 점과 다른 군집의 점 사이의 가장 긴 거리 같은 군집에 속하는 관측치는 최대 거리보다 짧다. 군집들의 내부 응집성에 중점을 둔 방법
평균연결법 average linkage	모든 항목에 대한 거리 평균을 구하면서 군집화를 진행 계산량이 불필요하게 많을 수 있다.
중심연결법 centroid	두 군집의 중심 간의 거리를 측정 두 군집이 결합할 때 새로운 군집의 평균은 가중평균으로 계산
와드연결법 Ward linkage	군집 내의 오차제곱합에 기초하여 군집을 수행

d. 계층적 군집은 두 개체간의 거리에 기반하므로 거리 측정에 대한 정의가 필요하다.
- 수학적 거리

	특징
유클리드 거리 Euclidean distance	두 점 사이의 거리로, 가장 직관적이고 일반적인 거리 개념 단, 방향성이 고려되지 않은 단점이 있음
맨하튼 거리 Manhattan distance	두 점의 좌표간의 절대값 차이를 구하는 것 맨하튼의 격자 무늬 도로에서 유래됨
민코프스키 거리 Minkowski distance	가장 일반적으로 사용되는 Minkowski 거리의 차수는 1,2,무한대 q=2이면 유클리드 거리, q=1이면 맨하튼 거리

- 통계적 거리

	특징
표준화 거리	각 변수를 해당 변수의 표준편차로 척도 변환한 후 유클리드 거리를 계산한 거리 표준화를 하게되면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있음 통계적 거리라고도 한다.
마할라노비스 Mahalanobia distance	변수의 표준화와 함께 변수간의 상관성을 동시에 고려한 통계적 거리

e. 계층적 군집의 특징
- 매 단계에서 지역적 최적화를 수행하기 때문에 그 결과가 전역적인 해라고 볼 수 없음
- 병합적 방법에서는 한 번 군집이 형성되면 군집에 속한 개체는 다른 군집으로 이동 할 수 없음
- 중심연결법, 와드연결법 등에서는 군집의 크기에 가중을 두어 병합을 시도하므로 큰 군집과의 병합이 유도될 수 있음

3. 비계층적 군집
a. k-평균 군집(k-mean clustering)
- 원하는 수 만큼 초기값을 지정하고, 각 개체를 가까운 초기값에 할당하여 군집을 형성 한 후,
- 각 군집의 평균을 재계산하여 초기값을 갱신한다.
- 갱신된 값에 대해 위의 할당 과정을 반복하여 k개의 최종군집을 형성하는 방법

b. k-평균 군집의 과정
- 초기 군집 중심으로 k개의 객체를 임의로 선택
- 각 자료를 가장 가까운 군집 중심에 할당. 즉 자료의 군집의 중심으로부터 오차제곱합이 최소가 되도록 각 자료를 할당
- 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신
- 군집 중심의 변화가 없을 때까지 단계를 반복

c. k-평균 군집의 장점
- 알고리즘이 단순
- 빠르게 수행되어 계층적 군집보다 많은 양의 자료를 처리
- 분석을 위해서 기본적으로 관찰치 간의 거리 데이터 형태(연속형), 거의 모든 형태의 데이터에 적용이 가능
- 주어진 데이터 내부 구조에 대해 사전적 정보 없이 의미 있는 자료로 분석이 가능

d. k-평균 군집의 단점
- 잡음이나 이상값에 영향을 받기 쉬움
- 이를 위해 k-medoids(중앙값) 군집을 사용하거나 k-mean 분석 전에 이상값을 제거하는 것도 방법
- 계층적 군집과 달리 사전에 군집의 수를 정해줘야 함
- 초기 군집의 수가 적합하지 않으면 좋은 결과를 얻을 수 없음
- 따라서 Nbclust 패키지를 통해 군집의 수에 대한 정보를 참고해야함

4. 혼합분포 군집
a. 혼합분포 군집이란?
- 모형 기반의 군집방법
- 데이터가 k개의 모수적모형(정규분포 혹은 다변량 분포를 가정)의 가중합으로 표현되는 모집단 모형으로 부터 나왔다는 가정하에서,
- 모수와 함께 가중치를 자료로부터 추정하는 방법
- k개의 각 모형은 군집을 의미하여,
- 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분포가 이뤄짐

b. EM(Expectation Maximizaion) 알고리즘
- 혼합모형에서 모수와 가중치의 추정을 위해 사용되는 알고리즘
- 통계 모델의 수식을 정확히 풀 수 없을 때 최대가능도/최대우도(Maximun Likelihood Estimation)를 구하는데 사용된다.
- 미지의 분포 파라미터를 주어진 데이터를 가지고 예측하고 그 예측값을 다시 주어진 데이터를 기반으로 기대치를 최대화시키는
- 파라미터를 구하는 과정을 반복하면서 최적 파라미터(최대 우도추정치를 얻는 방법
- 초기 클러스터의 개수를 정해줘야 함
- k-fold cross validation으로 적절한 클러스터 개수를 찾을 수 있음

c. k-means vs 혼합분포군집
- 두 방법 모두 1개의 클러스터로 출발
- k-mean은 클러스터를 중심거리로, EM은 MSL로 거리측정
- 클러스터를 늘리면 이전보다 클러스터 중심에서 평균 거리는 짧아지고 EM은 우도가 커짐
- 혼합분포군집은 확률분포를 도임하여 군집을 수행하는 점이 다름
- EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴하는데 시간이 오래걸리고, 군집의 크기가 작으면 추정의 정도가 떨어짐
- k-mean 평균과 같이 이상값에 민감함

5. SOM(Self-Organizing Maps, 자기화 조직도)
a. SOM이란?
- 인공신경망의 한 종류로서 Kohonen Network에 근간을 두고 있음
- 차원축소와 군집화를 동시에 수행하는 기법
- 입력 벡터를 훈련집합에서 매치되도록 가중치를 조정하는 인공신경세포 격자에 기초한 비지도학습의 한 방법

b. SOM의 활용
- Find structures in data(구조 탐색) : 데이터의 특징을 파악하여 유사 데이터를 군집
- Dimension Reduction(차원 축소) & Visualization(시각화) : 차원을 축소하여 통상 2차원 그리드에 매핑하여 시각적으로 이해시킴

c. SOM의 과정
- SOM 맵의 노드에 대한 연결 강도로 초기화
- 입력 벡터와 경쟁층 노드간의 유클리드 거리를 계산하여 입력 벡터와 가장 짧은 노드를 선택
§ 경쟁층(competitive layer): 입력 벡터의 특성에 따라 입력 벡터가 한 점으로 클러스터링되는 층
- 선택된 노드와 이웃 노드의 가중치를 수정
- 단계를 반복하면서 연결 강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨
- 승자 독식 구조로 인해 경쟁층에서는 승자 뉴런만이 나타남
d. SOM의 장점
- 시각적으로 이해하기 쉬움
- 입력변수의 위치관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에 가깝게 표현
- 빠르게 수행됨
e. SOM vs 신경망 모형
- 신경망 모형은 연속적인 층으로 구성된 반면, SOM은 2차원의 그리드로 구성
- 신경망 모형은 에러 수정을 학습하는 반면, SOM은 경쟁 학습을 시킴
- 신경망 모형은 역전파 알고리즘이지만, SOM은 전방패스를 사용하여 속도가 매우 빠름
- SOM은 비지도학습

2018년 7월 28일 토요일

ADsP : 과목III. 데이터 분석 - 분류분석

1. 분류분석의 목적

a. 반응변수가 범주형인 경우, 새로운 자료에 대한 분류가 주목적

b. 반응변수가 연속형인 경우, 그 값을 예측하는 것이 주 목적

2. 로지스틱 회귀모형

a. 로지스틱 회귀모형이란?

- 반응변수가 범주형인 경우에 적용되는 회귀분석 모형

- 즉, 반응변수가 성공/ 실패 같이 두 가지 범주로 되어 있을 때 종속변수와 독립변수간의 관계식으로 두 집단을 분류할 수 있다.

b. 로지스틱 회귀모형이 선호되는 이유

- 독립변수에 대해 어떤 가정도 필요하지 않음

- 독릭변수가 연속형 및 이산형 모두 가능하기때문에 판별분석보다 선호됨

c. 오즈비 (Odds ratio)

- 변수가 성공 또는 실패로 구성된다면 Odds는 한 집단이 다른 집단에 비해 성공할 승산 비에 대한 측정량

- 오즈비 = 성공률/실패욜 = Pi/(1-Pi) 단, Pi는 성공률

§ 성공 가능성이 높은 경우는 1보다 크고

§ 실패 가능성이 높은 경우는 1보다 작다

d. 선형회귀분석 vs 로지스틱 회귀분석

- 최대우도추정법이란?

§ 관측값이 가정된 모집단에서 하나의 표본으로 추출된 가능성이 가장 크게 되도록 하는 회귀계수 추정방법

§ 표본의 수가 클 경우에 최대우도추정법은 안정적

	일반선형 회귀분석	로지스틱 회귀분석
종속변수	연속형 변수	이산형 변수
모형 탐색 방법	최소자승법	최대우도법, 가중최소자승법
모형 검정	F검정, t검정	카이제곱 검정

e. 로지스틱 회귀분석 함수 glm()

- glm(모형, data, family="binominal")

3. 신경망 모형

a. 인공신경망 모형(ANN, Artificial Neuron Network)

- 몇 개의 층을 만들고, 층 마다 뉴런을 넣는다. 각 뉴런들은 자신에게 들어온 신호에 가중치를 주고 다음 뉴런으로 전송하는 방식

- 신경망에 입력이 주어지면 은닉층(Hidden Layer)에 도달한다.

- 은닉층의 노드는 주어진 입력에 따라 활성화된다.

- 활성화된 은닉 노드는 출력값을 계산하고 그 결과를 출력층에(Output Layer) 전달한다.

- 이 출력값이 최종 예측결과가 된다.

b. 역전파알고리즘(back-propagation algorithm)

- 인공신경망을 학습시키기 위한 가장 기본적이고 일반적인 알고리즘

- 계산적 편의성이 큼

- 오차가 본래 진행 방향과 반대 방향으로 전파되어 붙여진 이름

c. 신경망 학습 과정

- 가중치(Weight)를 조절하는 작업이다.

- 입력값과 출력값이 있을 떄, 입력값을 입력층에 준 다음, 모델의 출력값이 원하는 값과 같은지 확인한다. 같이 않다면 가중치를 조정한다.

- 가중치를 계산하는 함수를 활성함수(activation function)라 한다.

§ 결과 범위를 제한

§ 계산의 편의성 제공

§ 시그모이드함수(미분에 용이), 부호함수, 소프트맥스 함수 등

d. 은닉층 및 은닉노드 수를 정할 때 고려할 사항

- 다층신경망은 단층신경망에 비해 훈련이 어려움

- 노드가 많을수록 복잡성을 잡아내기 쉽지만, 과적합의 가능성이 높아짐

- 은닉층 노드가 너무 적으면 복잡한 의사결정 경계를 만들기 어려움

- 시그모이드 활성함수를 가지는 2개 층의 네트워크는 임의의 의사결정 경계를 모형화할 수 있음

- 출력층의 노드수는 출력 범주의 수로 결정, 입력의 수는 입력 차원의 수로 결정

e. 신경망 모형의 장점

- 변수가 많거나 입력, 출력변수가 복잡한 비선형 관계에 유용

- 잡음에 대해서도 민감하게 반응하지 않음

- 입력변수와 결과변수가 연속형이나 이산형인 경우 모두 처리가능

f. 신경망 모형의 단점

- 결과에 대한 해석이 쉽지 않음

- 최적의 모형을 도출하는 것이 상대적으로 어려움

- 데이터를 정규화하지 않으면 지역해(local minimum)에 빠질 수 있음

- 모형이 복잡하면 훈련 과정에 시간이 많이 소비

4. 의사결정나무 모형

a. 의사결정나무란?

- 의사결정 규칙을 나무(tree) 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법

b. 의사결정나무의 구성요소

- 뿌리마디(root node): 시작되는 마디로 자료 전체를 포함

- 자식마디(child node): 하나의 마디로부터 분리되어 나간 2개 이상의 마디

- 부모마디(parent node): 주어진 마디의 상위 마디

- 최종마디(terminal node): 자식마디가 없는 마디

- 중간마디(internal node): 부모마디와 자식마디가 있는 마디

- 가지(branch): 뿌리마디로부터 최종마디까지 연결된 마디들

- 깊이(depth): 뿌리마디부터 최종마디까지 중간 마디들의 수

- 가지분할(split): 나무의 가지를 생성하는 과정

- 가지치기(pruning): 생성된 가지를 잘라내어 모형을 단순화하는 과정

c. 과대적합

- 과대적합(Over fitting) : training set이 정확한 결과를 보여주기 위해 복잡하게 모델을 만든것.

- 과소적합(Under fitting) : 모델이 너무 간단하여 정확도가 낮은 모델을 만든것

- 과대적합의 경우 training set에 대해서는 높은 정확도를 보여주지만, 새로운 데이터가 입력되면 잘못된 결과를 예측할 수 있다.

- 과소적합의 경우 모델은 간단하지만 training set에 대해서도 정확한 결과가 나오지 않을 수 있음

d. 의사결정나무 구분

- 분류나무(classification tree)

§ 분류기준방법 : 카이제곱통계량의 p값, 지니 지수, 엔트로피 지수

§ 카이제곱통계량의 p값이 작을 수록, 지니 지수와 엔트로피 지수가 클 수록 자식노드 내의 이질성이 큼.

§ 따라서 이 값이 작아지는 방향으로 가지분할을 수행

- 회귀나무(regression tree)

§ 분류기준방법 : F통계량의 p값, 분산의 감소량

§ F통계량의 값이 클 수록 오차변동에 비해 처리의 변동이 크다는 것을 의미하고, 자식노드간 이질성이 큼을 의미

§ 따라서 p값이 작아지는 방향으로 가지분할을 수행

§ 의사결정나무 알고리즘 분류 및 기준변수의 선택법

	이산형 목표변수	연속형 목표변수
CHAID	카이제곱통계량	ANOVA F통계량
CART	지니 지수	분산 감소량
C4.5	엔트로피 지수

e. 의사결정나무 장점

- 구조가 단순하여 해석이 용이함

- 유용한 입력변수의 파악과 예측변수 간의 상호작용 및 비선형성을 고려한 분석이 가능

- 선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 비모수적 모형

- 계산 비용이 낮아 대규모의 데이터셋에서도 비교적 빠른 연산이 가능

- 수치형/ 범주형 변수를 모두 사용 가능

f. 의사결정나무 단점

- 분류 기준값의 경계선 부군의 자료값에 대해서는 오차가 큼 (비연속성)

- 로지스틱회귀와 같이 각 예측변수의 효과를 파악하기 어려움

- 새로운 자료에 대한 예측이 불안정

5. 앙상블 모형

a. 앙상블 모형이란?

- 여러 개의 분류모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법

b. 배깅(bagging)

- bootstrap appregationg의 준말

- 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 윔의 복원추출하여,

- 각 표본(붓스트랩 표본)에 대해 분류기(classifiers)를 생성 후 그 결과를 앙상블하는 방법

- 반복추출을 하기 때문에 데이터가 한 표본에 여러 번 추출될 수도 있고, 어떤 데이터는 추출되지 않을 수 있다.

- train data를 모집단으로 생각하고 평균예측모델을 구하기 때문에 분산을 줄이고 예측력을 향상시킬 수 있다.

- 일반적으로 과적합 모델에 사용하면 좋다.

c. 부스팅(boosting)

- 배깅의 과정과 유사하나 붓스트랩 표본을 구성하는 표본추출 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라,

- 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출한다.

- 잘못된 데이터에 가중치를 주는 것 외에는 배깅과 동일하다.

- 가장 많이 사용되는 알고리즘은 Adaboostiong

d. 랜덤포리스트(random forest)

- 배깅에 랜덤 과정을 추가한 것이다.

- 각 노드마다 모든 예측변수 안에서 최적의 분할을 택하는 대신 예측 변수들을 임의로 추출하고,

- 추출된 변수 내에서 최적의 분할을 만들어가는 방법을 사용

- 랜덤포리스트는 두 가지 방법을 사용해 의사결정나무를 만든다.

§ 데이터의 일부를 복원추출로 꺼내고 해당 데이터에 대해서만 만드는 방식

§ 노드 내 데이터를 자식노드로 나누는 기준을 정할 때 전체 변수가 아니라 일부 변수만 대상으로 하여 가지를 나눌 기준을 찾는 방법

6. 서포트 벡터 머신(SVM, Support Vector Machine)

a. 서포트 벡터 머신이란?

- 서로 다른 분류에 속한 데이터 간의 간격이 최대가 되는 선을 찾아 이를 기준으로 데이터를 분류하는 모델

- 서로 유사한 그룹끼리 칸막이를 쳐서 나누는 것이다. 이 칸막이를 초평면(Hyperplane)이라고 부른다.

- 분류 및 수치 예측 등 거의 모든 학습 문제에 잘 대처할 수 있는데, 특히 패턴 인식 분야에 활용됨

- 패키지는 Kerlab, e1071이 있음

b. SVM의 장점

- 에러율이 낮음

- 결과를 해석하기 용이

c. SVM의 단점

- 튜닝 파라미터 및 커널 선택에 민감

- 이진분류(Binary Classification)에만 다룰 수 있음

7. 나이브 베이즈 분류모형(naïve Bayes classification)

a. 나이브 베이즈 분류 모형이란?

- 사후확률(일종의 조건부 결합확률)의 계산 시 조건부 독립을 가정하여 계산을 단순화한 방법으로,

- 사후확률이 큰 집단으로 새로운 데이터를 분류하게 된다.

- 베이즈정리에 기반한 방법

b. 나이브 베이즈 분류의 장점

- 지도학습 환경에서 매우 효율적으로 훈련가능

- 분류에 필요한 파라미터 추정을 위한 training data가 매우 적어도 사용 가능

- 분류가 multi-class에서 쉽고 빠르게 예측이 가능

c. 나이브 베이즈 분류의 단점

- training data에는 없고, test data에 있는 범주에서는 확률이 0으로 나타나 정상적인 예측이 불가능한 zero frequency가 됨

- 서로 확률적으로 독립이라는 가정이 위반되는 경우 오류 발생

8. 모형 평가

a. 모형 평가의 목적

- 가장 적합한 모형을 선택하기 위해 성과를 평가

- 모형의 평가를 위해 전체 자료에서 모형 구축을 위한 훈련용 데이터(training data)와 검증용 자료(test data)를 추출한다.

- 이는 주어진 데이터에서만 높은 성과를 보이는 과적합화 문제를 해결하기 위함

b. 홀드아웃(hold-out) 방법

- 주어진 원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정을 실시하는 방법

- 하나는 훈련용 자료로, 하나는 성과 평가를 위한 검증용 자료로 사용

- 전체 데이터의 70%는 훈련용 자료로 사용하고, 나머지를 검증용 자료로 사용

- 검증용 자료는 분류분석 모형에는 영향을 미치지 않고 성과 측정만을 위해 사용

c. 교차검증(Cross Validation)

- 주어진 데이터를 갖고 반복적으로 성과를 측정하여 그 결과를 평균한 것으로 분류분석 모형을 평가하는 방법

- k-fold 교차검증

§ 전체 데이터를 크기가 동일한 k개의 하부집합으로 나눈다.

§ k번째 하부집합을 검증용 자료로, 나머지 k-1개의 하부집합을 훈련용 자료로 사용

§ 이를 k번 반복 측정하고 각각의 반복 측정 결과를 평균 낸 값을 최종 평가로 사용

§ 일반적으로 10-fold 교차검증이 사용

d. 붓스트랩

- 평가를 반복한다는 점에서 교차검증과 유사하나 훈련용 자료를 반복 재선정한다는 차이점이 있음.

- 즉 관측치를 한 번 이상 훈련용 자료로 사용하는 복원추출법에 기반.

- 전체 데이터의 양이 크지 않은 경우의 모형평가에 가장 적합

- 오분류표(confusion matrix)

§ TP : 실제값과 예측치 모두 True인 빈도

§ TN : 실제값과 예측치 모두 False인 빈도

§ FP : 실제값은 False 이나 True로 예측한 빈도

§ FN : 실제값은 True 이나 False로 예측한 빈도

- 오분류표를 활용한 평가 지표

매트릭	계산식	의미
Precision 정확도	TP / (TP + FP)	Y로 예측된 것 중 실제로도 Y인 비율
Accuracy 정분류율	TP + TN / (TP + FP + FN + TN)	전체 예측에서 옳은 예측의 비율
Recall(Sensitivity) 재현율(민감도)	TP/ (TP + FN)	실제로 Y인 것들 중 예측이 Y로 된 경우의 비율
Specificity 특이도	TN / (FP + TN)	실제로 N인 것들 중 예측이 N으로 된 경우의 비율
FP Rate	FP / (FP + TN)	Y가 아닌데 Y로 예측된 비율 = 1 - Specificity
F1	2 × Precision × Recall / (Precision + Recall)	Precision과 Recall의 조화평균. 시스템의 성능을 하나의 수치로 표현하는 점수 0 ~ 1 사이의 값을 가짐
Kappa	Accuracy - P(e) / (1 - P(e))	두 평가자의 평가가 얼마나 일치하는지 평가하는 값 0 ~ 1 사이의 값을 가짐

- ROC 그래프(Receiver Operating Characteristic)

§ x축에는 FP Ratio(1-특이도), y축에는 민감도를 나타냄

§ 그래프의 아래 부분 면적이 넓을 수록 좋은 모형

e. 이익도표와 향상도

- 이익(gain)은 목표 범주에 속하는 개체들이 각 등급에 얼마나 분포하고 있는지를 나타내는 값.

- 해당 등급에 따라 계산된 이익값을 누적으로 연결한 도표가 이익도표

- 즉, 분류분석 모형을 사용하여 분류된 관측치가 각 등급별로 얼마나 포함되는지를 나타내는 도표

- 향상도 곡선(lift curve)는 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상 되었는지를 각 등급별로 파악하는 그래프

§ 상위 등급에서 향상도가 매우 크고

§ 하위 등급으로 갈 수록 향상도가 감소

§ 일반적으로 이러한 모형을 예측력이 적절함을 의미하지만, 등급에 관계없이 향상도 차이가 없으면 모형의 예측력이 좋지 않음을 의미

2018년 7월 29일 일요일

ADsP : 과목III. 데이터 분석 - 연관분석

ADsP : 과목III. 데이터 분석 - 군집분석

2018년 7월 28일 토요일

ADsP : 과목III. 데이터 분석 - 분류분석

18회 ADsP 합격 후기