2018년 9월 22일 토요일

18회 ADsP 합격 후기

ADP도 아니고, 겨우 ADsP인데
무척 힘들게 공부했는데ㅜㅜ 결과적으로는 좋은 결과가 나와서 행복하네요!



꽤나 아슬아슬하게 합격해서 창피하긴합니다만ㅋ
합격하면 된거지 뭐 라고 생각하려구요!

언제가 될지는 모르겠습니다만,
ADP도 천천히 준비해서 자격증을 따고싶네요!

자격증을 위한 공부를 해야하는 점이나,
이해하려고 몇번을 읽어도 이해하지 못하는 내용이 너무너무 많아서!!
짜증나고 넘나 노잼이긴 했는데...

그래도 저같은 비전공자 & 통계관련 업무를 전문적으로 하지 않는 사람에게는
목표로 삼기 좋은 자격증이라고 생각이 됩니다.

무리하진 않고.. 천천히 준비해서 ADP도 도전해보려구요!
ADP는 실기시험도 있어서 이번처럼 이해도 안되는걸 외우는 걸로는 힘들것 같아서.
훨씬 어려울것 같지만, ADsP처럼 포기하지않고 계속 공부하면 될거같아요 :)

2018년 8월 27일 월요일

ADsP : 과목I. 데이터의 이해 - 가치창조를 위한 데이터

1. 빅데이터 분석과 전략 인사이트
a. 빅데이터 열풍과 회의론
i. 처음에는 여기저기 도입만 하면 모든 문제가 해결될 것 처럼 강조
ii. 나중에는 분위기에 합류하지 못하면 위험에 처할지도 모른다는 공포 분위기가 조성
iii. 거액을 투자하여 하드웨어와 솔루션을 도입하지만, 어떻게 활용하거 어떻게 가치를 만들지 모르는 상황
iv. 현재 소개되는 많은 빅데이터 성공사례가 실은 기존 분석 프로젝트를 포장한 것이 태반
v. 성과 내기에 급급해 기존 분석을 빅데이터 분석으로 포장하고 있음
b. 싸이월드가 페이스북이 되지 못한 이유
i. 구글이나 링크드인 같은 기업은 대부분 데이터 분석과 함께 시작되고 분석이 내부 의사결정에 결정적 정보를 제공
ii. 싸이월드는 직관에 근거해 의사결정을 내름
iii. 즉, 데이터 분석이 기초해 전략적 통찰을 얻고, 효과적인 의사결정을 내리고, 구체적인 성과를 만드는 체계가 없었기 때문
c. 빅데이터 분석의 Big은 핵심이 아니다
i. 많은 데이터가 더 많은 가치로 바로 연결될 수는 없음
ii. 데이터의 양이 아니라 유형의 다양성과 관계가 있음
d. 전략적 통찰이 없는 분석의 함정
i. 빅데이터는 고사하고 스몰데이터도 제대로 활용하지 못하는 경우가 더 많다.
ii. 분석이 본질을 제대로 바라보지 못하면 아무짝에 쓸모도 없는 분석결과만 나올 뿐
e. 일차적인 분석 vs 전략 도출을 위한 가치 기반 분석
i. 일차원적인 분석을 통해서도 상당한 효과를 얻을 수 있다.
ii. 이러한 일차원적인 분석 경험을 증가시키고 분석의 활용범위를 더 넓고 전략적으로 변화시켜야 함
iii. 전략적 인사이트를 주는 가치 기반 분석을 위해서는 사업과 이에 영향을 미치는 트렌드에 대한 큰 그림을 그려야 함
f. 분석 기반 경영이 되지 않는 이유
i. 기존 관행을 따를 뿐 중요한 시도를 하지 않음
ii. 경영진의 의사결정은 정확성이나 공정한 분석을 필요로 하지 않음. 오히려 직관적 결정을 귀한 재능으로 칭송
iii. 분석적 실험을 갈망하거나 능숙하게 하는 사람이 거의 없고, 적절한 방법조차 익히지 못한 사람이 분석업무를 함
iv. 아이디어 자체보다 아이디어를 낸 사람이 누구인지 관심을 둠

2. 전략 인사이트 도출을 위한 역량
a. 데이터 사이언스의 구성 요소
i. 분석
ii. IT
iii. 비즈니스 분석
b. 데이터 사이언티스트의 역량
i. Hard Skill
1) 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득
2) 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
ii. Soft Skill
1) 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
2) 설득력 있는 전달 : 스토리텔링, 시각화
3) 다분야 간 협력 : 커뮤니케이션
c. 데이터 사이언스 : 과학과 인문의 교차로
i. 단순 세계화에서 복잡한 세계화로 변화. 다양성과 각 사회의 정체성과 그 맥락, 관계, 연결성, 창조성 등이 키워드로 대두
ii. 비즈니스의 중심이 제품 생산에서 서비스로 이동. 제품이 고장나도 얼마나 뛰어난 고객 서비스를 제공하는 지가 더 중요
iii. 경제와 산업의 논리가 생산에서 시장 창조로 변경.

ADsP : 과목I. 데이터의 이해 - 데이터의 가치

1. 빅데이터의 이해
a. 빅데이터의 정의
i. 데이터의 크기 관점
1) 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
ii. 데이터의 분석 관점
1) 다양한 종류의 데이터로부터 저렴한 비용으로 가치를 추출하고
2) 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
iii. 데이터의 가치 관점
1) 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없던 새로운 통찰이나 가치를 추출하는 일
2) 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일
iv. 가트너 그룹 더그래니가 언급한 정의
1) Volume : 데이터의 크기, 생성되는 모든 데이터를 수집
2) Variety :  데이터의 다양성, 정형화된 데이터를 넘어 텍스트, 오디오 등 모든 유형의 데이터를 분석 대상으로 함
3) Velocity : 데이터의 속도, 사용자가 원하는 시간내에 분석 결과를 제공하는 것과 데이터의 업데이트 속도가 매우 빨라지는 것 의미

b. 출현배경
i. 산업계 : 고객 데이터를 축적하여 데이터에 숨은 가치를 새로운 성장동력으로 만드는 기술 확보가 관건이 됨
ii. 학계 : 거대 데이터 활용 과학이 확산됨
iii. 관련 기술 발전 : 디지털화, 저장기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅

c. 빅데이터의 기능
i. 산업혁명의 석탄, 철
1) 산업혁명에서 석탄은 증기기관을 작동시키는 열 에너지를 제공
2) 철은 공장 건축부터 철로를 포함하여 각종 인프라에 없어서는 안될 재료
3) 빅데이터 역시 지금의 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 기대
ii. 원유
1) 우리가 살고 있는 사회저변을 떠받치는 에너지원은 원유
2) 빅데이터 역시 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 '정보'를 제공하여 산업 전반의 생산성을 향상 시킬것
iii. 렌즈
1) 현미경의 발달로 각종 식물과 동물의 세포에서 일어나는 수많은 매키니즘을 밝혀냄
2) 구글의 Ngram Viewer
iv. 플랫폼
1) 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할 것으로 예상

d. 빅데이터가 만들어낸 변화
i. 사전처리에서 사후처리로
1) 사전처리의 대표적인 예는 표준화된 문서 포맷
2) 사전에 정한 포맷으로 원하는 정보만 수집하고 특수한 상황을 반영하는 정보의 수집을 포기하여 정보관리 비용을 줄여왔음
3) 빅데이터 시대에는 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾음
ii. 표본조사에서 전수조사로
1) 데이터 수집 비용은 큰 문제가 되지 않고, 클라우드 컴퓨팅 기술의 발전에 의해 데이터 처리 비용이 급격히 감소함
2) 전수조사의 장점은 표본이 주지 못하는 패턴이나 정보를 제공한다는 장점이 있음
iii. 질보다 양으로
1) 데이터 수가 증가함에 따라 사소한 몇 개의 오류 데이터가 대세에 영향을 주지 못하는 경향이 늘어나기 때문
2) 구글의 자동번역 시스템 구축 과정에서 확인 가능
iv. 인과관계에서 상관관계로
1) 기존의 과학발견은 이론에 기초하여 수집할 변인을 결정하고 엄격한 실험을 통해 정제된 데이터를 얻어서 이를 분석 하였음
2) 위의 접근법은 데이터를 얻는데 비용이 비싸던 시대의 모델
3) 비즈니스 상황에서는 인과관계를 모르고 상관관계 분석만으로 충분한 경우가 많음

2. 빅데이터의 가치와 영향
a. 빅데이터의 가치
i. 빅데이터의 가치 산정이 어려운 이유
1) 데이터의 활용방식 : 특정 데이터를 언제, 어디서, 누가 활용하는지 알기 어려움
2) 새로운 가치 창출 : 기존에 없던 가치를 창출하여 그 가치를 측정하기 어려움
3) 분석기술의 발달 : 지금은 가치없는 데이터가 새로운 분석기법의 도입으로 큰 가치를 만드는 재료가 될 가능성이 있음

b. 빅데이터의 영향
i. 기업 : 혁신, 경쟁력 제고, 생산성 확산
ii. 정부 : 환경탐색, 상황분석, 미래대응
iii. 개인 : 목적에 따라 활용
iv. 생활 전반의 스마트화

3. 비즈니스 모델
a. 빅데이터 활용 사례
i. 구글의 검색엔진, 월마트의 구매패턴분석, IBM 왓슨 의료 분야에 활용
ii. 정부의 실시간 교통정보 활용, CCTV 국가안전에 활용
iii. 정치인의 사회관계망분석을 통한 유세, 가수의 팬 음악청취 기록 분석 활용 등
iv. 아마존 킨들에 쌓이는 전자책 읽기 관련 데이터 분석해 저자들에게 제공

b. 빅데이터 활용 테크닉
i. 연관규칙학습(Association rule learning)
1) 어떤 변수간에 주목할만한 상관관계가 있는지 찾아내는 방법
2) 슈퍼마켓에서 상관관계가 높은 상품을 함께 진열
ii. 유형분석(Classfication tree analysis)
1) 새로운 사건이 속하게 될 통계적 범주를 찾아내는 일
2) 기존 자료를 바탕으로 만들어진 훈련용 분류 틀이 미리 갖춰져 있어야 함
3) 사용자가 어떤 특성을 가진 집단에 속하는가?
4) 온라인 수강생들을 특성에 따라 분류
iii. 유전 알고리즘(Genetic algorithm)
1) 최적화가 필요한 문제의 해결법을 자연선택, 돌연변이 등과 같은 매커니즘으로 점진적으로 진화시켜나가는 방법
2) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
3) 연료 효율적인 차를 개발하기 위해 어떻게 원자재와 엔지니어링을 결합해야 하는가?
4) 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가
iv. 기계학습(Machine learning)
1) 훈련 데이터에서 학습한 알려진 특성을 활용해 예측하는 일
2) 기존 시청 기록을 바탕으로 시청자가 현재 보유한 영화중 어떤 것을 가장 보고싶어 할 것인지에 대한 문제를 해결
3) 넷플릭스의 영화추천 시스템
v. 회귀분석(Regression Analysis)
1) 독립변수를 조작하여 종속변수가 어떻게 변하는지 보며 두 변인의 관계를 파악
2) 구매자의 나이가 구매차량의 타입에 어떤 영향을 미치는가?
3) 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
4) 이웃들과 그 규모가 집값에 어떤 영향을 미치는가?
vi. 감정분석(Sentiment Analysis)
1) 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
2) 새로운 환불 정책에 대한 고객의 평가는 어떤가?
3) 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아내는 것
vii. 소셜 네트워크 분석(Social network analysis) = 사회 관계망 분석(SNA)
1) 특정인과 다른 사람이 몇촌(degrees of separation) 정도의 관계인지 파악
2) 영향력이 있는 사람을 찾아낼 수 있으며 고객들 간 소셜 관계를 파악

4. 위기 요인과 통제 방안
a. 사생활 침해
i. 정보 수집 센서들의 수가 점점 늘어나고 있고,
ii. 특정 데이터가 본래 목적 외에 가공 처리되어 2,3차적 목적으로 활용될 가능성이 높아짐
iii. 해결안 - 동의에서 책임으로
1) 개인정보의 활용에 대해 개인이 매번 동의하는 것은 경제적으로 매우 비효율적
2) 개인정보 제공자의 동의를 통해 구하기보다 개인정보 사용자에게 책임을 지워서,
3) 개인정보 사용 주체가 보다 적극적인 보호장치를 강구하게 될것

b. 책임원칙 훼손
i. 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼,
ii. 분석 대상이 되는 사람들은 예측 알고리즘의 희생이 될 가능성이 증가
iii. 잠재적인 위험사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성이 높아 민주주의 사회 원칙을 훼손할 수 있음
iv. 해결안 - 결과 기반 책임 원칙 강화
1) 특정인일 성향에 따라 처벌하는 것이 아니라, 결과를 보고 처벌하는 것을 고수

c. 데이터의 오용
i. 일어난 일에 대한 데이터에 의존하기 때문에 항상 맞을 수는 없음(데이터를 과신)
ii. 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접적 손실을 부를 수 있음(잘못된 지표를 사용)
iii. 해결안 - 데이터 알고리즘에 대한 접근권 혀용

5. 미래의 빅데이터
a. 빅데이터 활용 3요소 - 데이터, 기술, 인력

b. 데이터
i. 모든 것을 데이터화하는 추세를 피할 수 없을 것
ii. 특정한 목적없이 생선된 데이터라고해도 창의적으로 재활용되면서 가치를 만들기 때문

c. 기술
i. 빅데이터 분석 알고리즘의 진화가 계속될 것
ii. 알고리즘은 데이터 양의 증가에 따라 정확도가 증가하는 일반적인 경향.
iii. 즉, 알고리즘을 학습시킬 수 있는 데이터의 양이 증가하면 알고리즘도 스마트해 질 것

d. 인력
i. 데이터사이언티스트와 알고리즈미스트의 역할이 중요해질 것
ii. 데이터사이언티스트는 빅데이터의 다각적 분석을 통해 인사이트를 도출, 이를 조직 전략 방향 제시에 활용 할 것

2018년 8월 4일 토요일

ADsP : 과목I. 데이터의 이해 - 데이터의 이해

1. 데이터와 정보
a. 데이터의 정의
i. 존재적 특성
1) 데이터는 '객관적 사실(fact)'
2) 데이터는 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실
ii. 당위적 특성
1) '추론, 예측, 전망, 추정을 위한 근거(basis)'로 기능
2) 다른 객체와 상호 관계에서 가치를 가짐
b. 데이터의 유형
구분
형태
특징
예시
정성적 데이터
qualitative data
언어, 문자, 선호도, 만족도
자료의 성질, 특징을 풀어쓰는 방식
비정형 데이터
요약, 주관적 결론
회사 매출액이 증가함
특성을 측정하지는 않지만 특성을 설명
정량적 데이터
quantitative data
수치, 도형, 기호
자료를 수치화 하는 방식
정형 데이터
통계분석, 객관적 결론
나이, 몸무게, 주가
c. 지식경영 핵심 이슈
i. 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용 역할
1) 암묵지
a) 학슴과 체험을 통해 개인에게 습득되지만 겉으로는 드러나지 않는 상태의 지식
b) 관찰, 모방, 현장 작업과 같은 경험을 통해 획득하는 지식
2) 형식지
a) 암묵지가 문서나 매뉴얼처럼 외부로 표출되어, 여러 사람이 공유할 수 있는 지식
b) 책, 설계도, 등 체계화된 재료 등을 통해 획득하는 지식
ii. SECI 모델 (Socialization - Externalization - Combination - Internalization Model)
1) 공동화 : 경험을 공유를 통해 새로운 암묵지 창조
2) 표출화 : 암묵지에서 구체적인 개념을 도출하여, 암묵지를 형식지로 표출
3) 연결화 : 표출된 형식지의 완성도를 높여 지식체계로 전환
4) 내면화 : 표준화와 연결화로 공유된 정신 모델이나 기술적 노하우가 개인의 암묵지로 내면화
5) 위의 4가지 과정 (공동화, 표출화, 연결화, 내면화)이 순환하면서 창조됨
d. 데이터와 정보의 관계
i. DIKW 피라미드(Data, Information, Knowledge, Wisdom)에서는 데이터가 지혜로 바뀌는 과정을 계층구조로 설명
ii. Data
1) 존재 형식을 불문하고, 타 데이터와 상관관계가 없는 가공하기 전의 순수한 수치나 기호
2) A마트는 100원, B마트는 200원에 연필을 판매
iii. Information
1) 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 의미를 부여
2) A마트의 연필이 더 저렴
iv. Knowledge 
1) 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물.
2) 상대적으로 저렴한 A마트에서 연필을 사야겠다.
v. Wisdom
1) 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어
2) A마트의 다른 물품들도 B마트보다 저렴할 것이라 추측
2. 데이터베이스의 정의와 특징
a. 용어의 연혁
연도
주요 내용
1950년대
미국 정부가 세계에 산재한 자국 군대의 군비 상황을 집중 관리하기 위해 컴퓨터 기술로 구현한 도서관 설립에서 비롯.
이때 수집된 자료를 일컫는 데이터(data) 기지(base)라는 뜻으로 데이터베이스가 탄생
1960년대
미국 SDC 개최한 심포지엄에서 데이터베이스라는 용어가 공식적으로 사용
시스템을 통한 체계적 관리와 저장 등의 의미를 담은 '데이터베이스 시스템'이라는 용어가 등장
1970년대
유럽에서 데이터베이스라는 단어가 일반화됨
CAC 한국과학기술정보센터를 통해 서비스되면서 우리나라에 데이터베이스 이용이 도입됨
1980년대
TECHNOLINE이라는 온라인 정보검색 서비스를 개시하여 본격적인 데이터베이스 서비스 시대를 맞이함
국내의 데이터베이스 관련 기술의 연구 개발은 1980년대 중반부터 시작되어 오늘에 이르고 있음
b. 데이터베이스의 정의
i. 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응하여 데이터를 받아들이고 저장, 공급하기 위해 일정한 구조에 따라 편성된 데이터의 집합
ii. 관련된 레코드의 집합
iii. 소프트웨어적 의미로는 데이터베이스 관리시스템(DBMS)를 의미
iv. 일반적으로 데이터베이스와 DBMS를 함께 데이터베이스 시스템이라고 함
1) DBMS는 이용자가 쉽게 데이터베이스를 구축하고 유지할 수 있도록 하는 소프트웨어로서 데이터베이스와 구분됨
c. 데이터베이스의 특징
i. 통합된 데이터(intergrated data)
1) 데이터베이스에서 동일한 내용의 데이터가 중복되지 않는다는 의미
ii. 저장된 데이터(stored data)
1) 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장매체에 저장되는 것을 의미
iii. 공용 데이터(shared data)
1) 여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동 이용한다는 것을 의미
iv. 변화되는 데이터
1) 새로운 데이터의 추가, 기존 데이터의 삭제, 갱심으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 한다는 것을 의미
d. 데이터베이스의 특성
i. 정보의 축척 및 전달 측면
1) 대량의 정보를 정보처리 기기가 읽고 쓸 수 있는 기계가독성
2) 필요한 정보를 검색할 수 있는 검색가능성
3) 정보통신망을 이용하여 원거리에서도 온라인으로 이용할 수 있는 원격 조작성
ii. 정보이용 측면
1) 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득
2) 원하는 정보를 경제적으로 찾을 수 있음
iii. 정보관리 측면
1) 방대한 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이
iv. 정보기술발전 측면
1) 데이터베이스는 정보처리, 검색, 관리 소프트웨어 등 네트워크 발전 기술을 견인 할 수 있음
v. 경제 및 산업적 측면
1) 인프라로서 특성을 갖고 있어서 경제, 산업, 사회활동의 효율성을 재고하여 국민의 편의를 증진하는 수단의 의미
3. 데이터베이스의 활용
a. 기업 내부 데이터베이스
구분
주요 솔루션
1980년대 기업 내부
데이터베이스
OLTP(On-line Transaction Processing) 온라인 거래처리 : 컴퓨터와 통신회선으로 접속된 복수의 사용자 단말에서 발생한 트랜잭선을
컴퓨터에서 처리하여 결과를 즉석에서 사용자에게 되돌려주는 처리 형태. 여러 과정이 하나의 단위 프로세스로 실행되도록 하는 프로세스.
OLAP(On-line Analytical Processing) 온라인 분석처리 : 다차원으로 이뤄진 데이터로부터 통계적인 요약정보를 제공하는 기술
2000년대 기업 내부
데이터베이스
CRM(Customer Relationship Management) : 선별된 고객으로부터 수익을 창출하고 장기적인 고객관계를 가능케함으로써 보다 높은 이익을 창출할 있는 솔루션
SCM(Supply Chain Management) :  제조, 물류, 유통업체 유통공급망에 참여하는 모든 회사들이 협력을 바탕으로 정보기술을 활용, 재고를 최적화하기 위한 솔루션
i. OLTP 와 OLAP의 차이점
1) OLTP의 목적 중 하나는 기본적인 비즈니스 작업을 제어 및 실행하는 것
2) OLAP의 목적은 의사결정 지원, 계획 및 문제 해결을 돕는 것
3) OLTP의 데이터는 진행 중인 비즈니스 프로세스를 나타나고, OLAP은 모든 유형의 비즈니스 활동을 다차원적으로 나타냄
b. 분야별 기업 내부 데이터베이스
분야
주요 솔루션
제조부문
DW(Data warehouse) : 정보 검색을 목적으로 구축된 데이터베이스. 데이터웨어하우스가 전사적 규모의 시스템이라면 데이터 마트는 사업부 단위의
소규모 데이터웨어하우스
ERP(Enterprise Resource Planning) : 제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매, 재고, 주문, 공급자와의 거래, 고객 서비스 제공
주요 프로세스 관리를 돕는 여러 모듈로 구성된 애플리케이션 소프트웨어 패키지
BI(Business Intelligence) : 기업의 데이터웨어하우스에 저장된 데이터에 접근해 경영 의사결정에 필요한 정보를 획득하고 이를 경영활동에 활용
하는
CRM(Customer Relationship Management) : 선별된 고객으로부터 수익을 창출하고 장기적인 고객관계를 가능케 함으로써 보다 높은 이익을 창출
있는 솔루션
금융부문
EAI(Enterprise Architecture Integration) : 기업 애플리케이션 통합을 의미함. 기업 내의 ERP, CRM, SCM 시스템이나 인트라넷 등의 시스템 간에 상호
연동이 가능하게 하는 솔루션
EDW(Enterprise Data Warehouse) : 기존 DW 전사적으로 확장한 모델인 동시에 BPR CRM, BSC 같은 다양한 분석 애플리케이션을 위한 원천
, EDW 구축하는 것은 단순히 정보를 빠르게 전달하는 대형 시스템을 도입하는 것이 아닌, 기업 리소스의 유기적 통합, 다원화된 관리 체계
정비, 데이터의 중복 방지 등을 위해 시스템을 재설계하는
블록체인(Bloackchain) : 데이터 분산처리기술, 네트워크에 참여하는 모든 사용자가 모든 거래내역 등의 데이터를 분선, 저장하는 기술
블록들을 체인형태로 묶는 형태이기 때문에 블록체인이라는 명칭이 생겨남. 기존 거래 방식에서 데이터를 위변조 하기 위해서는 은행의 중앙서버를
공격하면 가능했으나 블록체인인 경우 사실상 해킹이 불가능
유통부문
KMS(Knowledge Management System) : 지식관리시스템의 약자. 조직내의 지식을 체계적으로 관리하는 시스템을 의미
이전에는 대부분 기업이 물품을 관리하던 환경이었으나 지적 재산이 매우 중요해짐에 따라 기업을 관리하는 시스템이 등장
RFID(Radio Frequency Identification) : 무선주파수를 이용하여 대상을 식별할 있는 기술. 안테나와 칩으로 구성된 RF 태그에 사용 목적에 알맞은
정보를 저장하여 적용 대상에 부착한 판독기에 해당하는 RFID 리더를 통해 정보를 인식
i. DW의 4대 특성
1) 데이터 주제 지향성
2) 데이터 통합
3) 데이터의 시계열성
4) 데이터의 비휘발성
c. 사회 기반 구조로서의 데이터베이스
i. EDI(Electronic Data Intercharge) 
1) 표준화된 상거래 서식 또는 공공 서식을 서로 합의한 표준에 따라,
2) 전자문서를 만들어 컴퓨터 및 통신을 매개로 상호 교환하는 것
ii. CALS(Commerce At Lighted Speed) 
1) 각종 기술 자료를 디지털화하여 관련 데이터를 통합 운영하는 업무 환경
iii. BI(Business Intelligence) vs BA(Business Analytics)의 차이점
구분
BI
BA
목적
과거의 성과를 측정
향후 비즈니스를 계획
데이터와 통계를 기반으로 성과에 대한 이해
비즈니스 통찰력에 초점
응용
데이터 기반의 의사결정
사전에 예측하고 최적화하기 위함
BI보다 진보된 형태
d. 분야별 사회기반 구조로서의 데이터베이스
분야
주요 솔루션
물류부문
종합물류정보망 : 실시간 차량추적. 전자지도상에서 운행 중인 차량의 위치 상태를 실시간으로 파악하여
운송회사 화주 서비스 가입자의 합리적인 의사결정을 지원하는 시스템
부가가치통신망(VAN, Value Added Network) : 통신회선을 소유 또는 임차하여 구성한 네트워크에
단순한 전송 기능 이상의 부가가치를 첨가하여 정보를 축척, 가공, 변환 처리하여 음성 또는 데이터 정보를
제공해주는 광범위하고도 복합적인 통신서비스의 집합
지리부문
국가지리정보체계(NGIS), RS, GPS
교통부문
지능형교통시스템(ITS)
의료부문
의료 EDI
교육부분
교육행정정보시스템(NEIS)

2018년 7월 29일 일요일

ADsP : 과목III. 데이터 분석 - 연관분석

1. 연관규칙
a. 연관규칙(Association rule)이란
- 항목들간의 조건-결과 식으로 표현되는 유용한 패턴
- 이러한 패턴을 발견해 내는 것을 연관분석(Association Analysis)이라고 하고, 흔히 장바구니 분석이라고 함.

b. 연관규칙의 측정 지표
- 아이템이 많아지면 어떤 연관규칙이 유의미한지 측정할 수 있는 평가지표가 필요
- 지지도(Support) : 전체 거래항목 중 상품 A와 상품 B를 동시에 포함하여 거래하는 비율
§ P(A ∩ B) : A와 B가 동시에 포함된 거래 수 / 전체 거래 수
- 신뢰도(Confidence) : 상품 A를 포함하는 거래 중 A와 B가 동시에 거래되는 비율
§ P(A ∩ B) / P(A) : A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수
- 향상도(Lift) : 상품 A가 주어지지 않았을 때 B의 확률 대비 A가 주어졌을 때 B의 확률 증가 비율
§ P(A ∩ B) / P(A) × P (B)  = P(B | A) / P(B) : A와 B가 동시에 일어난 횟수 / A와 B가 독립사건일 때, A와 B가 동시에 일어날 확률
§ A와 B 사이에 아무런 상호관계가 없으면 향상도는 1
§ 향상도가 1보다 높을 수록 연관성이 높다.
§ 즉, 향상도가 1보다 크면 B를 구매할 확률보다 A를 구매한 후 B를 구매할 확률이 더 높다는 의미

c. Apriori 알고리즘 분석 절차
- 최소지지도를 설정
- 개별품목 중에서 최소 지지도를 넘는 모든 품목을 찾음
- 찾은 개별 품목만을 이용하여 최소 지지도를 넘는 두 가지 품목 집합을 찾음
- 찾은 품목 집합을 결합하여 최소 지지도를 넘는 세 가지 품목 집합을 찾음
- 반복적으로 수행하여 최소 지지도가 넘는 빈발품목을 찾음

d. 연관분석의 장점
- 조건반응으로 표현되는 연관분석의 결과를 이해하기 쉬움
- 강력한 비목적성 분석기법
- 사용이 편리한 데이터 분석
- 분석 계산이 간단

e. 연관분석의 단점
- 분석 품목의 수가 증가하면 분석 계산이 기하급수적으로 증가
- 너무 세부화된 품목으로 연관규칙을 찾으려면 의미 없는 결과가 도출
- 상대적으로 거래량이 적으면 규칙 발견 시 제외되기 쉬움

ADsP : 과목III. 데이터 분석 - 군집분석

1. 군집분석(cluster analysis)이란?
a. 각 개체에 관측된 여러 개의 변수값으로 부터 n개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화 하고,
b. 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하는 다변량분석 기법
c. 군집화의 방법
d.

2. 계층적 군집
a. 가장 유사한 개체를 묶어나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
b. 각 개체는 하나의 군집에만 속하게 된다.

 c. 군집 연결방법에 따라 군집의 결과가 달라질 수 있다.

군집 방법
군집 사이의 거리
단일연결법
single linkage
군집의 점과 다른 군집의 사이의 가장 짧은 거리
사슬 모양으로 생길 있으며, 고립된 군집을 찾는데 중점을 방법
완전연결법
complete linkage
군집의 점과 다른 군집의 사이의 가장 거리
같은 군집에 속하는 관측치는 최대 거리보다 짧다.
군집들의 내부 응집성에 중점을 방법
평균연결법
average linkage
모든 항목에 대한 거리 평균을 구하면서 군집화를 진행
계산량이 불필요하게 많을 있다.
중심연결법
centroid
군집의 중심 간의 거리를 측정
군집이 결합할 새로운 군집의 평균은 가중평균으로 계산
와드연결법
Ward linkage
군집 내의 오차제곱합에 기초하여 군집을 수행

 d. 계층적 군집은 두 개체간의 거리에 기반하므로 거리 측정에 대한 정의가 필요하다.
- 수학적 거리


특징
유클리드 거리
Euclidean distance
사이의 거리로, 가장 직관적이고 일반적인 거리 개념
, 방향성이 고려되지 않은 단점이 있음
맨하튼 거리
Manhattan distance
점의 좌표간의 절대값 차이를 구하는
맨하튼의 격자 무늬 도로에서 유래됨
민코프스키 거리
Minkowski distance
가장 일반적으로 사용되는 Minkowski 거리의 차수는 1,2,무한대
q=2이면 유클리드 거리, q=1이면 맨하튼 거리
- 통계적 거리


특징
표준화 거리
변수를 해당 변수의 표준편차로 척도 변환한 유클리드 거리를 계산한 거리
표준화를 하게되면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 있음
통계적 거리라고도 한다.
마할라노비스
Mahalanobia distance
변수의 표준화와 함께 변수간의 상관성을 동시에 고려한 통계적 거리

e. 계층적 군집의 특징
- 매 단계에서 지역적 최적화를 수행하기 때문에 그 결과가 전역적인 해라고 볼 수 없음
- 병합적 방법에서는 한 번 군집이 형성되면 군집에 속한 개체는 다른 군집으로 이동 할 수 없음
- 중심연결법, 와드연결법 등에서는 군집의 크기에 가중을 두어 병합을 시도하므로 큰 군집과의 병합이 유도될 수 있음

3. 비계층적 군집
a. k-평균 군집(k-mean clustering)
- 원하는 수 만큼 초기값을 지정하고, 각 개체를 가까운 초기값에 할당하여 군집을 형성 한 후,
- 각 군집의 평균을 재계산하여 초기값을 갱신한다.
- 갱신된 값에 대해 위의 할당 과정을 반복하여 k개의 최종군집을 형성하는 방법

b. k-평균 군집의 과정
- 초기 군집 중심으로 k개의 객체를 임의로 선택
- 각 자료를 가장 가까운 군집 중심에 할당. 즉 자료의 군집의 중심으로부터 오차제곱합이 최소가 되도록 각 자료를 할당
- 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신
- 군집 중심의 변화가 없을 때까지 단계를 반복

c. k-평균 군집의 장점
- 알고리즘이 단순
- 빠르게 수행되어 계층적 군집보다 많은 양의 자료를 처리
- 분석을 위해서 기본적으로 관찰치 간의 거리 데이터 형태(연속형), 거의 모든 형태의 데이터에 적용이 가능
- 주어진 데이터 내부 구조에 대해 사전적 정보 없이 의미 있는 자료로 분석이 가능

d. k-평균 군집의 단점
- 잡음이나 이상값에 영향을 받기 쉬움
- 이를 위해 k-medoids(중앙값) 군집을 사용하거나 k-mean 분석 전에 이상값을 제거하는 것도 방법
- 계층적 군집과 달리 사전에 군집의 수를 정해줘야 함
- 초기 군집의 수가 적합하지 않으면 좋은 결과를 얻을 수 없음
- 따라서 Nbclust 패키지를 통해 군집의 수에 대한 정보를 참고해야함

4. 혼합분포 군집
a. 혼합분포 군집이란?
- 모형 기반의 군집방법
- 데이터가 k개의 모수적모형(정규분포 혹은 다변량 분포를 가정)의 가중합으로 표현되는 모집단 모형으로 부터 나왔다는 가정하에서,
- 모수와 함께 가중치를 자료로부터 추정하는 방법
- k개의 각 모형은 군집을 의미하여,
- 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분포가 이뤄짐

b. EM(Expectation Maximizaion) 알고리즘
- 혼합모형에서 모수와 가중치의 추정을 위해 사용되는 알고리즘
- 통계 모델의 수식을 정확히 풀 수 없을 때 최대가능도/최대우도(Maximun Likelihood Estimation)를 구하는데 사용된다.
- 미지의 분포 파라미터를 주어진 데이터를 가지고 예측하고 그 예측값을 다시 주어진 데이터를 기반으로 기대치를 최대화시키는
- 파라미터를 구하는 과정을 반복하면서 최적 파라미터(최대 우도추정치를 얻는 방법
- 초기 클러스터의 개수를 정해줘야 함
- k-fold cross validation으로 적절한 클러스터 개수를 찾을 수 있음

c. k-means vs 혼합분포군집
- 두 방법 모두 1개의 클러스터로 출발
- k-mean은 클러스터를 중심거리로, EM은 MSL로 거리측정
- 클러스터를 늘리면 이전보다 클러스터 중심에서 평균 거리는 짧아지고 EM은 우도가 커짐
- 혼합분포군집은 확률분포를 도임하여 군집을 수행하는 점이 다름
- EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴하는데 시간이 오래걸리고, 군집의 크기가 작으면 추정의 정도가 떨어짐
- k-mean 평균과 같이 이상값에 민감함

5. SOM(Self-Organizing Maps, 자기화 조직도)
a. SOM이란?
- 인공신경망의 한 종류로서 Kohonen Network에 근간을 두고 있음
- 차원축소와 군집화를 동시에 수행하는 기법
- 입력 벡터를 훈련집합에서 매치되도록 가중치를 조정하는 인공신경세포 격자에 기초한 비지도학습의 한 방법

b. SOM의 활용
- Find structures in data(구조 탐색) : 데이터의 특징을 파악하여 유사 데이터를 군집
- Dimension Reduction(차원 축소) & Visualization(시각화) : 차원을 축소하여 통상 2차원 그리드에 매핑하여 시각적으로 이해시킴

c. SOM의 과정
- SOM 맵의 노드에 대한 연결 강도로 초기화
- 입력 벡터와 경쟁층 노드간의 유클리드 거리를 계산하여 입력 벡터와 가장 짧은 노드를 선택
§ 경쟁층(competitive layer): 입력 벡터의 특성에 따라 입력 벡터가 한 점으로 클러스터링되는 층
- 선택된 노드와 이웃 노드의 가중치를 수정
- 단계를 반복하면서 연결 강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨
- 승자 독식 구조로 인해 경쟁층에서는 승자 뉴런만이 나타남
d. SOM의 장점
- 시각적으로 이해하기 쉬움
- 입력변수의 위치관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에 가깝게 표현
- 빠르게 수행됨
e. SOM vs 신경망 모형
- 신경망 모형은 연속적인 층으로 구성된 반면, SOM은 2차원의 그리드로 구성
- 신경망 모형은 에러 수정을 학습하는 반면, SOM은 경쟁 학습을 시킴
- 신경망 모형은 역전파 알고리즘이지만, SOM은 전방패스를 사용하여 속도가 매우 빠름
- SOM은 비지도학습

18회 ADsP 합격 후기

ADP도 아니고, 겨우 ADsP인데 무척 힘들게 공부했는데ㅜㅜ 결과적으로는 좋은 결과가 나와서 행복하네요! 꽤나 아슬아슬하게 합격해서 창피하긴합니다만ㅋ 합격하면 된거지 뭐 라고 생각하려구요! 언제가 될지는 모르겠습니다만, ADP도 ...