2018년 8월 27일 월요일

ADsP : 과목I. 데이터의 이해 - 데이터의 가치

1. 빅데이터의 이해
a. 빅데이터의 정의
i. 데이터의 크기 관점
1) 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
ii. 데이터의 분석 관점
1) 다양한 종류의 데이터로부터 저렴한 비용으로 가치를 추출하고
2) 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
iii. 데이터의 가치 관점
1) 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없던 새로운 통찰이나 가치를 추출하는 일
2) 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일
iv. 가트너 그룹 더그래니가 언급한 정의
1) Volume : 데이터의 크기, 생성되는 모든 데이터를 수집
2) Variety :  데이터의 다양성, 정형화된 데이터를 넘어 텍스트, 오디오 등 모든 유형의 데이터를 분석 대상으로 함
3) Velocity : 데이터의 속도, 사용자가 원하는 시간내에 분석 결과를 제공하는 것과 데이터의 업데이트 속도가 매우 빨라지는 것 의미

b. 출현배경
i. 산업계 : 고객 데이터를 축적하여 데이터에 숨은 가치를 새로운 성장동력으로 만드는 기술 확보가 관건이 됨
ii. 학계 : 거대 데이터 활용 과학이 확산됨
iii. 관련 기술 발전 : 디지털화, 저장기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅

c. 빅데이터의 기능
i. 산업혁명의 석탄, 철
1) 산업혁명에서 석탄은 증기기관을 작동시키는 열 에너지를 제공
2) 철은 공장 건축부터 철로를 포함하여 각종 인프라에 없어서는 안될 재료
3) 빅데이터 역시 지금의 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 기대
ii. 원유
1) 우리가 살고 있는 사회저변을 떠받치는 에너지원은 원유
2) 빅데이터 역시 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 '정보'를 제공하여 산업 전반의 생산성을 향상 시킬것
iii. 렌즈
1) 현미경의 발달로 각종 식물과 동물의 세포에서 일어나는 수많은 매키니즘을 밝혀냄
2) 구글의 Ngram Viewer
iv. 플랫폼
1) 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할 것으로 예상

d. 빅데이터가 만들어낸 변화
i. 사전처리에서 사후처리로
1) 사전처리의 대표적인 예는 표준화된 문서 포맷
2) 사전에 정한 포맷으로 원하는 정보만 수집하고 특수한 상황을 반영하는 정보의 수집을 포기하여 정보관리 비용을 줄여왔음
3) 빅데이터 시대에는 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾음
ii. 표본조사에서 전수조사로
1) 데이터 수집 비용은 큰 문제가 되지 않고, 클라우드 컴퓨팅 기술의 발전에 의해 데이터 처리 비용이 급격히 감소함
2) 전수조사의 장점은 표본이 주지 못하는 패턴이나 정보를 제공한다는 장점이 있음
iii. 질보다 양으로
1) 데이터 수가 증가함에 따라 사소한 몇 개의 오류 데이터가 대세에 영향을 주지 못하는 경향이 늘어나기 때문
2) 구글의 자동번역 시스템 구축 과정에서 확인 가능
iv. 인과관계에서 상관관계로
1) 기존의 과학발견은 이론에 기초하여 수집할 변인을 결정하고 엄격한 실험을 통해 정제된 데이터를 얻어서 이를 분석 하였음
2) 위의 접근법은 데이터를 얻는데 비용이 비싸던 시대의 모델
3) 비즈니스 상황에서는 인과관계를 모르고 상관관계 분석만으로 충분한 경우가 많음

2. 빅데이터의 가치와 영향
a. 빅데이터의 가치
i. 빅데이터의 가치 산정이 어려운 이유
1) 데이터의 활용방식 : 특정 데이터를 언제, 어디서, 누가 활용하는지 알기 어려움
2) 새로운 가치 창출 : 기존에 없던 가치를 창출하여 그 가치를 측정하기 어려움
3) 분석기술의 발달 : 지금은 가치없는 데이터가 새로운 분석기법의 도입으로 큰 가치를 만드는 재료가 될 가능성이 있음

b. 빅데이터의 영향
i. 기업 : 혁신, 경쟁력 제고, 생산성 확산
ii. 정부 : 환경탐색, 상황분석, 미래대응
iii. 개인 : 목적에 따라 활용
iv. 생활 전반의 스마트화

3. 비즈니스 모델
a. 빅데이터 활용 사례
i. 구글의 검색엔진, 월마트의 구매패턴분석, IBM 왓슨 의료 분야에 활용
ii. 정부의 실시간 교통정보 활용, CCTV 국가안전에 활용
iii. 정치인의 사회관계망분석을 통한 유세, 가수의 팬 음악청취 기록 분석 활용 등
iv. 아마존 킨들에 쌓이는 전자책 읽기 관련 데이터 분석해 저자들에게 제공

b. 빅데이터 활용 테크닉
i. 연관규칙학습(Association rule learning)
1) 어떤 변수간에 주목할만한 상관관계가 있는지 찾아내는 방법
2) 슈퍼마켓에서 상관관계가 높은 상품을 함께 진열
ii. 유형분석(Classfication tree analysis)
1) 새로운 사건이 속하게 될 통계적 범주를 찾아내는 일
2) 기존 자료를 바탕으로 만들어진 훈련용 분류 틀이 미리 갖춰져 있어야 함
3) 사용자가 어떤 특성을 가진 집단에 속하는가?
4) 온라인 수강생들을 특성에 따라 분류
iii. 유전 알고리즘(Genetic algorithm)
1) 최적화가 필요한 문제의 해결법을 자연선택, 돌연변이 등과 같은 매커니즘으로 점진적으로 진화시켜나가는 방법
2) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
3) 연료 효율적인 차를 개발하기 위해 어떻게 원자재와 엔지니어링을 결합해야 하는가?
4) 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가
iv. 기계학습(Machine learning)
1) 훈련 데이터에서 학습한 알려진 특성을 활용해 예측하는 일
2) 기존 시청 기록을 바탕으로 시청자가 현재 보유한 영화중 어떤 것을 가장 보고싶어 할 것인지에 대한 문제를 해결
3) 넷플릭스의 영화추천 시스템
v. 회귀분석(Regression Analysis)
1) 독립변수를 조작하여 종속변수가 어떻게 변하는지 보며 두 변인의 관계를 파악
2) 구매자의 나이가 구매차량의 타입에 어떤 영향을 미치는가?
3) 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
4) 이웃들과 그 규모가 집값에 어떤 영향을 미치는가?
vi. 감정분석(Sentiment Analysis)
1) 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
2) 새로운 환불 정책에 대한 고객의 평가는 어떤가?
3) 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아내는 것
vii. 소셜 네트워크 분석(Social network analysis) = 사회 관계망 분석(SNA)
1) 특정인과 다른 사람이 몇촌(degrees of separation) 정도의 관계인지 파악
2) 영향력이 있는 사람을 찾아낼 수 있으며 고객들 간 소셜 관계를 파악

4. 위기 요인과 통제 방안
a. 사생활 침해
i. 정보 수집 센서들의 수가 점점 늘어나고 있고,
ii. 특정 데이터가 본래 목적 외에 가공 처리되어 2,3차적 목적으로 활용될 가능성이 높아짐
iii. 해결안 - 동의에서 책임으로
1) 개인정보의 활용에 대해 개인이 매번 동의하는 것은 경제적으로 매우 비효율적
2) 개인정보 제공자의 동의를 통해 구하기보다 개인정보 사용자에게 책임을 지워서,
3) 개인정보 사용 주체가 보다 적극적인 보호장치를 강구하게 될것

b. 책임원칙 훼손
i. 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼,
ii. 분석 대상이 되는 사람들은 예측 알고리즘의 희생이 될 가능성이 증가
iii. 잠재적인 위험사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성이 높아 민주주의 사회 원칙을 훼손할 수 있음
iv. 해결안 - 결과 기반 책임 원칙 강화
1) 특정인일 성향에 따라 처벌하는 것이 아니라, 결과를 보고 처벌하는 것을 고수

c. 데이터의 오용
i. 일어난 일에 대한 데이터에 의존하기 때문에 항상 맞을 수는 없음(데이터를 과신)
ii. 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접적 손실을 부를 수 있음(잘못된 지표를 사용)
iii. 해결안 - 데이터 알고리즘에 대한 접근권 혀용

5. 미래의 빅데이터
a. 빅데이터 활용 3요소 - 데이터, 기술, 인력

b. 데이터
i. 모든 것을 데이터화하는 추세를 피할 수 없을 것
ii. 특정한 목적없이 생선된 데이터라고해도 창의적으로 재활용되면서 가치를 만들기 때문

c. 기술
i. 빅데이터 분석 알고리즘의 진화가 계속될 것
ii. 알고리즘은 데이터 양의 증가에 따라 정확도가 증가하는 일반적인 경향.
iii. 즉, 알고리즘을 학습시킬 수 있는 데이터의 양이 증가하면 알고리즘도 스마트해 질 것

d. 인력
i. 데이터사이언티스트와 알고리즈미스트의 역할이 중요해질 것
ii. 데이터사이언티스트는 빅데이터의 다각적 분석을 통해 인사이트를 도출, 이를 조직 전략 방향 제시에 활용 할 것

댓글 없음:

댓글 쓰기

18회 ADsP 합격 후기

ADP도 아니고, 겨우 ADsP인데 무척 힘들게 공부했는데ㅜㅜ 결과적으로는 좋은 결과가 나와서 행복하네요! 꽤나 아슬아슬하게 합격해서 창피하긴합니다만ㅋ 합격하면 된거지 뭐 라고 생각하려구요! 언제가 될지는 모르겠습니다만, ADP도 ...