데이터 유형 ★
- 정형 데이터
- 정형된 DB 형태의 데이터 - 반정형 데이터
- 센서, 스트리밍, 머신 데이터 - 비정형 데이터
- 소셜 데이터
분석 기획
- 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
데이터 사이언티스트의 역량
- 수학/통계학적 지식
- 정보기술 (IT, 해킹, 통신 기술 등)
- 해당 비즈니스의 이해
분석 대상과 방법 ★ ★
분석의 대상 (What) | |||
Known | Un-Known | ||
분석의 방법 (How) | Known | 최적화 (Optimization) |
통찰법 (Insight) |
Un-Known | 해결책 (Solution) |
발견 (Discovery) |
ex)
- 분석 대상을 모르나, 기존 분석 방식을 활용할 경우와 대상을 새로 선정하는 것은? (통찰, 발견)
- 대상은 명확하고 방식이 명확하지 않은것은? (Solution)
- 분석 주제 유형 중 분석의 대상(What)을 모르고 하는 분석 방법(How)의 경우 분석 방향은? (통찰)
목표시점별 분석 기획 방안 ★ ★
과제 단위 | Master Plan 단위 | |
1차목표 | Speed & Test | Accuracy & Deploy |
과제의 유형 | Quick-Win | LongTermView |
접근방식 | Problem Solving | Problem Definition |
ex)
- 목표 시점별로 당면한 과제를 빠르게 해결하는 과제 중심적인 접근방식의 특징이 아닌것은?
- Problem Solving, Quick & Win, Speed & Test, Accuray & Deploy(X)
분석 기획 시 고려사항 ★
- 가용 데이터 (Available data)의 고려 필요
- 적절한 활용방안과 유즈 케이스 (Use Case) 탐색 필요
- 발생 가능한 장애요소들에 대한 사전 계획 수립 필요
ex)
- 유사분석 시나리오 및 솔루션이 있다면, 최대한 적절한 유즈 케이스를 활용해야한다.
- 장애 요소들에 대한 사전 계획 수립이 필요하다.
- 분석 과제가 기업에 내재화 될 수 있도록 지속적인 교육 관리가 필요하다.
- 데이터 분석을 위해서는 데이터 정형화가 필수적이다. (X)
방법론의 구성 ★
- 절차 (Procedures)
- 방법 (Methods)
- 도구와 기법 (Tools & Tehniques)
- 템플릿과 산출물 (Templates & Outputs)
ex)
다음 중 분석 방법론의 구성요소가 아닌것은? (목적(X), 절차, 방법, 도구와 기법)
기업의 합리적 의사결정을 가로막는 장애요소 ★
- 고정관념, 편향된 생각, 프레이밍 효과 (시각에 따른 판단의 차이)
ex)
- 동일한 사안이라고 해도 제시되는 방법에 따라 그에 관한 해석이나 의사결정이 달라지는 인식의 왜곡현상을 무엇이라 하는가? - 프레이밍 효과
- 데이터 유형에 따라서 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 한다.
- 유사 분석 시나리오 및 솔루션이 있다면 이를 최대한 활용하는 것이 중요하다.
- 장애요소들에 대한 사전 계획 수립이 필요하다.
- 이해하기 쉬운 모델보다는 복잡하고 정교한 모형이 더 효과적이다. (X)
방법론의 적용 업무의 특성에 따른 모델 ★ ★ ★
- 폭포수 모델 (Waterfall Model)
- 단계를 순차적으로 진행하는 방법 - 프로토타입 모델 (Prototype Model)
- 일부분을 우선 개발하여 사용자에게 제공, 피드백을 통한 개선 작업 - 나선형 모델 (Spiral Model)
- 반복을 통한 점진적 개발
ex)
- 신속하게 해결책 모형 제시, 상향식 접근 방법에 활용. (프로토타입 모델)
- 빠른 결과보다 모델의 정확성에 중점을 둔 기법 (폭포수 모델)
- 워터폴 방식은 전체적인 플랜을 짜고 문서를 통해 개발한다.
- 대표적인 하향식 접근방법 기법이다. (폭포수 모델)
- 프로토타입 모델은 '사용자들이 이렇게 만들면 평하게 사용할 거야'라는 가설을 생성하게 된다.
- 프로토 타입 모델은 특정 가설을 갖고 서비스를 성계하고 디자인에 대한 실험도 실행한다.
- 프로토타입을 보고 완성시킨 결과물을 통해 가설을 확인할 수 있다.
- 프로토타이핑은 순환적 문제탐색으로 인해 개발 시간이 많이 필요로 한다. (X)
- 대규모 시스템 소프트웨어 개발에 적합 여러 변의 개발 과정을 거쳐 점진적으로 프로젝트를 완성시켜가는 모델. (나선형 모델)
빅데이터 분석의 계층적 프로세스
- 단계 (Phase)
- 단계별 산출물이 생성, 각 단계는 기준선으로 설정되어 관리, 버전 관리등을 통한 통제 (단계별 완료 보고서) - 작업 (Task)
- 단계를 구성하는 단위 활동, 품질 검토의 항목 (보고서) - 스텝 (Step)
- 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 (보고서 구성요소)
KDD 분석 방법론
- 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
KDD 분석 절차 - 5단계 ★
- 데이터셋 선택 (Selection)
- 비즈니스 도메인 이해, 프로젝트 목표설정, 데이터선택 - 데이터 전처리 (Preprocessing)
- 잡음-이상치-절측치 제거-재처리
- 데이터 정제, 추가 데이터 필요시 데이터 선택 프로세스 재실행 - 데이터 변환 (Transformation)
- 분석 목적에 맞게 변수를 생성-선택, 데이터 차원 축소, 학습용-검증용 데이터 분리 - 데이터 마이닝 (Data mining)
- 기법 선택 및 적용 - 결과 평가 (Interpretation / Evaluation)
- 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인
CRISP-DM 분석 방법론 - 4 Level ★
- 단계 (Phase)
- 일반화 작업 (Generic Tasks)
- 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위 - 세분화 작업 (Specialized Tasks)
- 구체적인 수행 - 프로세스 실행 (Process Instances)
- 데이터 마이닝을 위한 구체적인 실행
CRISP-DM 프로세스 - 6단계 ★ ★ ★
- 업무 이해 (Business Understanding)
- 목적과 요구사항을 이해, 초기 프로젝트 계획을 수립
- 업무 목적 파악, 상황 파악, 데이터마이닝 목표설정, 프로젝트 계획 수립 - 데이터 이해 (Data Understanding)
- 데이터 수집, 속성 이해, 인사이트 발견
- 초기데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 - 데이터 준비 (Data Preparation)
- 분석기법에 적합한 데이터를 편성 (많은 시간 소요)
- 분석용 데이터셋 선택 및 편성, 데이터 정제, 데이터 통합, 데이터 포맷 - 모델링 (Modeling)
- 모델링 기법과 알고리즘을 선택, 최적화, 과적합 문제확인 - 평가 (Evaluation)
- 프로젝트 목적에 부합하는지 평가 - 전개 (Deployment)
- 실 업무에 적용하기 위한 계획, 유지보수 계획 마련
- 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰
ex)
- 데이터 분석 방법론 중 KDD는 데이터 전처리에 분석 대상용 데이터셋에 포함되어 있는 잡음과 이상치, 결측치를 식별하고 필요시 제거하거나 의미 있는 데이터로 처리하는 데이터셋 정제 작업을 시행한다. 또 다른 분석 방법인 CRISP-DM 분석 방법론 중 이와 유사한 프로세스 단계는 무엇인가? (데이터 준비)
- CRISP-DM의 업무 이해에 해당하는 것은?
(업무 목적 파악 -> 업무 파악 -> 상황 파악 -> 데이터 마이닝 목표 설정 -> 프로젝트 계획 수립) - 데이터 분석 방법론, 머신러닝을 이용한 수행 모델을 만들거나 데이터를 분할하는 부분을 무엇이라 하는가? (모델링)
빅데이터 분석 방법론 - 5단계 ★
- 분석 기획
- 비즈니스 도메인과 문제점 인식, 분석 계획 및 프로젝트 수행 계획 수립 - 데이터 준비
- 원천 데이터 정의 및 준비 - 데이터 분석
- 분석용 데이터셋으로 편성, 다양한 분석 기법과 알고리즘을 이용하여 데이터 분석 - 시스템 구현
- 분석 기획에 맞는 모델 도출, 운영중인 가동 시스템에 적용, 프로토타입 시스템 구현 - 평가 및 전개
- 프로젝트 성과 평가 및 정리
ex)
- 분석기획 단계의 순서
- (비즈니스 이해 및 범위 설정 -> 프로젝트 정의 및 계획 수립 -> 프로젝트 위험 계획 수립) - 분석기획 단계에서의 task가 아닌 것은?
- (비즈니스의 이해, 프로젝트 정의 및 계획 수립, 필요 데이터 정의 (X), 프로젝트 위험 계획 수립) - 프로젝트 위험 계획 수립 시 예상되는 위험에 대한 대응방 법이 아닌 것은?
- 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept), 관리(Management) (X) - 빅데이터 분석 방법론 중 추가적인 데이터 확보가 필요한 경우 반복적인 피드백을 수행하는 구간은 어디인가?
- 데이터 준비~데이터 분석
분석과제 발굴 방법론 ★ ★ ★ ★
- 하향식 접근 방식
- 분석 과제가 주어지고 이에 대한 해법을 찾기 위해 각 과정이 체계적으로 단계화되어 수행하는 방식
<과정>
1. 문제탐색
ㄴ 비즈니스 모델 기반 문제 탐색(업무, 제품, 고객, 규제와 감사, 지원 인프라), 외부참조모델 기반의 문제탐색(유사, 동종사례를 벤치마킹을 통해 분석기회 발굴), 분석 유즈케이스 정의
2. 문제 정의
ㄴ 비즈니스 문제를 데이터의 문제로 변환하여 정의
3. 해결방안 탐색
ㄴ 분석 역량(Who), 분석기법 및 시스템(How)으로 해결방안 탐색
4. 타당성 검토
ㄴ 경제적 타당성, 데이터 및 기술적 타당성 검토 - 상향식 접근 방식
- 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식
- 비지도 학습 방법으로 수행, 데이터 자체의 결함, 연관성, 유사성 중심으로 접근
- 프로토타이핑 접근법
- 하향식 접근법은 논리적 단계별 접근법으로 최근 복잡하고 다양한 환경에서 발생하는 문제를 해결하기는 어려움
- 디자인적 사고 접근법을 통해 Why -> What 관점으로 존재하는 데이터 그 자체를 객관적으로 관찰하여 문제를 해결
ex)
- 거시적 관점에서는 현재의 조직 및 해당 산업에 폭넓게 영향을 미치는 사회, 경제적 요인을 STEEP로 요약되는 Social(사회), Technology(기술), Economic(경제), Environmental(환경), Political(정치) 영역으로 나누어서 기회 탐색을 수행한다.
- 경쟁자 관점에서는 현재 수행하고 있는 사업 영역의 제품, 서비스에 대해서만 분석 기회 발굴의 폭을 넓혀서 탐색한다. (X)
- 경쟁자 관점에서는 대체제, 경쟁자 , 신규 진입자를 탐색한다.
- 다음 중 비즈니스 모델 관점 이외에 경쟁자 관점의 영역에 해당되지 않은 것은?
(대체재 영역, 경쟁자 영역, 신규 진입자 영역, 소비자 영역(X)) - 시장의 니즈 탐색 관점에서는 현재 수행하고 있는 사업에 서의 직접 고객뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널 및 고객의 의사결정에 영향을 미치는 영향자들 에 대한 폭넓은 관점을 바탕으로 분석 기회를 탐색한다.
- 역량의 재해석 관점에서는 현재 해당 조직 및 기업이 보유한 내부 역량뿐만 아니라 해당 조직의 비즈니스에 영향을 끼치는 파트너 네트워크를 포함한 활용 가능한 역량을 토대로 폭넓은 분석 기회를 탐색한다.
- 문제가 확실할 때 상향식 접근법을 사용한다. (X)
- 문제가 주어지고 해법을 찾기 위해서 하향식 접근 방식을 사용한다.
- 문제의 정의 자체가 어려운 경우 상향식 접근 방식을 사용한다.
- 디자인 사고의 경우 상향식과 하향식을 반복적으로 사용하기 쉽다.
- 문제 탐색의 도구가 아닌 것은?
(비즈니스 모델 기반 문제 탐색, 탐색적 문제 발견(X), 외부 참조 모델 기반 문제 탐색, 분석 유즈 케이스) - 문제가 먼저 주어지고 해답을 찾기 위해 과정을 체계적으로 간계화하여 수행하는 방식은? (하향식 접근방식)
- 하향식 접근 방식은 비즈니스 모델 틀을 활용하여 가치가 창출될 문제를 누락 없이 도출할 수 있다.
- 하향식 접근방식은 환경과 경쟁구도의 변화, 역량의 재해석을 통해 분석 기회를 추가 도출한다.
- 하향식 접근 방식은 외부 참조 모델 기반 문제 탐색을 한다.
- 하향식 접근 방식은 분석 유즈 케이스보다 새로운 이유 탐색이 우선한다. (X)
- 다음 중 하향식 접근법의 데이터 분석 기획 단계는?
Problem discovery-> Problem Definition -> Solution Search-> Feasibility Study
분석 과제 관리를 위한 5가지 주요 영역 ★
- 데이터 사이즈
- 분석하고자 하는 데이터의 양을 고려 - 데이터 복잡성
- 초기 데이터의 확보와 통합, 데이터에 잘 적용될 수 있는 분석 모델의 선정 - 스피드
- 분석 모델의 성능 및 속도를 고려한 개발 및 테스트 - 데이터 정확도와 편차수
- 모델과 실제 값의 차이가 적은 정확도, 모델의 지속적인 반복 시 편차의 수준이 일관적인 정밀도 - 분석 복잡성
- 해석이 가능하면서도 정확도를 올릴 수 있는 최적 모델
ex)
- 분석 과제 수행 시 고려하는 5요소가 아닌 것은?
(데이터 분석 방법 (X), 데이터 크기, 데이터 복잡성, 스피드) - 분석 과제 주요 특성으로 data size, data complexity, speed, analytic complexity, accuracy & precision 등이 있다.
분석 프로젝트의 관리 방안 ★
- 범위 / 시간 / 원가 / 품질 / 통합 / 조달 / 자원 / 리스크 / 의사소통 / 데이터 마트
- 분석 프로젝트는 다른 프로젝트 유형과는 다르며 추가적인 관리사항이 필요 없다. (X)
- 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되기도 한다.
- 분석 프로젝트의 경우에는 관리 영역에서 일반 프로젝트와 다르게 유의해야 할 요소가 존재한다.
'📖 Certificate > ADsP' 카테고리의 다른 글
[ADsP] 3-1 R 기초와 데이터 마트 (0) | 2024.02.01 |
---|---|
[ADsP] 2-2 분석 마스터 플랜 (0) | 2024.01.30 |
[ADsP] 1-3 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2024.01.29 |
[ADsP] 1-2 데이터의 가치와 미래 (1) | 2024.01.29 |
[ADsP] 1-1 데이터의 이해 요약정리 (1) | 2024.01.29 |