📖 Certificate/ADsP

[ADsP] 2-1 데이터 분석 기획의 이해

스쳐가는비 2024. 1. 30. 11:42

데이터 유형

  • 정형 데이터
    - 정형된 DB 형태의 데이터
  • 반정형 데이터
    - 센서, 스트리밍, 머신 데이터
  • 비정형 데이터
    - 소셜 데이터

 

분석 기획

- 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업

 

 

데이터 사이언티스트의 역량

  • 수학/통계학적 지식
  • 정보기술 (IT, 해킹, 통신 기술 등)
  • 해당 비즈니스의 이해

 

분석 대상과 방법

 

  분석의 대상 (What)
    Known Un-Known
분석의 방법 (How) Known 최적화
(Optimization)
통찰법
(Insight)
Un-Known 해결책
(Solution)
발견
(Discovery)

ex)

  1. 분석 대상을 모르나, 기존 분석 방식을 활용할 경우와 대상을 새로 선정하는 것은? (통찰, 발견)
  2. 대상은 명확하고 방식이 명확하지 않은것은? (Solution)
  3. 분석 주제 유형 중 분석의 대상(What)을 모르고 하는 분석 방법(How)의 경우 분석 방향은? (통찰)

 

 

목표시점별 분석 기획 방안  

 

  과제 단위 Master Plan 단위
1차목표 Speed & Test Accuracy & Deploy
과제의 유형 Quick-Win LongTermView
접근방식 Problem Solving Problem Definition

 

ex)

  1. 목표 시점별로 당면한 과제를 빠르게 해결하는 과제 중심적인 접근방식의 특징이 아닌것은?
    - Problem Solving, Quick & Win, Speed & Test, Accuray & Deploy(X)

 

분석 기획 시 고려사항  

  • 가용 데이터 (Available data)의 고려 필요
  • 적절한 활용방안과 유즈 케이스 (Use Case) 탐색 필요
  • 발생 가능한 장애요소들에 대한 사전 계획 수립 필요

ex) 

  1. 유사분석 시나리오 및 솔루션이 있다면, 최대한 적절한 유즈 케이스를 활용해야한다.
  2. 장애 요소들에 대한 사전 계획 수립이 필요하다.
  3. 분석 과제가 기업에 내재화 될 수 있도록 지속적인 교육 관리가 필요하다.
  4. 데이터 분석을 위해서는 데이터 정형화가 필수적이다. (X)

 

방법론의 구성

  • 절차 (Procedures)
  • 방법 (Methods)
  • 도구와 기법 (Tools & Tehniques)
  • 템플릿과 산출물 (Templates & Outputs)

ex)

다음 중 분석 방법론의 구성요소가 아닌것은? (목적(X), 절차, 방법, 도구와 기법)

 

 

기업의 합리적 의사결정을 가로막는 장애요소

- 고정관념, 편향된 생각, 프레이밍 효과 (시각에 따른 판단의 차이)

 

ex)

  1. 동일한 사안이라고 해도 제시되는 방법에 따라 그에 관한 해석이나 의사결정이 달라지는 인식의 왜곡현상을 무엇이라 하는가? - 프레이밍 효과
  2. 데이터 유형에 따라서 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 한다.
  3. 유사 분석 시나리오 및 솔루션이 있다면 이를 최대한 활용하는 것이 중요하다.
  4. 장애요소들에 대한 사전 계획 수립이 필요하다.
  5. 이해하기 쉬운 모델보다는 복잡하고 정교한 모형이 더 효과적이다. (X)

 

방법론의 적용 업무의 특성에 따른 모델 

  • 폭포수 모델 (Waterfall Model)
    - 단계를 순차적으로 진행하는 방법
  • 프로토타입 모델 (Prototype Model)
    - 일부분을 우선 개발하여 사용자에게 제공, 피드백을 통한 개선 작업
  • 나선형 모델 (Spiral Model)
    - 반복을 통한 점진적 개발

ex)

  1. 신속하게 해결책 모형 제시, 상향식 접근 방법에 활용. (프로토타입 모델)
  2. 빠른 결과보다 모델의 정확성에 중점을 둔 기법 (폭포수 모델)
  3. 워터폴 방식은 전체적인 플랜을 짜고 문서를 통해 개발한다.
  4. 대표적인 하향식 접근방법 기법이다. (폭포수 모델)
  5. 프로토타입 모델은 '사용자들이 이렇게 만들면 평하게 사용할 거야'라는 가설을 생성하게 된다.
  6. 프로토 타입 모델은 특정 가설을 갖고 서비스를 성계하고 디자인에 대한 실험도 실행한다.
  7. 프로토타입을 보고 완성시킨 결과물을 통해 가설을 확인할 수 있다.
  8. 프로토타이핑은 순환적 문제탐색으로 인해 개발 시간이 많이 필요로 한다. (X)
  9. 대규모 시스템 소프트웨어 개발에 적합 여러 변의 개발 과정을 거쳐 점진적으로 프로젝트를 완성시켜가는 모델. (나선형 모델)

 

빅데이터 분석의 계층적 프로세스

  • 단계 (Phase)
    - 단계별 산출물이 생성, 각 단계는 기준선으로 설정되어 관리, 버전 관리등을 통한 통제 (단계별 완료 보고서)
  • 작업 (Task)
    - 단계를 구성하는 단위 활동, 품질 검토의 항목 (보고서)
  • 스텝 (Step)
    - 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 (보고서 구성요소)

 

KDD 분석 방법론 

- 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스

 

 

KDD 분석 절차 - 5단계

  • 데이터셋 선택 (Selection)
    - 비즈니스 도메인 이해, 프로젝트 목표설정, 데이터선택
  • 데이터 전처리 (Preprocessing)
    - 잡음-이상치-절측치 제거-재처리
    - 데이터 정제, 추가 데이터 필요시 데이터 선택 프로세스 재실행
  • 데이터 변환 (Transformation)
    - 분석 목적에 맞게 변수를 생성-선택, 데이터 차원 축소, 학습용-검증용 데이터 분리
  • 데이터 마이닝 (Data mining)
    - 기법 선택 및 적용
  • 결과 평가 (Interpretation / Evaluation)
    - 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인

 

CRISP-DM 분석 방법론 - 4 Level  

  • 단계 (Phase)
  • 일반화 작업 (Generic Tasks)
    - 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위
  • 세분화 작업 (Specialized Tasks)
    - 구체적인 수행
  • 프로세스 실행 (Process Instances)
    - 데이터 마이닝을 위한 구체적인 실행

 

CRISP-DM 프로세스 - 6단계  

  • 업무 이해 (Business Understanding)
    - 목적과 요구사항을 이해, 초기 프로젝트 계획을 수립
    - 업무 목적 파악, 상황 파악, 데이터마이닝 목표설정, 프로젝트 계획 수립
  • 데이터 이해 (Data Understanding)
    - 데이터 수집, 속성 이해, 인사이트 발견
    - 초기데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
  • 데이터 준비 (Data Preparation)
    - 분석기법에 적합한 데이터를 편성 (많은 시간 소요)
    - 분석용 데이터셋 선택 및 편성, 데이터 정제, 데이터 통합, 데이터 포맷
  • 모델링 (Modeling)
    - 모델링 기법과 알고리즘을 선택, 최적화, 과적합 문제확인
  • 평가 (Evaluation)
    - 프로젝트 목적에 부합하는지 평가
  • 전개 (Deployment)
    - 실 업무에 적용하기 위한 계획, 유지보수 계획 마련
    - 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰

ex)

  1. 데이터 분석 방법론 중 KDD는 데이터 전처리에 분석 대상용 데이터셋에 포함되어 있는 잡음과 이상치, 결측치를 식별하고 필요시 제거하거나 의미 있는 데이터로 처리하는 데이터셋 정제 작업을 시행한다. 또 다른 분석 방법인 CRISP-DM 분석 방법론 중 이와 유사한 프로세스 단계는 무엇인가? (데이터 준비)
  2. CRISP-DM의 업무 이해에 해당하는 것은?
    (업무 목적 파악 -> 업무 파악 -> 상황 파악 -> 데이터 마이닝 목표 설정 -> 프로젝트 계획 수립)
  3. 데이터 분석 방법론, 머신러닝을 이용한 수행 모델을 만들거나 데이터를 분할하는 부분을 무엇이라 하는가? (모델링)

 

빅데이터 분석 방법론 - 5단계

  • 분석 기획
    - 비즈니스 도메인과 문제점 인식, 분석 계획 및 프로젝트 수행 계획 수립
  • 데이터 준비
    - 원천 데이터 정의 및 준비
  • 데이터 분석
    - 분석용 데이터셋으로 편성, 다양한 분석 기법과 알고리즘을 이용하여 데이터 분석
  • 시스템 구현
    - 분석 기획에 맞는 모델 도출, 운영중인 가동 시스템에 적용, 프로토타입 시스템 구현
  • 평가 및 전개
    - 프로젝트 성과 평가 및 정리

ex)

  1. 분석기획 단계의 순서
    - (비즈니스 이해 및 범위 설정 -> 프로젝트 정의 및 계획 수립 -> 프로젝트 위험 계획 수립)
  2. 분석기획 단계에서의 task가 아닌 것은?
    - (비즈니스의 이해, 프로젝트 정의 및 계획 수립, 필요 데이터 정의 (X), 프로젝트 위험 계획 수립)
  3. 프로젝트 위험 계획 수립 시 예상되는 위험에 대한 대응방 법이 아닌 것은?
    - 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept), 관리(Management) (X)
  4. 데이터 분석 방법론 중 추가적인 데이터 확보가 필요한 경우 반복적인 피드백을 수행하는 구간은 어디인가?
    - 데이터 준비~데이터 분석

 

분석과제 발굴 방법론

  • 하향식 접근 방식
    - 분석 과제가 주어지고 이에 대한 해법을 찾기 위해 각 과정이 체계적으로 단계화되어 수행하는 방식
    <과정>
    1. 문제탐색
    ㄴ 비즈니스 모델 기반 문제 탐색(업무, 제품, 고객, 규제와 감사, 지원 인프라), 외부참조모델 기반의 문제탐색(유사, 동종사례를 벤치마킹을 통해 분석기회 발굴), 분석 유즈케이스 정의
    2. 문제 정의
    ㄴ 비즈니스 문제를 데이터의 문제로 변환하여 정의
    3. 해결방안 탐색
    ㄴ 분석 역량(Who), 분석기법 및 시스템(How)으로 해결방안 탐색
    4. 타당성 검토
    ㄴ 경제적 타당성, 데이터 및 기술적 타당성 검토
  • 상향식 접근 방식
    - 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식
    - 비지도 학습 방법으로 수행, 데이터 자체의 결함, 연관성, 유사성 중심으로 접근
    - 프로토타이핑 접근법
    - 하향식 접근법은 논리적 단계별 접근법으로 최근 복잡하고 다양한 환경에서 발생하는 문제를 해결하기는 어려움
    - 디자인적 사고 접근법을 통해 Why -> What 관점으로 존재하는 데이터 그 자체를 객관적으로 관찰하여 문제를 해결

ex)

      1. 거시적 관점에서는 현재의 조직 및 해당 산업에 폭넓게 영향을 미치는 사회, 경제적 요인을 STEEP로 요약되는 Social(사회), Technology(기술), Economic(경제), Environmental(환경), Political(정치) 영역으로 나누어서 기회 탐색을 수행한다.
      2. 경쟁자 관점에서는 현재 수행하고 있는 사업 영역의 제품, 서비스에 대해서만 분석 기회 발굴의 폭을 넓혀서 탐색한다. (X)
      3. 경쟁자 관점에서는 대체제, 경쟁자 , 신규 진입자를 탐색한다.
      4. 다음 중 비즈니스 모델 관점 이외에 경쟁자 관점의 영역에 해당되지 않은 것은?
        (대체재 영역, 경쟁자 영역, 신규 진입자 영역, 소비자 영역(X))
      5. 시장의 니즈 탐색 관점에서는 현재 수행하고 있는 사업에 서의 직접 고객뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널 및 고객의 의사결정에 영향을 미치는 영향자들 에 대한 폭넓은 관점을 바탕으로 분석 기회를 탐색한다.
      6. 역량의 재해석 관점에서는 현재 해당 조직 및 기업이 보유한 내부 역량뿐만 아니라 해당 조직의 비즈니스에 영향을 끼치는 파트너 네트워크를 포함한 활용 가능한 역량을 토대로 폭넓은 분석 기회를 탐색한다.
      7. 문제가 확실할 때 상향식 접근법을 사용한다. (X)
      8. 문제가 주어지고 해법을 찾기 위해서 하향식 접근 방식을 사용한다.
      9. 문제의 정의 자체가 어려운 경우 상향식 접근 방식을 사용한다.
      10. 디자인 사고의 경우 상향식과 하향식을 반복적으로 사용하기 쉽다.
      11. 문제 탐색의 도구가 아닌 것은?
        (비즈니스 모델 기반 문제 탐색, 탐색적 문제 발견(X), 외부 참조 모델 기반 문제 탐색, 분석 유즈 케이스)
      12. 문제가 먼저 주어지고 해답을 찾기 위해 과정을 체계적으로 간계화하여 수행하는 방식은? (하향식 접근방식)
      13. 하향식 접근 방식은 비즈니스 모델 틀을 활용하여 가치가 창출될 문제를 누락 없이 도출할 수 있다.
      14. 하향식 접근방식은 환경과 경쟁구도의 변화, 역량의 재해석을 통해 분석 기회를 추가 도출한다.
      15. 하향식 접근 방식은 외부 참조 모델 기반 문제 탐색을 한다.
      16. 하향식 접근 방식은 분석 유즈 케이스보다 새로운 이유 탐색이 우선한다. (X)
      17. 다음 중 하향식 접근법의 데이터 분석 기획 단계는?
        Problem discovery-> Problem Definition -> Solution Search-> Feasibility Study

 

분석 과제 관리를 위한 5가지 주요 영역

  • 데이터 사이즈
    - 분석하고자 하는 데이터의 양을 고려
  • 데이터 복잡성
    - 초기 데이터의 확보와 통합, 데이터에 잘 적용될 수 있는 분석 모델의 선정
  • 스피드
    - 분석 모델의 성능 및 속도를 고려한 개발 및 테스트
  • 데이터 정확도와 편차수
    - 모델과 실제 값의 차이가 적은 정확도, 모델의 지속적인 반복 시 편차의 수준이 일관적인 정밀도
  • 분석 복잡성
    - 해석이 가능하면서도 정확도를 올릴 수 있는 최적 모델

 

ex)

  1. 분석 과제 수행 시 고려하는 5요소가 아닌 것은?
    (데이터 분석 방법 (X), 데이터 크기, 데이터 복잡성, 스피드)
  2. 분석 과제 주요 특성으로 data size, data complexity, speed, analytic complexity, accuracy & precision 등이 있다.

 

분석 프로젝트의 관리 방안

- 범위 / 시간 / 원가 / 품질 / 통합 / 조달 / 자원 / 리스크 / 의사소통 / 데이터 마트

 

  1. 분석 프로젝트는 다른 프로젝트 유형과는 다르며 추가적인 관리사항이 필요 없다. (X)
  2. 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되기도 한다.
  3. 분석 프로젝트의 경우에는 관리 영역에서 일반 프로젝트와 다르게 유의해야 할 요소가 존재한다.