산업별 분석 애플리케이션
- 금융 서비스
- 신용점수 산정, 사기 탐지, 가격 책정, 고객 수익성 분석, 클레임 분석 - 병원
- 가격 책정, 고객 로열티, 수익 관리 - 에너지
- 트레이딩, 공급, 수요 예측 - 정부
- 사기 탐지, 사례 관리, 범죄 방지, 수익 최적화
ex)
- 다음은 어느 산업 데이터의 일차원적인 분석 애플리케이션 사례인가? 트레이딩, 공급, 수요예측 (에너지)
- ( -- ) 란 데이터로 부터 의미있는 정보를 추출해내는 학문이며, 정형 또는 비정형 데이터를 막론하고 인터넷, 휴대전화, 감지용 카메라등에서 생성되는 숫자와 문자, 영상 정보등 다양한 유형의 데이터를 대상으로하며, 분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함한 포괄적 개념이다. (데이터사이언스)
데이터 사이언스의 영역 ★
- 분석적 영역 (Analytics), 비즈니스 컨설팅 영역 (비즈니스분석), 데이터 처리와 관련된 IT 영역 (IT)
- IT 컨설팅
- IT + 비즈니스 분석 - 전략 컨설턴트
- Analytics + 비즈니스 분석
ex)
- 외국의 각 전문가들은 호기심이야 말로 데이터 사이언티스트의 중요한 특징이라 생각한다.
- 데이터 사이언스는 과학과 인문학의 교차로에 서 있다고 할 수 있다.
- 통계학은 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 한다. (X)
- 데이터 사이언스의 핵심 구성요소로는 IT 영역, 분석적 영역, 비즈니스 컨설팅 영역이 있다.
- 데이터 사이언스가 기존의 통계학과 다른점은 데이터 사이언스는 총체적 접근법을 사용한다는 것이다.
- 강력한 호기심이야 말로 데이터 사이언티스트의 중요한 특징이라 할 수 있다.
- 데이터 사이언스란 데이터로부터 의미있는 정보를 추출하는 학문이다.
- 통계학이 정형화된 데이터를 분석 대상으로 하지만 데이터 사이언스는 다양한 데이터 유형을 대상으로 한다.
- 데이터 마이닝은 분석이 포괄적인 개념이지만 데이터 사이언스는 분석에 초점이 있다. [(X) 데이터 사이언스는 분석도포괄적인 개념이다.]
데이터 사이언티스트 요구 역량 ★ ★
- Hard Skill
- 이론적 지식, 분석기술등 - Soft Skill
- 통찰력 (창의적 사고, 호기심, 논리적, 호기심, 비판), 설득력(스토리텔링, 시각화), 협력(커뮤니케이션)등
ex)
- 인문학 열풍의 이유는 단순 세계화에서 복잡한 세계로의 변화
- 인문학 열풍의 이유는 경제와 산업의 논리가 생산에서 시장 창조로 바뀌었다.
- 가트너가 언급한 데이터 사이언티스트의 역량이 아닌 것은? (데이터 관리, 비즈니스 분석, Hard Skill(X), 분석 모델링)
- 데이터 사이언티스트들은 주로 데이터 처리나 분석 기술과 관련된 (1)만을 요구받고 있는 것처럼 보인다. 하지만 이러한 (1) 은 훌륭한 데이터 사이언티스트가 갖춰야 하는 능력의 절반에 불과하다. 나머지 절반은 통찰력 있는 분석, 설득력 있는 전달, 협력 등 ( 2 )이다. (Hard Skill, Soft Skill)
전략적 통찰력과 인문학의 부활
- 컨버전스 -> 디버전스
- 단순 세계화에서 복잡한 세계화로의 변화 - 생산 -> 서비스
- 비즈니스 중심이 제품 생산에서 서비스로 이동 - 생산 -> 시장창조
- 공급자 중심의 기술경쟁에서 무형자산의 경쟁으로 변화
빅데이터 가치 패러다임의 변화 ★
- 과거 (디지털화 Digitalization)
- 아날로그 세상을 어떻게 효과적으로 디지털화 하는가 - 현재 (연결 Connection)
- 연결을 더 효과적이고 효율적으로 제공해주는가 - 미래 (에이전시 Agency)
- 복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가
데이터 사이언스의 한계 ★
- 인간의 해석이 개입
- 사람에 따라 전혀 다른 해석과 결론
- 모든 분석은 가정에 근거
DBMS (Data Base Management System)
- 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공
- 효율적인 데이터 검색, 저장기능 등 제공
- Oracle, 인포믹스, 액세스
DBMS (Data Base Management System)의 종류 ★
- 관계형 DBMS
- Column과 Row를 이루는 하나 이상의 테이블로 정리
- Key가 존재 - 객체지향 DBMS
- 정보를 객체 형태로 표현하는 데이터베이스 모델 - 네트워크 DBMS
- 레코드 = 노드, 관계 = 간선으로 표현되는 그래프기반 데이터베이스 모델 - 계층형 DBMS
- 트리구조를 기반으로하는 데이터베이스 모델
개인정보 비식별 기술
- 데이터 마스킹
- 데이터를 익명으로 생성 (홍**, **대학) - 가명처리
- 다른 값으로 대체 (홍국돈(홍국 돈, 항곡대학) - 총계처리
- 총합값으로 대체 (키 합 : 750cm, 평균 키 : 185cm) - 데이터 값 삭제
- 개인 식별에 중요한 값 삭제 (90년대 생, 남자) - 데이터 범주화
- 범주의 값으로 변환 (홍씨 (홍 씨, 30~40세)
데이터 무결성 ★
- 데이터에 대한 정확한 일관성, 유효성, 신뢰성 보장을 위해 제한
데이터 레이크 ★
- 데이터 형식, 방식에 상관없이 데이터를 저장하는 시스템
빅데이터 분석 기술 ★ ★
- 하둡 (Hadoop)
- 여러 개의 컴퓨터를 하나인것 처럼 묶어 대용량 데이터를 처리하는 기술 - Apache Spark
- 실시간 분산형 컴퓨팅 플랫폼, In-Memory 방식으로 하둡에 비해 처리속도가 빠름 - Smart Factory
- 공장 내 설비와 기계에 사물인터넷이 설치되어, 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화한다. - Machine Learning
- 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술 및 기법 - Deep Learning
- 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 기반하여 구축한 기계학습 기술중 하나
데이터의 유형 ★ ★
- 정형 데이터
- 형태 존재, 연산 가능, RDBMS에 저장. (RDBMS, CSV, spread sheet등) - 반정형 데이터
- 형태 존재, 연산 불가능, 파일로 저장 (XML, HTML, JSON, 웹로그, 센서 데이터 등) - 비정형 데이터
- 형태 없음, 연산 불가능, NoSQL에 저장 (소셜데이터, 영상, 이미지, 음성, 텍스트 등)
ex) 데이터 저장방식에는 RDB, NoSQL, 분산 파일 시스템 저장방식이 있다. 다음중 NoSQL 관련이 없는 도구는?
=> MongoDB, Hbase, Redis, mySQL(X)
'📖 Certificate > ADsP' 카테고리의 다른 글
[ADsP] 3-1 R 기초와 데이터 마트 (0) | 2024.02.01 |
---|---|
[ADsP] 2-2 분석 마스터 플랜 (0) | 2024.01.30 |
[ADsP] 2-1 데이터 분석 기획의 이해 (0) | 2024.01.30 |
[ADsP] 1-2 데이터의 가치와 미래 (1) | 2024.01.29 |
[ADsP] 1-1 데이터의 이해 요약정리 (1) | 2024.01.29 |