📖 Certificate/ADsP
[ADsP] 1-2 데이터의 가치와 미래
스쳐가는비
2024. 1. 29. 13:37
빅데이터의 3V ★
- 양 (Volume)
- 데이터의 규모 - 다양성 (Variety)
- 데이터의 유형과 소스 - 속도 (Velocity)
- 데이터의 수집과 처리
- 추가적으로 가치 (Value), 시각화 (Visualization), 정확성 (Veracity) 등이 있다.
빅데이터 정의의 범주 및 효과 ★
- 데이터 변화
- 규모, 형태, 속도 - 기술 변화
- 데이터 처리-저장-분석 기술 및 아키텍쳐, 클라우드 컴퓨팅 활용 - 인재, 조직변화
- Data Scientist 같은 새로운 인재 필요, 데이터 중심 조직
ex)
- 빅데이터의 출현 배경으로는 산업계에서 일어나 변화를 보면 빅데이터의 현상은 양질 전환 법칙으로 설명할 수 있다.
- 빅데이터의 출현 배경으로는 학계에서도 빅데이터를 다루는 현상들이 늘어나고 있다. ex) 인간 게놈프로젝트
- 빅데이터의 출현 배경으로는 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅등 관련 기술의 발전과 관련이 있다.
- 빅데이터의 출현 배경으로는 급격한 데이터 구조의 정형화 증가가 원인이 되었다. (X)
- 빅데이터의 출현 배경으로는 공공정보 개방이 있다. (X)
빅데이터에 거는 기대의 비유적 표현
- 산업혁명의 석탄과 철
- 혁명적 변화 - 21세기의 원유
- 생산성의 향상, 새로운 범주의 산업 - 렌즈
- 산업 발전에 영향 - 플랫폼
- 공동 활용의 목적으로 구축된 유무형의 구조물
ex) 페이스북은 SNS 서비스로 시작했지만, 2006년 F8 행사를 기점으로 자신들의 소셜 그래프 자산을 외부 개발자들에게 공개하고 서드파티 개발자들이 앱을 만들기 시작했다. 각종 사용자 데이터나 M2M 센서등에서 수집한 데이터를 가공, 처리, 저장해두고, 이 데이터에 접근할 수 있도록 API를 공개하였다. (플랫폼)
빅데이터가 만들어내는 변화 ★ ★
- 사전처리 -> 사후처리
- 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄. - 표본조사 -> 전수조사
- 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터를 활용 - 질 -> 양
- 양질의 정보가 전체적으로 좋은 결과 산출에 긍정적인 영향 - 인과관계 -> 상관관계
- 특정 현상의 발생 가능성 포착
ex)
- 데이터 분석의 발달로 표본조사로서 새로운 가치나 지식을 발견하게 되었다. [(X) 전수조사로 새로운 가치나 지식을 발견]
- 데이터의 질보다 양을 강조한다.
- 비즈니스 상황에서 인과관계를 모르고 상관관계 분석만으로 충분한 경우가 많다.
- 사전처리에서 사후처리 시대로 변화하였고, 사전처리의 대표적인 예로는 표준화된 문서 포맷을 들 수 있다.
- 다음 중 빅데이터가 만드는 본질적인 변화에 관한 설명중 적잘하지 않은것은?
(단답) 신속한 의사결정을 원하는 비즈니스에서는 실시간 (①) 분석에서 도출된 인사이트를 바탕으로 수익을 창출할 수 있는 기회가 점점 늘어나고 있다. 이렇게 (①)를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어날 것이다. 데이터 기반의 (①) 분석이 주는 인사이트가 (①)에 의해 미래 예측을 점점 더 압도해 가는 시대가 도래하고 있다. (상관관계)
데이터웨어하우스의 4가지 특성 ★
- 기업내 의사결정 애플리케이션에 정보 기반을 제공하는 하나의 통합된 데이터 저장공간
- 주제 지향성
- 데이터 통합
- 데이터의 시계열성
- 데이터의 비휘발성
ex)
- ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터웨어하우스에 정보를 적재한다.
- 데이터웨어하우스에서 관리하는 데이터들은 시간적 흐름에 따라 변화하는 값을 유지한다.
- 데이터웨어하우스는 전사적 차원에서 접근하기보다는 재무, 생산, 운영과 같이 특정 조직의 특정 업무분야에 초점을 두고있다. (X)
빅데이터 가치 산정이 어려운이유
- 데이터 활용 방식
- 특정 데이터를 언제-어디서-누가 활용하는지 알 수 없음, 가치 선정이 어려움 - 새로운 가치 창출
- 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려움 - 분석기술 발전
- 가치가 없는 데이터 일지라도 새로운 분석 기법이 등장한다면 거대한 가치를 지닐 수 있음.
빅데이터 활용 기본 테크닉 ★ ★
- 정형 데이터 활용
- 연관 규칙 학습
ㄴ 상관관계의 발견
- 유형 분석
ㄴ 분류
- 유전자 알고리즘
ㄴ 최적화가 필요한 문제의 해결책을 점진적으로 진화
- 기계학습
ㄴ 훈련 데이터로 학습한 알려진 특성을 활용해 예측
- 회귀분석
ㄴ 독립변수의 조작에 따른 종속변수의 변화를 보면서 주변의 관계를 파악 - 비정형 데이터 활용
- 감정분석
ㄴ 감정을 분석
- 소셜 네트워크 분석 (사회관계망 분석)
ㄴ 영향력 있는 사람을 찾아냄
ex)
- 구글 - 사용자의 로그데이터를 활용하면서 기본의 페이지랭크 알고리즘을 혁신하며 검색 결과를 개선함.
- 월마트 - 고객의 구매 패턴을 분석해 상품 진열에 활용한다.
- 페이스북 - 실시간 번역 서비스를 제공한다. (X)
- 아마존 - e북 독자의 데이터 기록을 분석하여 저자에게 제공한다.
- [우유 구매자가 기저귀도 같이 구매하는가? 또는 기저귀 구매자가 맥주도 같이 구매하는가?]를 알아본다. (연관 규칙 학습)
- [커피 -> 탄산수]의 빅데이터 분석기법은 ? (연관규칙)
- 감정 분석의 설명이 부적절한 것은? (사회적 관계를 알고자 할 때), 이것은 소셜 네트워크 분석
- 유형분석 : 택배차량을 어떻게 배치하는 것이 비용에 효율적인가? (X)
- 유전 알고리즘 : 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
- 연관분석 : 시스템 로그 데이터를 분석해 침입자나 유해 행위자를 색출할 수 있는가?
- 회귀분석 : 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법. 이 기법은 최개 시청율을 얻으려면, 어떤프로그램을 어떤 시간대에 방송해야 하는가? 와 같은 문제를 해결할 때 사용된다. (유전 알고리즘)
빅데이서 시대의 위기 요인 ★
- 사생활 침해
- 여행 사실을 트윗한 사람의 집을 강도가 노림 - 책임 원칙 훼손
- 범행을 저지르기 전에 체포 - 데이터 오용
- 과장된 데이터
ex)
- 범죄 예측 프로그램을 통해 범죄 전 체포 (책임 훼손)
- 데이터의 본래 목적 외에 가공 처리되어 사생활이 침해되는 경우 (사생활 침해)
- 잘못된 자료를 사용하는 경우 (데이터 오용)
- 미국 NSA가 매일 17억 개의 이메일, 전화통화 내역 수집 저장의 경우 (사생활 침해)
위기 요인에 따른 통제 방안
- 사생활 침해
- 동의에서 책임으로 - 책임 원칙 훼손
- 결과 기반 책임 원칙 고수 - 데이터 오용
- 알고리즘 접근 허용 (예측 알고리즘의 부당함을 반증 할 수 있는 방법 - 알고리즈미스트)
ex)
- 사생활 침해 -> 동의제를 책임제로 전환
- 책임 훼손의 원칙 -> 알고리즘 허용 [(X) 데이터 오용일 경우 알고리즘 허용]
- 데이터의 오용 -> 결과 기반 책임 원칙 [(X) 책임 원칙 훼손일 경우]
- 사생활 침해의 위기요인은 책임원칙 강화뿐이다. (X)
- 민주주의 사회의 책임원칙에 따라 빅데이터 예측으로 인한 통제를 강화해야한다 (X)
- 책임 원칙의 훼손으로 인해 익명화의 기술이 발전되었다. (X)
빅데이터 활용의 3요소 ★ ★ ★
- 데이터
- 모든 것이 데이터화 - 기술
- 진화하는 알고리즘, 인공지능 - 인력
- 데이터 사이언티스트, 알고리즈미스트
ex) 빅데이터 활용에 필요한 3요소가 무엇인가? (데이터, 기술, 인력)