R
- R은 오픈소스 프로그램으로 통계, 데이터 마이닝을 위한 언어
- Window, Max, Linux에서 사용 가능
- 객체지향 언어이며, 함수형 언어.
R Studio
- 메모리에 변수가 어떻게 되어있는지와 타입이 무엇인지를 볼 수 있고, 스크립트 관리와 Documentation이 편리
- 스크립트용 프로그래밍으로 어렵지 않고 쉽게 자동화가 가능
데이터 마트
- 데이터 웨어하우스(DW)의ㅣ 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 한다.
- 데이터 마트 내 대부분의 데이터는 DW로부터 복제되지만, 자체적으로 수집될 수 있으며, 관계형DB등으로 구축한다
- 동일한 데이터셋을 활용할 경우, 최신 분석 기법등를 이용하면 분석가의 역량에서 분석 효과가 크게 차이난다.
- 데이터 마트를 어떻게 구축하느냐에 따라 분석 효과는 크게 차이가 난다.
요약변수
- 수집된 정보를 분석에 맞게 종합한 변수
- 많은 모델에서 공통적으로 사용
- 연속형 변수를 범주화 하여 사용
파생변수
- 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여
- 매우 주관적일 수 있다.
- 연속변수를 범주화 하여 사용
Data Exploration
- 데이터 분석을 위해 구성된 데이터의 상태를 파악한다. head(), summary()
변수 중요도
- 모형을 생성하여 사용된 변수의 중요도를 살피는 과정
변수의 구간화
- 신용평가모형, 고객 세분화 등 시스템으로 모형을 적용하기 위해 각 변수들을 구간화 해서 구간별로 적용
- 연속형 변수를 범주형 변수로 변형하는 방식.
기초 분석 및 데이터 관리
- EDA(Exploratory Data Analysis)
- 데이터 분석에 앞서 전체적으로 데이터의 특징을 파악하고 데이터를 다양한 각도로 접근
결측값 (Missing value)
- 결측값 자체는 의미있는 경우도 있다
- 결측값이나 이상값을 꼭 제거해야하는 것은 아니기 때문에 분석의 목적이나 종류에 따라 적절한 판단이 필요
결측값 처리 방법 (Imputation)
- 단순 대치법 (Simple Imputation)
- Completes analysis : 결측값이 존재하는 레코드를 삭제한다
- Mean imputation : 관측 또는 실험을 통해 얻어진 데이터의 평균으로 대치한다. - 다중 대치법 (Mutiple imputation)
- 단순 대치법을 한 번 적용하지 않고, n번의 대치를 통해 m개의 가상적 완전자료를 생성
ex)
- 비조건부 평균 대치법 : 관측 데이터의 평균.
- 조건부 평균 대치법 : 회귀분석을 활용
R에서의 결측값 처리
- 랜덤 포레스트는 결측값이 존재할 경우, 에러발생한다.
- complete.case() : 데이터 내 레코드에 결측값이 있으면 False, 없으면 True 반환
- is.na() : 결측값이 NA인지 여부 반환
- DMwR::centralImputation() : NA 값에 가운데 값으로 대치.
- DMwR::KnnInputation() : NA 값을 knn 알고리즘을 사용하여 대치
이상값 (Outier)
- 의도하지 않게 잘못 입력한 경우
- 의도하지 않게 입력되었으나, 분석 목적에 부합되지 않아 제거해야하는 경우
- 의도하지 않은 현상이지만 분석에 포함해야하는 경우
- 의도된 불량인 경우
이상값 탐지 (Detection)
- ESD (Extreme Studentized Deviation) : 평균으로부터 3 표준편차 떨어진 값
- (기하평균 - 2.5 * 표준편차 < data < 기하평균 + 2.5 * 표준편차)의 범위를 벗어난 값
- (-1.5 * IQR(Q3-Q1) < data < 1.5*IQR)의 범위를 벗어나는 값
극한값 절단 (Trimming)
- 기하평균을 이용한 제거
- 상,하위 5%에 해당되는 데이터 제거
극단값 조정 (Winsorizing)
- 상한값과 하한값을 벗어나는 값들을 상한, 하한값으로 바꾸어 활용하는 방법
'📖 Certificate > ADsP' 카테고리의 다른 글
[ADsP] 2-2 분석 마스터 플랜 (0) | 2024.01.30 |
---|---|
[ADsP] 2-1 데이터 분석 기획의 이해 (0) | 2024.01.30 |
[ADsP] 1-3 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2024.01.29 |
[ADsP] 1-2 데이터의 가치와 미래 (1) | 2024.01.29 |
[ADsP] 1-1 데이터의 이해 요약정리 (1) | 2024.01.29 |