EDA의 목적은 서로 의미 있는 상관관계를 갖는 속성의 조합을 찾아내는 것임.
사실상 본격적인 탐색적 분석이 시작되는 부분은 여기부터임.
분석의 대상이 되는 속성의 종류에 따라, 방법도 달라져야함.
1. 자료의 분류
1) 질적 변수(범주형 변수)
(1) 명목형 자료 : 원칙적으로 숫자로 표시할 수 없으나, 편의상 수치화함. 단순히 분류만을 위해 부여한 수치이므로 수치에 의미는 없음.(남-0, 여-1)
(2) 순서형 자료 : 원칙적으로 숫자로 표시할 수 없으나, 편의상 수치화함. 하지만 단순한 분류만을 위해 부여한 것이 아니라 순서를 매기기 위해 부여한 수치이므로 순서의 개념이 존재함.(소득분위 10분위 > 9분위 ...)
2) 양적 변수(숫자형 변수)
(1) 연속형 변수 : 데이터가 연속량으로 셀 수 있는 형태.(키 - 171.0cm)
(2) 이산형 변수 : 데이터가 비연속량으로서 셀 수 있는 형태.(사과 5개)
2. 자료의 조합에 따른 요약통계 및 시각화
(1) 범주형(y) - 범주형(x) : 교차테이블을 통해 요약통계를 내며, 모자이크 플롯을 이용해 각 속성값의 쌍에 해당하는 값의 개수를 표시
(2) 숫자형(y) - 범주형(x) : 각 카테고리별 통계값(평균, 중앙값 등)을 관찰할 수 있으며, 박스플롯을 통해서 이를 시각화함
(3) 숫자형(y) - 숫자형(x) : 상관계수를 통해서 두 속성 간의 선형 연관성을 나타낼 수 있으며, 산점도를 통해서 이를 시각화함.
분석시에 2개 이상의 속성 간의 관계를 보고 싶다면 3차원으로 그래프를 표현하거나, 그래프에 표현된 점을 색상을 이용하거나 모양을 달리하여 더 많은 속성을 표기할 수 있음.
#요약
1. EDA는 데이터 분석을 위한 전처리 과정.
2. 데이터를 재구성하면서, 어떤 방법으로 분석할지 알아보는 과정.
3. EDA를 통해서 데이터 분석을 시작하게 되며, 이를 거쳐서 통계적 가설이나 모형을 설정함.