EDA의 목적은 서로 의미 있는 상관관계를 갖는 속성의 조합을 찾아내는 것임. 사실상 본격적인 탐색적 분석이 시작되는 부분은 여기부터임. 분석의 대상이 되는 속성의 종류에 따라, 방법도 달라져야함. 1. 자료의 분류 1) 질적 변수(범주형 변수) (1) 명목형 자료 : 원칙적으로 숫자로 표시할 수 없으나, 편의상 수치화함. 단순히 분류만을 위해 부여한 수치이므로 수치에 의미는 없음.(남-0, 여-1) (2) 순서형 자료 : 원칙적으로 숫자로 표시할 수 없으나, 편의상 수치화함. 하지만 단순한 분류만을 위해 부여한 것이 아니라 순서를 매기기 위해 부여한 수치이므로 순서의 개념이 존재함.(소득분위 10분위 > 9분위 ...) 2) 양적 변수(숫자형 변수) (1) 연속형 변수 : 데이터가 연속량으로 셀 수 있..
1. 이상치란? : 문자 그대로 표현하면 데이터가 통상적으로 갖고 있는 값과 큰 차이를 갖고 있는 값이야. 이상치가 단순히 통상적으로 발견할 수 있는 값과 큰 차이를 갖고 있는 것이 왜 문제일까? 그건 주어진 데이터를 통해 분석할 때 발견된 이상치로 인해 결과가 크게 뒤틀릴 수 있기 때문이야. 그럼 우리는 발견된 이상치를 어떻게 해결해야할까? 아래에 쓸 글은 이러한 이상치를 처리하는 방법에 대해서 다뤄보고자 해. 2. 이상치를 확인하면 해야할 일 이상치가 발생한 부분에서 해야하는 것은 1) 왜 이상치가 발생했는지 2) 발견된 이상치는 어떤 의미를 갖는지 이렇게 2 가지를 파악하고 어떻게 대처하는지(대체, 제거, 유지 등) 판단하는 것이 중요해. 이상치를 발견하는 기법은 여러가지가 있지만 대표적으로 아래에..
1. 정의 : 데이터를 수집했을때 이를 다양한 각도에서 관찰하고 이해하는 과정이야. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 보다 직관적으로 바라보는 과정이라 할 수 있어. 2. 필요한 이유 : 데이터의 분포 및 값을 검토하여 수집한 데이터가 어떤 것을 나타내는지를 더 잘 이해하고, 수집한 데이터에 대한 잠재적인 문제를 발견하여 본격적인 분석에 들어가기 전에 수집의사를 결정하고 판단할 수 있어. 3. 과정 : 기본적인 출발점은 문제 정의 단계에서 세웠던 연구 질문과 가설을 바탕으로 분석 계획을 세우는 것인데 해당 데이터에 대한 질문을 최대한 많이 만들어서 데이터를 표현하는 적절한 모형 등을 위한 데이터를 생성해야되. 분석 계획에는 어떤 속성 및 속성 간의 관계를 집중적으로 관찰해..
- Total
- Today
- Yesterday
- 이상치처리
- 군집분석
- SVM
- 주성분분석
- 서포트벡터머신
- 데이터전처리
- CA
- PCA
- Partitioning Around Medoids
- 차원축소
- ML
- 머신러닝
- dimension reduce
- Clustering Analysis
- PAM
- java
- K-means clustering
- EDA
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |