SVM은 원래의 훈련(or 학습) 데이터를 비선형 매핑을 통해 고차원으로 변환하며, 이 새로운 차원에서 초평면(Hyperplane)을 최적으로 분리하는 선형분리를 찾음으로써 최적의 의사결정영역(Decision Boundary)을 찾아. 데이터의 차원을 높이는 이유는 비선형 분리가 되어 있는 두 클래스를 차원을 높여서 적절한 비선형 매칭을 이용해 초평면으로 분리하기 위해서야. 또한 SVM은 복잡한 비선형 의사결정 영역을 모형화할 수 있기 때문에 매우 정확하며, 다른 모델들보다 과적합이 되는 경향이 적어. SVM에서 중요한 요소는 마진(margin), 서포트 벡터(support vector), 커널(kernel)이 있어. 아래에서는 마진과 서포트 벡터, 커널을 언급하려고 해. 1. 마진 마진은 하나의 데이터..
여러 데이터들이 모여 하나의 분포를 이룰 때, 이 분포의 주성분을 분석해주는 방법을 주성분 분석이라고해 1. 차원 축소(Dimension Reduction) 가공되지 않은 데이터를 처리해야 하는 경우에 필요하지 않다고 판단되는 변수를 제거하여 가공해야할 부분을 줄이는 과정을 차원 축소라고해. 차원 축소의 방법으로는 요인분석(FA), 독립성분분석(ICA), 다차원 척도법(MD5), 비선형 차원 축소법 등이 있어 2. 특징 선택(Feature Selection)과 특징 추출(Feature Extraction) 차원 축소는 주어진 데이터 x∈Rd×1를, z∈Rp×1 축소하는 것을 말하며, 데이터의 차원을 축소하기 위한 방법으로는 크게 특징 선택과 특징 추출이 있어. 1) 특징 선택 d 차원의 데이터 x를 구성..
EDA의 목적은 서로 의미 있는 상관관계를 갖는 속성의 조합을 찾아내는 것임. 사실상 본격적인 탐색적 분석이 시작되는 부분은 여기부터임. 분석의 대상이 되는 속성의 종류에 따라, 방법도 달라져야함. 1. 자료의 분류 1) 질적 변수(범주형 변수) (1) 명목형 자료 : 원칙적으로 숫자로 표시할 수 없으나, 편의상 수치화함. 단순히 분류만을 위해 부여한 수치이므로 수치에 의미는 없음.(남-0, 여-1) (2) 순서형 자료 : 원칙적으로 숫자로 표시할 수 없으나, 편의상 수치화함. 하지만 단순한 분류만을 위해 부여한 것이 아니라 순서를 매기기 위해 부여한 수치이므로 순서의 개념이 존재함.(소득분위 10분위 > 9분위 ...) 2) 양적 변수(숫자형 변수) (1) 연속형 변수 : 데이터가 연속량으로 셀 수 있..
1. 이상치란? : 문자 그대로 표현하면 데이터가 통상적으로 갖고 있는 값과 큰 차이를 갖고 있는 값이야. 이상치가 단순히 통상적으로 발견할 수 있는 값과 큰 차이를 갖고 있는 것이 왜 문제일까? 그건 주어진 데이터를 통해 분석할 때 발견된 이상치로 인해 결과가 크게 뒤틀릴 수 있기 때문이야. 그럼 우리는 발견된 이상치를 어떻게 해결해야할까? 아래에 쓸 글은 이러한 이상치를 처리하는 방법에 대해서 다뤄보고자 해. 2. 이상치를 확인하면 해야할 일 이상치가 발생한 부분에서 해야하는 것은 1) 왜 이상치가 발생했는지 2) 발견된 이상치는 어떤 의미를 갖는지 이렇게 2 가지를 파악하고 어떻게 대처하는지(대체, 제거, 유지 등) 판단하는 것이 중요해. 이상치를 발견하는 기법은 여러가지가 있지만 대표적으로 아래에..
1. 정의 : 데이터를 수집했을때 이를 다양한 각도에서 관찰하고 이해하는 과정이야. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 보다 직관적으로 바라보는 과정이라 할 수 있어. 2. 필요한 이유 : 데이터의 분포 및 값을 검토하여 수집한 데이터가 어떤 것을 나타내는지를 더 잘 이해하고, 수집한 데이터에 대한 잠재적인 문제를 발견하여 본격적인 분석에 들어가기 전에 수집의사를 결정하고 판단할 수 있어. 3. 과정 : 기본적인 출발점은 문제 정의 단계에서 세웠던 연구 질문과 가설을 바탕으로 분석 계획을 세우는 것인데 해당 데이터에 대한 질문을 최대한 많이 만들어서 데이터를 표현하는 적절한 모형 등을 위한 데이터를 생성해야되. 분석 계획에는 어떤 속성 및 속성 간의 관계를 집중적으로 관찰해..
- Total
- Today
- Yesterday
- EDA
- java
- ML
- 머신러닝
- 이상치처리
- 주성분분석
- PAM
- dimension reduce
- PCA
- 차원축소
- Partitioning Around Medoids
- SVM
- 군집분석
- CA
- 서포트벡터머신
- 데이터전처리
- K-means clustering
- Clustering Analysis
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |