티스토리 뷰

머신러닝/모형과 이론

EDA : Exploratory Data Analysis - Part2 : 이상치

김수한무거북이WA!두루미 2019. 11. 12. 23:00

1. 이상치란?

: 문자 그대로 표현하면 데이터가 통상적으로 갖고 있는 값과 큰 차이를 갖고 있는 값이야.

이상치가 단순히 통상적으로 발견할 수 있는 값과 큰 차이를 갖고 있는 것이 왜 문제일까?

그건 주어진 데이터를 통해 분석할 때 발견된 이상치로 인해 결과가 크게 뒤틀릴 수 있기 때문이야.

그럼 우리는 발견된 이상치를 어떻게 해결해야할까?

아래에 쓸 글은 이러한 이상치를 처리하는 방법에 대해서 다뤄보고자 해.

 

 

 

2. 이상치를 확인하면 해야할 일

이상치가 발생한 부분에서 해야하는 것은

 

1) 왜 이상치가 발생했는지

2) 발견된 이상치는 어떤 의미를 갖는지

 

이렇게 2 가지를 파악하고 어떻게 대처하는지(대체, 제거, 유지 등) 판단하는 것이 중요해.

이상치를 발견하는 기법은 여러가지가 있지만 대표적으로 아래에서 방법을 서술하려고해

 

 

 

3. 이상치 발견 방법

이상치를 발견하는 방법은 여러가지가 있는데

지금 이 글에서 다루고자 하는 방법은 4가지에 따로 더 찾아서 얹어볼 예정이야.

 

1) 개별 데이터 관찰

우선 개별 데이터를 눈으로 쭉 훑어 보면서 전체적인 추세와 특이사항을 관찰할 수 있어.

데이터가 많다고 앞부분이나 뒷부분만 보면 안되.

그래서 표본을 무작위로 추출해서 관찰해야해.

단, 이상값은 작은 크기의 표본엔 나타나지 않을 수 있기 때문에 적당한 크기의 표본이어야해.

 

2) 통계값 활용

적절한 요약 통계 지표(Summary Statistics)를 사용할 수 있는데

데이터의 중심을 알고자 한다면 데이터의 평균값, 중앙값, 최빈값을 이용할 수 있어

데이터가 퍼진 정도(산포)를 알고자 한다면 범위, 분산, 사분위범위를 사용할 수 있어.

단, 통계 지표를 이용할 때는 데이터의 특성에 주의해야할 필요가 있는데

그건 평균에는 집합 내의 모든 데이터 값이 반영되기 때문에 이상치가 있으면 값에 영향을 받지만,

중앙값은 가운데 위치한 값 하나가 사용되기 때문에 이상치가 있어도 데이터를 잘 표현할 수 있어.

예시를 들면 회사 직원들의 연봉에 대해서 평균을 구하면, 대개 중앙값보다 훨씬 높게 나오는데

고액연봉자가 평균을 올리기 때문에 직원들의 평균 연봉이 회사에서 주는 급여를 대표할 수 있다고 보긴 힘들어.

 

3) 시각화 활용

시각적으로 표현이 되어있는 것을 보면, 분석에 많은 도움이 될거야.

시각화를 통해 주어진 데이터의 개별 속성에 어떤 통계 지표가 적절한지 보다 결정하기가 쉬워

시각화 방법에는 확률밀도함수(PMF), 히스토그램, 산점도, 워드클라우드, 시계열차트, 지도 등이 있어.

 

4) 머신러닝 기법의 활용

대표적인 머신러닝 기법으로는 K-means 군집분석 등을 통해서 이상치를 확인할 수 있어.

K-means 군집분석이란?

k-means clustering이라고도 불리며 데이터를 입력받아 이를 소수의 그룹으로 묶는 알고리즘이야.
이 알고리즘은 label이 없는 데이터를 입력받아 각 데이터에 label을 할당함으로써 군집화를 수행해.
k-means clustering은 개념과 구현이 매우 간단한 기본적인 clustering 알고리즘이면서도 실행 속도가 빠르고, 

특정한 형태의 데이터에 대해서는 매우 좋은 성능을 보여주기에 많이 이용되고 있어.
N개의 데이터에 대하여 데이터가 속한 cluster의 중심과 데이터 간의 거리의 차이가 최소가 되도록

데이터들을 K개의 cluster로 할당해.
기본적으로 cluster의 갯수인 k는 사람이 직접 설정해야해.

 

5) 다른 이상치의 발견 기법

통계적 기반의 발견 방법으로는 분포 기반으로 확인할 수 있고,

편차 기반의 방법으로는 OLAP data cube라는 다차원 배열로 확인할 수 있다.

다른 방법도 있지만 추후에 공부해서 다시 작성을 할 예정이다.

 

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함