'데이터전처리' 태그의 글 목록

EDA : Exploratory Data Analysis - Part3 : 속성간 관계 분석 및 EDA 3줄 요약

EDA의 목적은 서로 의미 있는 상관관계를 갖는 속성의 조합을 찾아내는 것임. 사실상 본격적인 탐색적 분석이 시작되는 부분은 여기부터임. 분석의 대상이 되는 속성의 종류에 따라, 방법도 달라져야함. 1. 자료의 분류 1) 질적 변수(범주형 변수) (1) 명목형 자료 : 원칙적으로 숫자로 표시할 수 없으나, 편의상 수치화함. 단순히 분류만을 위해 부여한 수치이므로 수치에 의미는 없음.(남-0, 여-1) (2) 순서형 자료 : 원칙적으로 숫자로 표시할 수 없으나, 편의상 수치화함. 하지만 단순한 분류만을 위해 부여한 것이 아니라 순서를 매기기 위해 부여한 수치이므로 순서의 개념이 존재함.(소득분위 10분위 > 9분위 ...) 2) 양적 변수(숫자형 변수) (1) 연속형 변수 : 데이터가 연속량으로 셀 수 있..

머신러닝/모형과 이론 2019. 11. 15. 21:58

EDA : Exploratory Data Analysis - Part2 : 이상치

1. 이상치란? : 문자 그대로 표현하면 데이터가 통상적으로 갖고 있는 값과 큰 차이를 갖고 있는 값이야. 이상치가 단순히 통상적으로 발견할 수 있는 값과 큰 차이를 갖고 있는 것이 왜 문제일까? 그건 주어진 데이터를 통해 분석할 때 발견된 이상치로 인해 결과가 크게 뒤틀릴 수 있기 때문이야. 그럼 우리는 발견된 이상치를 어떻게 해결해야할까? 아래에 쓸 글은 이러한 이상치를 처리하는 방법에 대해서 다뤄보고자 해. 2. 이상치를 확인하면 해야할 일 이상치가 발생한 부분에서 해야하는 것은 1) 왜 이상치가 발생했는지 2) 발견된 이상치는 어떤 의미를 갖는지 이렇게 2 가지를 파악하고 어떻게 대처하는지(대체, 제거, 유지 등) 판단하는 것이 중요해. 이상치를 발견하는 기법은 여러가지가 있지만 대표적으로 아래에..

머신러닝/모형과 이론 2019. 11. 12. 23:00

EDA : Exploratory Data Analysis - Part1 : EDA란?

1. 정의 : 데이터를 수집했을때 이를 다양한 각도에서 관찰하고 이해하는 과정이야. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 보다 직관적으로 바라보는 과정이라 할 수 있어. 2. 필요한 이유 : 데이터의 분포 및 값을 검토하여 수집한 데이터가 어떤 것을 나타내는지를 더 잘 이해하고, 수집한 데이터에 대한 잠재적인 문제를 발견하여 본격적인 분석에 들어가기 전에 수집의사를 결정하고 판단할 수 있어. 3. 과정 : 기본적인 출발점은 문제 정의 단계에서 세웠던 연구 질문과 가설을 바탕으로 분석 계획을 세우는 것인데 해당 데이터에 대한 질문을 최대한 많이 만들어서 데이터를 표현하는 적절한 모형 등을 위한 데이터를 생성해야되. 분석 계획에는 어떤 속성 및 속성 간의 관계를 집중적으로 관찰해..

머신러닝/모형과 이론 2019. 11. 9. 21:19

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

이스노씨 머신러닝 스터디 하신다메요

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

김거북의 끄적끄적 메모장

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역