새소식

머신러닝

탐색적 데이터 분석 (EDA)란

  • -

 

정의 : 수집한 데이터를 다양한 각도에서 관찰하고 이해하려 노력하는 과정. 데어터를 분석하기 위해 그래프나 통계적인 방법을 활용하여 직관적으로 보는 과정이다.

과정 

  • 데이터를 전체적으로 살펴보기 : 문제가 있는지 확인
  • tail과 head 부분을 확인 (이상치, 결측치를 확인하는 과정)
  • 데이터의 개별 속성값을 관찰 (각 속성값이 예측한 범위와 분포를 갖는지 확인하는 과정, 그렇지 않다면 원인/문제 파악)
  • 속성간의 관계에 초점을 맞추고 관찰에서 찾아내지 못했던 패턴을 발견 (상관관계나 시각화 같은 것)

 

EDA

아래의 두가지 질문을 확인하기 위한 것

  1. 변수에 내재된 변동성(variation) 유형은 어떻게 되는가?
  2. 변수들 간에 공변동(covariation)은 어떻게 되는 것인가?

 

categorical variable(qualitative)
범준 데이터
nominal data 숫자로 표현할 수 없으나, 편의상 숫자화를 내리는 개념(남자 - 0 / 여자 - 1)
ordinal data 원칙적으로 숫자로 표시할 수 없으나, 편의상 숫자화 하는 순서가 있는 개념(소득분위와 같은)
numeric variable(quantitative) continuous data 데이터가 연속량으로 셀 수 있는 형태
예) 키 분포표
discrete data 데이터가 비연속량으로 셀 수 있는 형태
자식의 수 같은 데이터

 

 

 

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.