정의 : 수집한 데이터를 다양한 각도에서 관찰하고 이해하려 노력하는 과정. 데어터를 분석하기 위해 그래프나 통계적인 방법을 활용하여 직관적으로 보는 과정이다.
과정
- 데이터를 전체적으로 살펴보기 : 문제가 있는지 확인
- tail과 head 부분을 확인 (이상치, 결측치를 확인하는 과정)
- 데이터의 개별 속성값을 관찰 (각 속성값이 예측한 범위와 분포를 갖는지 확인하는 과정, 그렇지 않다면 원인/문제 파악)
- 속성간의 관계에 초점을 맞추고 관찰에서 찾아내지 못했던 패턴을 발견 (상관관계나 시각화 같은 것)
EDA
아래의 두가지 질문을 확인하기 위한 것
- 변수에 내재된 변동성(variation) 유형은 어떻게 되는가?
- 변수들 간에 공변동(covariation)은 어떻게 되는 것인가?
categorical variable(qualitative) 범준 데이터 |
nominal data |
숫자로 표현할 수 없으나, 편의상 숫자화를 내리는 개념(남자 - 0 / 여자 - 1) |
ordinal data |
원칙적으로 숫자로 표시할 수 없으나, 편의상 숫자화 하는 순서가 있는 개념(소득분위와 같은) |
numeric variable(quantitative) |
continuous data |
데이터가 연속량으로 셀 수 있는 형태 예) 키 분포표 |
discrete data |
데이터가 비연속량으로 셀 수 있는 형태 자식의 수 같은 데이터 |