머신러닝 탐색적 데이터 분석 (EDA)란 - 728x90 정의 : 수집한 데이터를 다양한 각도에서 관찰하고 이해하려 노력하는 과정. 데어터를 분석하기 위해 그래프나 통계적인 방법을 활용하여 직관적으로 보는 과정이다. 과정 데이터를 전체적으로 살펴보기 : 문제가 있는지 확인 tail과 head 부분을 확인 (이상치, 결측치를 확인하는 과정) 데이터의 개별 속성값을 관찰 (각 속성값이 예측한 범위와 분포를 갖는지 확인하는 과정, 그렇지 않다면 원인/문제 파악) 속성간의 관계에 초점을 맞추고 관찰에서 찾아내지 못했던 패턴을 발견 (상관관계나 시각화 같은 것) EDA 아래의 두가지 질문을 확인하기 위한 것 변수에 내재된 변동성(variation) 유형은 어떻게 되는가? 변수들 간에 공변동(covariation)은 어떻게 되는 것인가? categorical variable(qualitative)범준 데이터 nominal data 숫자로 표현할 수 없으나, 편의상 숫자화를 내리는 개념(남자 - 0 / 여자 - 1) ordinal data 원칙적으로 숫자로 표시할 수 없으나, 편의상 숫자화 하는 순서가 있는 개념(소득분위와 같은) numeric variable(quantitative) continuous data 데이터가 연속량으로 셀 수 있는 형태예) 키 분포표 discrete data 데이터가 비연속량으로 셀 수 있는 형태자식의 수 같은 데이터 공유하기 URL 복사카카오톡 공유페이스북 공유엑스 공유 게시글 관리 구독하기아담한 프로그래밍 저작자표시 비영리 변경금지 Contents 당신이 좋아할만한 콘텐츠 머신러닝 기초 | 파이썬의 기초적인 데이터 타입 종류 2023.08.17 머신러닝 기초 | 파이썬 기초1 - 데이터와 변수 2023.08.17 [쉬운 설명]머신러닝 결정계수(R^2) 뜻, 증명 2021.09.18 [간단 설명]k-최근접 이웃 알고리즘, 선형 회귀 분석, 다항 회귀 분석이 전부 왜 필요할까? 2021.09.18 댓글 0 + 이전 댓글 더보기