분석
-
정의 : 수집한 데이터를 다양한 각도에서 관찰하고 이해하려 노력하는 과정. 데어터를 분석하기 위해 그래프나 통계적인 방법을 활용하여 직관적으로 보는 과정이다. 과정 데이터를 전체적으로 살펴보기 : 문제가 있는지 확인 tail과 head 부분을 확인 (이상치, 결측치를 확인하는 과정) 데이터의 개별 속성값을 관찰 (각 속성값이 예측한 범위와 분포를 갖는지 확인하는 과정, 그렇지 않다면 원인/문제 파악) 속성간의 관계에 초점을 맞추고 관찰에서 찾아내지 못했던 패턴을 발견 (상관관계나 시각화 같은 것) EDA 아래의 두가지 질문을 확인하기 위한 것 변수에 내재된 변동성(variation) 유형은 어떻게 되는가? 변수들 간에 공변동(covariation)은 어떻게 되는 것인가? categorical variab..
탐색적 데이터 분석 (EDA)란정의 : 수집한 데이터를 다양한 각도에서 관찰하고 이해하려 노력하는 과정. 데어터를 분석하기 위해 그래프나 통계적인 방법을 활용하여 직관적으로 보는 과정이다. 과정 데이터를 전체적으로 살펴보기 : 문제가 있는지 확인 tail과 head 부분을 확인 (이상치, 결측치를 확인하는 과정) 데이터의 개별 속성값을 관찰 (각 속성값이 예측한 범위와 분포를 갖는지 확인하는 과정, 그렇지 않다면 원인/문제 파악) 속성간의 관계에 초점을 맞추고 관찰에서 찾아내지 못했던 패턴을 발견 (상관관계나 시각화 같은 것) EDA 아래의 두가지 질문을 확인하기 위한 것 변수에 내재된 변동성(variation) 유형은 어떻게 되는가? 변수들 간에 공변동(covariation)은 어떻게 되는 것인가? categorical variab..
2021.09.27 -
1. 최근접 이웃 알고리즘이 필요한 이유 일단 선형 회귀 분석이 왜 필요한지 이해해야 한다. 머신 러닝을 공부하는 사람이라면 K-최근접 알고리즘을 사용하여 테스트 데이터의 타깃 값을 알아내는 걸 첫 번째로 공부했을 것이다. 하지만, k최근접 알고리즘의 한계는 바로, 트레인 데이터 범위 밖의 테스트 데이터의 값의 타깃 값을 알아낼 수 없다는 것이다. 예를 들자면, 개미의 길이 별 무게 데이터를 가지고, 새로운 개미의 무게를 측정하는 프로젝트가 있다고 하자. 우리가 가지고 있는 교육 데이터는 다음과 같다. 길이 무게 1cm 1g 2cm 2g 3cm 3g 만약 k최근접 알고리즘을 사용하여 주변의 3개의 데이터 값을 참고하여 길이 4cm인 개미의 무게를 측정한다고 해보자. k최근접 알고리즘의 예측값은 가장 근접..
[간단 설명]k-최근접 이웃 알고리즘, 선형 회귀 분석, 다항 회귀 분석이 전부 왜 필요할까?1. 최근접 이웃 알고리즘이 필요한 이유 일단 선형 회귀 분석이 왜 필요한지 이해해야 한다. 머신 러닝을 공부하는 사람이라면 K-최근접 알고리즘을 사용하여 테스트 데이터의 타깃 값을 알아내는 걸 첫 번째로 공부했을 것이다. 하지만, k최근접 알고리즘의 한계는 바로, 트레인 데이터 범위 밖의 테스트 데이터의 값의 타깃 값을 알아낼 수 없다는 것이다. 예를 들자면, 개미의 길이 별 무게 데이터를 가지고, 새로운 개미의 무게를 측정하는 프로젝트가 있다고 하자. 우리가 가지고 있는 교육 데이터는 다음과 같다. 길이 무게 1cm 1g 2cm 2g 3cm 3g 만약 k최근접 알고리즘을 사용하여 주변의 3개의 데이터 값을 참고하여 길이 4cm인 개미의 무게를 측정한다고 해보자. k최근접 알고리즘의 예측값은 가장 근접..
2021.09.18