데이터시각화·EDA

탐색적 데이터 분석(EDA, Exploratory Data Analysis)이란?

데이터요리사 2021. 1. 26. 23:00

안녕하세요. 데이터 요리사, 루나입니다.

 

“ 탐색적 데이터 분석은 우리가 존재한다고 믿는 것들을 물론이고, 

존재하지 않는다고 믿는 것들을 발견하려는 태도, 유연성, 그리고 자발성이다 ”

누군가 이런 말을 했다고 하는데, 출처를 못찾겠네요.

 

1 EDA란?

EDA, 탐색적 데이터 분석 과정은 데이터 분석을 할 때 필수적인 과정입니다. 데이터를 주물러서 모델을 만들어야하는데, 어떤 맛인지도 모르고 무작정 고! 할 수는 없는 노릇이자나요. EDA는 내가 가지고 있는 데이터가 무슨 맛인지 무엇인지 이해하는 과정이기에 매우 중요합니다.

캐글에서 EDA라고 검색해봄, 53,634개의 항목이 검색됨

 

 

 

2 데이터 시각화를 활용한 EDA

EDA를 할 때 대표적으로 사용하는 것이 다양한 차트입니다.

 

수 백만건 쌓여있는 데이터를 하나씩 살펴볼 수도 없고요, 본다고 하더라도 이해를 할 수가 없겠죠. 다양한 형태의 그래프를 그려보면서 어떤 경향성을 띄는 데이터인지 쉽게 이해할 수 있습니다. 

 

 

 

 

3 통계지표를 활용한 EDA

시각화 이외에 또 자주 살펴보는 것이 통계지표입니다. 파이썬을 사용해서 데이터를 분석할 때에 보통 pandas의 데이터프레임(Dataframe)이라는 구조를 사용하는데요. describe라는 함수를 사용하면 손쉽게 각 값의 통계수치를 확인해볼 수 있습니다.

df.describe()

 

EDA를 통해서 데이터를 이해하고, 데이터를 어떻게 가공해야하는지 방향성을 잡을 수 있기 때문에 다양한 방법으로 분석을 해보는 것이 중요합니다. 이 컬럼 저 컬럼을 묶어도 봤다가 풀어도 봤다가.. 다양한 관점에서 데이터를 바라볼 수 있는 사람이 데이터를 잘 주무르는 것 같아요. 

캐글이나 데이콘같은 데이터 경진대회에 보면 많은 실력자들이 EDA를 해놓은 코드를 공유해두었는데요, 틈틈이 그런 코드를 보면서 다른 사람들은 어떤 시선으로 데이터를 바라보는지 방향성을 확인해보는 것도 재밌습니다. 왜 나는 그런 생각을 못하는 것일까 허탈하기도 하고요.

조만간 쉽고 유명한(?) 데이터를 사용해서 EDA한 내용도 정리해보겠습니다!

 

 

 

 

함께 보면 좋은 글

 


※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.

 

728x90