데이터시각화·EDA 11

[예제로 개념잡기] 막대 그래프 (바 플롯, 바차트, Bar plot, Bar chart)

안녕하세요. 데이터 요리사, 루나 입니다. 분절형 데이터의 차이를 쉽게 파악하는데 도움을 주는 '막대 그래프(Bar plot)'에 대해서 살펴보겠습니다. 1 개념 잡기 수치를 길이로 표현해 절대값을 갖는 막대를 배치 분절형 시간 시각화: 시간에 따른 트렌드와 경향성을 확인 점 : 하나의 점은 X-Y축 좌표의 위치로 표시 가로 축: 시간 순서대로 정렬된 시간의 특정 시점, 범주 세로 축: 그래프의 크기, 범위 2 막대 그래프에 꽂힌 건 무엇인가요? 막대그래프는 일상생활에서 자주 접할 수 있는 그래프라 친근한 느낌이 드는데요, 그렇다고 쉽게 그릴 수 있는 것은 아닙니다. 아래 예제는 어떤 항공사(NK)의 월별 항공편 지연 사례를 막대 그래프로 시각화한 사례입니다. 막대그래프를 그리기위해서 가장 좋은 데이터의..

[예제로 개념잡기] 히트맵(Heatmap)

안녕하세요. 데이터 요리사, 루나 입니다. 이번 시간에는 여러 속성의 분포를 한 눈에 파악하는데 도움을 주는 '히트맵(Heatmap)'에 대해서 살펴보겠습니다. 1 개념 잡기 한 칸의 색상으로 데이터 값을 표현하여 여러가지 변수를 비교 가능한 그래프 하나의 대상에 해당하는 한 행을 왼쪽→오른쪽으로 보면서 모든 변수를 파악 가능 변수에 대응하는 한 열을 위→아래로 읽을 수 있음 2 예제로 이해하기! 모든 데이터를 한번에 훑어본 다음 흥미로운 점을 짚고 다른 점을 찾아가는 방향을 제시해줄 수 있음 여러 변수의 비교가 가능 3 정리하며 마무리 히트맵 생성 시, 유의사항 데이터가 지나치게 많을 경우 혼란스러울 수 있음 →색상이 아닌 크기를 활용하는 방법도 존재함 함께 보면 좋은 글 선 그래프 (Line plot..

[예제로 개념잡기] 산점도(Scatter plot)

안녕하세요. 데이터 요리사, 루나 입니다. 이번 시간에는 월별, 일별, 시간별 흐름에 따라 발생하는 데이터의 흐름을 쉽게 파악하는데 도움을 주는 '산점도(Scatter plot)'에 대해서 살펴보겠습니다. 1 개념 잡기 변수(인자)간의 상관 관계를 시각적으로 보여주는 시각화 기법 가로축과 세로축의 변수값에 대응하는 점을 좌표에 배치하여 상관관계를 확인 점들이 오른쪽 위로 상승 추세 → 양의 상관관계 점이 오른쪽 아래로 하강 추세 → 음의 상관관계 점의 배치에 패턴이 보이지 않음 → 상관관계 없음 2 예제로 이해하기! 1) 산점도에 회귀선을 추가 데이터 간의 상관관계를 알면 한 수치의 변화를 통해 다른 수치의 변화를 예측할 수 있음 데이터가 얼마나 분포됐는지 또는 데이터 포인트들 간의 관련 여부 이해에 도..

[예제로 개념잡기] 히스토그램

안녕하세요. 데이터 요리사, 루나 입니다. 이번 시간에는 데이터의 분포를 쉽게 파악하는데 도움을 주는 '히스토그램'에 대해서 살펴보겠습니다. 1 개념 잡기 가로축에 계급의 크기를, 세로축에 도수(개수, 빈도수)를 연속하는 직사각형 형태로 그린 그래프 정규분포의 히스토그램: 평균값을 중심으로 양 옆으로 점진적인 감소 모양을 보이는 종 곡선 가로축과 세로축은 연속적임 도수의 크기는 세로의 길이 계급의 크기(bins) KDE plot 2 예제로 이해하기! 여러 Feature의 데이터 분포를 한 눈에 확인 3 정리하며 마무리 왼쪽으로 치우친 모양: 데이터가 전체 범위에서 수치가 낮은 쪽에 몰려있음 오른쪽에 치우친 모양: 높은 쪽에 몰려있음 수평선 형태: 균일한 분포를 의미 분포의 형태 왜도(skew): 분포가 ..

[예제로 개념잡기] 선 그래프 (라인플롯, 라인차트, Line graph, Line plot)

안녕하세요. 데이터 요리사, 루나입니다. 이번 시간에는 월별, 일별, 시간별 흐름에 따라 발생하는 데이터의 흐름을 쉽게 파악하는데 도움을 주는 '선 그래프(Line Graph, Line Plot)'에 대해서 살펴보겠습니다. 1 개념 잡기 데이터가 끊임없이 변화하는 추이를 선으로 표현하여, 연속적인 데이터 변화를 확인하는데 용이 변수의 변화, 트렌드, 변화율 정보가 중요한 경우 사용 점 : 하나의 점은 X-Y축 좌표의 위치로 표시 선분 : 점를 연결하는 선으로 점 간의 변화 추이를 보여줌 2 예제로 이해하기! 첫번째로 살펴볼 데이터는 2017년~2018년 인기 음원 5곡이 얼마나 많이 스트리밍 되었는지 스트리밍 수를 나타낸 데이터입니다. NaN이라고 표시된 부분은 데이터가 비어있다는 것을 의미합니다. 아마..

탐색적 데이터 분석(EDA, Exploratory Data Analysis)이란?

안녕하세요. 데이터 요리사, 루나입니다. “ 탐색적 데이터 분석은 우리가 존재한다고 믿는 것들을 물론이고, 존재하지 않는다고 믿는 것들을 발견하려는 태도, 유연성, 그리고 자발성이다 ” 누군가 이런 말을 했다고 하는데, 출처를 못찾겠네요. 1 EDA란? EDA, 탐색적 데이터 분석 과정은 데이터 분석을 할 때 필수적인 과정입니다. 데이터를 주물러서 모델을 만들어야하는데, 어떤 맛인지도 모르고 무작정 고! 할 수는 없는 노릇이자나요. EDA는 내가 가지고 있는 데이터가 무슨 맛인지 무엇인지 이해하는 과정이기에 매우 중요합니다. 2 데이터 시각화를 활용한 EDA EDA를 할 때 대표적으로 사용하는 것이 다양한 차트입니다. 수 백만건 쌓여있는 데이터를 하나씩 살펴볼 수도 없고요, 본다고 하더라도 이해를 할 수..

[데이터 시각화] 실습(2)

안녕하세요. 데이터 요리사, 루나입니다. Seaborn을 활용한 데이터 시각화 실습과제 2탄입니다. ※ dataset과 과제의 답안은 클래스 수강생을 대상으로 배포합니다. ※ 1 Lineplot(spotify data) 1) 데이터 준비 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # 도표의 너비(14)와 높이(6) 설정 plt.rc('figure', figsize=(14,6)) df = pd.read_csv("./dataset/spotify.csv", index_col="Date", parse_dates = True) 2) 분석과제 주어진 데이터를 활용하여 5개의 음원에 대한 Line plot 그리기 주어진 데이터를..

[데이터 시각화] 실습(1)

안녕하세요. 데이터 요리사, 루나입니다. 파이썬 데이터 시각화 패키지 Seaborn의 사용법을 익히고, 데이터에 따라 다양한 시각화 방법을 적용하는 실습을 진행합니다. 1 사전 준비 데이터 시각화에 대한 개념 이해 Seaborn 사용법 #seaborn 패키지 불러오기 import seaborn as sns #그래프 그리기 sns.barplot(data=flights, x="year", y="passengers") 2 Seaborn의 내장 데이터셋(tips 데이터)를 활용한 시각화 연습 1) 데이터 준비 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns tips = sns.load_datas..

LIST