데이터시각화·EDA

[데이터 시각화] 실습(2)

데이터요리사 2020. 11. 2. 09:00

안녕하세요. 데이터 요리사, 루나입니다.

Seaborn을 활용한 데이터 시각화 실습과제 2탄입니다.

 

※ dataset과 과제의 답안은 클래스 수강생을 대상으로 배포합니다. ※

 

1 Lineplot(spotify data)

1) 데이터 준비

import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 

# 도표의 너비(14)와 높이(6) 설정
plt.rc('figure', figsize=(14,6)) 

df = pd.read_csv("./dataset/spotify.csv", index_col="Date", parse_dates = True)

2) 분석과제

  • 주어진 데이터를 활용하여 5개의 음원에 대한 Line plot 그리기
  • 주어진 데이터를 활용하여 Shape of You, Despacito에 대한 Line plot 그리기
  • 주어진 데이터를 활용하여 Humble, Unforgettable에 대한 Line plot 그리기

 

3) 데이터 형태 변형

df.reset_index(inplace=True)

 

4) 변형된 데이터를 활용하여 2)의 분석과제 수행하기

 

 

2 Scatterplot + Regplot(insurance data)

1) 데이터 준비

import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 

df = pd.read_csv("./dataset/insurance.csv")

 

2) 분석과제

  • 주어진 데이터의 feature들이 charges에 어떤 영향을 주는지 자유롭게 EDA를 진행하시오.

 

 

3 Histplot(Cancer data)

1) 데이터 준비

 - cancer_b.csv(양성데이터), cancer_m.csv(악성데이터)

import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 

cancer_b_data = pd.read_csv("./dataset/cancer_b.csv", index_col="Id")
cancer_m_data = pd.read_csv("./dataset/cancer_m.csv", index_col="Id")
cancer = pd.concat([cancer_b_data, cancer_m_data])

 

2) 분석과제

  • 'Area (mean)' 값이 200인 환자는 양성으로 분류할 가능성이 더 높은지, 악성인지 분류할 가능성이 높은지 데이터 시각화를 기반으로 판단하시오.
  • 'Radius (worst)' 값이 25인 환자는 양성으로 분류할 가능성이 더 높은지, 악성인지 분류할 가능성이 높은지 데이터 시각화를 기반으로 판단하시오.
  • 주어진 데이터에서 어떤 값을 활용하면 양성/악성을 판단하는데 좋을지 데이터 시각화를 기반으로 제안하시오.

 

 

 

함께 보면 좋은 글

 


※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.

728x90