안녕하세요. 데이터 요리사, 루나입니다.
Seaborn을 활용한 데이터 시각화 실습과제 2탄입니다.
※ dataset과 과제의 답안은 클래스 수강생을 대상으로 배포합니다. ※
1 | Lineplot(spotify data) |
1) 데이터 준비
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 도표의 너비(14)와 높이(6) 설정
plt.rc('figure', figsize=(14,6))
df = pd.read_csv("./dataset/spotify.csv", index_col="Date", parse_dates = True)
2) 분석과제
- 주어진 데이터를 활용하여 5개의 음원에 대한 Line plot 그리기
- 주어진 데이터를 활용하여 Shape of You, Despacito에 대한 Line plot 그리기
- 주어진 데이터를 활용하여 Humble, Unforgettable에 대한 Line plot 그리기
3) 데이터 형태 변형
df.reset_index(inplace=True)
4) 변형된 데이터를 활용하여 2)의 분석과제 수행하기
2 | Scatterplot + Regplot(insurance data) |
1) 데이터 준비
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.read_csv("./dataset/insurance.csv")
2) 분석과제
- 주어진 데이터의 feature들이 charges에 어떤 영향을 주는지 자유롭게 EDA를 진행하시오.
3 | Histplot(Cancer data) |
1) 데이터 준비
- cancer_b.csv(양성데이터), cancer_m.csv(악성데이터)
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
cancer_b_data = pd.read_csv("./dataset/cancer_b.csv", index_col="Id")
cancer_m_data = pd.read_csv("./dataset/cancer_m.csv", index_col="Id")
cancer = pd.concat([cancer_b_data, cancer_m_data])
2) 분석과제
- 'Area (mean)' 값이 200인 환자는 양성으로 분류할 가능성이 더 높은지, 악성인지 분류할 가능성이 높은지 데이터 시각화를 기반으로 판단하시오.
- 'Radius (worst)' 값이 25인 환자는 양성으로 분류할 가능성이 더 높은지, 악성인지 분류할 가능성이 높은지 데이터 시각화를 기반으로 판단하시오.
- 주어진 데이터에서 어떤 값을 활용하면 양성/악성을 판단하는데 좋을지 데이터 시각화를 기반으로 제안하시오.
함께 보면 좋은 글 |
※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.
728x90
'데이터시각화·EDA' 카테고리의 다른 글
[데이터 시각화] 실습(2) - 샘플답안 (0) | 2021.08.13 |
---|---|
탐색적 데이터 분석(EDA, Exploratory Data Analysis)이란? (0) | 2021.01.26 |
[데이터 시각화] 실습(1) - 샘플답안 (0) | 2020.11.23 |
[데이터 시각화] 실습(1) (0) | 2020.10.26 |
파이썬 데이터 시각화 라이브러리, Seaborn(씨본) 한 페이지 정리! (0) | 2020.08.31 |