안녕하세요. 데이터 요리사, 루나 입니다.
이번 시간에는 데이터의 분포를 쉽게 파악하는데 도움을 주는
'히스토그램'에 대해서 살펴보겠습니다.
1 | 개념 잡기 |
-
가로축에 계급의 크기를, 세로축에 도수(개수, 빈도수)를 연속하는 직사각형 형태로 그린 그래프
-
정규분포의 히스토그램: 평균값을 중심으로 양 옆으로 점진적인 감소 모양을 보이는 종 곡선
-
가로축과 세로축은 연속적임
-
도수의 크기는 세로의 길이
계급의 크기(bins)
KDE plot
2 | 예제로 이해하기! |
여러 Feature의 데이터 분포를 한 눈에 확인
3 | 정리하며 마무리 |
- 왼쪽으로 치우친 모양: 데이터가 전체 범위에서 수치가 낮은 쪽에 몰려있음
- 오른쪽에 치우친 모양: 높은 쪽에 몰려있음
- 수평선 형태: 균일한 분포를 의미
분포의 형태
- 왜도(skew): 분포가 좌우대칭인지, 왼쪽 또는 오른쪽으로 치우쳐 있는지 정도를 나타낸 지표
- 왜도 > 0 : 정규분포보다 값이 왼쪽에 치우쳐있음
- 왜도 < 0 : 정규분포보다 값이 오른쪽으로 치우쳐져있음
- 첨도(kurtosis): 분포의 산의 뾰족한 정도
- 첨도 > 0 : 정규분포보다 분산이 급격하게 작아지는 경향이 있음
- 첨도 < 0 : 분산이 완만하게 커지는 경향이 있음
함께 보면 좋은 글 |
- 선 그래프 (Line plot)
- 막대 그래프 (Bar plot,)
- 산점도(Scatter plot)
- 히트맵(Heatmap)
- 파이썬 데이터 시각화 라이브러리, Seaborn(씨본) 한 페이지 정리!
※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.
728x90
'데이터시각화·EDA' 카테고리의 다른 글
[예제로 개념잡기] 히트맵(Heatmap) (0) | 2021.08.13 |
---|---|
[예제로 개념잡기] 산점도(Scatter plot) (0) | 2021.08.13 |
[예제로 개념잡기] 선 그래프 (라인플롯, 라인차트, Line graph, Line plot) (0) | 2021.08.13 |
[데이터 시각화] 실습(2) - 샘플답안 (0) | 2021.08.13 |
탐색적 데이터 분석(EDA, Exploratory Data Analysis)이란? (0) | 2021.01.26 |