데이터시각화·EDA

[예제로 개념잡기] 히스토그램

데이터요리사 2021. 8. 13. 18:22

안녕하세요. 데이터 요리사, 루나 입니다.

이번 시간에는 데이터의 분포를 쉽게 파악하는데 도움을 주는

'히스토그램'에 대해서 살펴보겠습니다.

 

 

1 개념 잡기
  • 가로축에 계급의 크기, 세로축에 도수(개수, 빈도수)를 연속하는 직사각형 형태로 그린 그래프
  • 정규분포의 히스토그램: 평균값을 중심으로 양 옆으로 점진적인 감소 모양을 보이는 종 곡선
  • 가로축과 세로축은 연속적임
  • 도수의 크기는 세로의 길이

 

계급의 크기(bins)

계급의 크기(bins)를 다르게 설정한 히스토그램

 

KDE plot

히스토그램과 KDE 플롯은 데이터의 분포를 확인하는데 사용

 

2 예제로 이해하기!
여러 Feature의 데이터 분포를 한 눈에 확인

 

 

 

 

 
 
 

 

3 정리하며 마무리
  • 왼쪽으로 치우친 모양: 데이터가 전체 범위에서 수치가 낮은 쪽에 몰려있음
  • 오른쪽에 치우친 모양: 높은 쪽에 몰려있음
  • 수평선 형태: 균일한 분포를 의미

분포의 형태

  • 왜도(skew): 분포가 좌우대칭인지, 왼쪽 또는 오른쪽으로 치우쳐 있는지 정도를 나타낸 지표
    • 왜도 > 0 : 정규분포보다 값이 왼쪽에 치우쳐있음
    • 왜도 < 0 : 정규분포보다 값이 오른쪽으로 치우쳐져있음
  • 첨도(kurtosis): 분포의 산의 뾰족한 정도
    • 첨도 > 0 : 정규분포보다 분산이 급격하게 작아지는 경향이 있음
    • 첨도 < 0 : 분산이 완만하게 커지는 경향이 있음
  • 이미지 출처:(좌) https://wikipedia.com/&nbsp; (우)http://grapherhelp.goldensoftware.com/

 

함께 보면 좋은 글

 

 


 

※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.

728x90