데이터시각화·EDA

[예제로 개념잡기] 산점도(Scatter plot)

데이터요리사 2021. 8. 13. 18:23

안녕하세요. 데이터 요리사, 루나 입니다.

이번 시간에는 월별, 일별, 시간별 흐름에 따라 발생하는 데이터의 흐름을 쉽게 파악하는데 도움을 주는

'산점도(Scatter plot)'에 대해서 살펴보겠습니다.

 

 

1 개념 잡기
  • 변수(인자)간의 상관 관계를 시각적으로 보여주는 시각화 기법
  • 가로축과 세로축의 변수값에 대응하는 점을 좌표에 배치하여 상관관계를 확인
  • 점들이 오른쪽 위로 상승 추세 → 양의 상관관계
  • 점이 오른쪽 아래로 하강 추세 → 음의 상관관계
  • 점의 배치에 패턴이 보이지 않음 → 상관관계 없음
 

2 예제로 이해하기!
1) 산점도에 회귀선을 추가
  • 데이터 간의 상관관계를 알면 한 수치의 변화를 통해 다른 수치의 변화를 예측할 수 있음
  • 데이터가 얼마나 분포됐는지 또는 데이터 포인트들  간의 관련 여부 이해에 도움
 

산점도에 회귀선을 추가

 

 

  • 데이터 분포에 존재하는 패턴의 신속한 식별
  • 데이터 포인트가 많을 때 특히 유용(데이터 포인트의 수가 적은 경우에는 오히려 막대그래프나 일반 표가 효과적일 수 있음)

 

여러 개의 데이터 분포가 존재하는 경우, 산점도+회귀선을 활용하면 상관관계 파악에 효과적

 

 

2) 색상 구분을 통한 데이터 분포 파악

산점도 + 색상 구분을 통한 데이터 분포 파악

 
3) 크기 구분을 통한 데이터 분포 파악
 
산점도 + 크기 구분을 통한 데이터 분포 파악

 

 

4) 범주형 데이터에 대한 산점도
 
범주형 데이터에 산점도를 적용할 경우, 우측의 플롯(swarmplot)을 활용하는 것이 좋다

 

 

 

 

 

함께 보면 좋은 글

 

 


※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.

728x90