데이터시각화·EDA

[예제로 개념잡기] 막대 그래프 (바 플롯, 바차트, Bar plot, Bar chart)

데이터요리사 2021. 8. 13. 18:24

안녕하세요. 데이터 요리사, 루나 입니다.

  분절형 데이터의 차이를 쉽게 파악하는데 도움을 주는

'막대 그래프(Bar plot)'에 대해서 살펴보겠습니다.

 

 

1 개념 잡기
  • 수치를 길이로 표현해 절대값을 갖는 막대를 배치
  • 분절형 시간 시각화: 시간에 따른 트렌드와 경향성을 확인 점 : 하나의 점은 X-Y축 좌표의 위치로 표시
  • 가로 축: 시간 순서대로 정렬된 시간의 특정 시점, 범주
  • 세로 축: 그래프의 크기, 범위

 

막대그래프 사례 -  코로나 확진자 추이

 

2 막대 그래프에 꽂힌 건 무엇인가요?

 

막대그래프는 일상생활에서 자주 접할 수 있는 그래프라 친근한 느낌이 드는데요,

그렇다고 쉽게 그릴 수 있는 것은 아닙니다.

 

아래 예제는 어떤 항공사(NK)의 월별 항공편 지연 사례를 막대 그래프로 시각화한 사례입니다.

 

 

 

막대그래프를 그리기위해서 가장 좋은 데이터의 형태는 X축에 해당하는 Y축 데이터가 하나씩 정해져있는 형태입니다. 1월에는 약 11.40, 2월에는 약 16.47, 3월에는 약 10.04 이런식으로요. 

 

만약 X축에 해당하는 데이터가 여러 개 존재하는 경우에는 어떻게 막대그래프가 그려질까요? 

 

 

하나의 범주에 여러 개의 데이터가 존재하는 경우

 

위의 데이터는 연도, 월, 승객수를 포함하고 있습니다. 데이터 일부만 표시되어서 정확히 알 수는 없지만 10년간의 데이터가 있다고 가정한다면 10년동안 1월에 해당하는 데이터 10개, 2월에 해당하는 데이터 10개..... 이런식으로 X축에 해당하는 Y축 데이터가 여러 개 존재하게 되겠죠. 

막대그래프는 2차원 평면에 값을 표시해야하기 때문에 10개의 데이터 중 하나의 대표값만을 추출하여 사용해야합니다. 일반적으로 가장많이 사용하는 대표값은 평균값이나 중앙값입니다. 

대표값만을 사용하여 데이터를 시각화할 경우, '1월의 승객수는 약 230이야'하고 해석할 수 있습니다. 평균의 큰 함정인 것이죠. 실제로 1949년 1월에는 112명의 승객수가 존재했고, 어떤 해에는 300명에 가까운 승객수가 존재했는데 그런 정보를 다 누락하게 되는것입니다. 

 

이러한 문제를 보완하기 위한 방법이 바로 막대그래프에 데이터 신뢰구간을 표시하는 것입니다. 위의 막대그래프에는 검정색 선이 그어져있습니다. 이 검정색 선은 막대그래프의 Y축 값이 어떤 분포를 보이는지 짐작하는데 도움을 줍니다. 막대의 길이가 길 수록, 평균값과 먼 값이 있었던 해가 존재하는 것입니다.

 

이를 좀 더 보완한 다른 그래프도 있습니다. 상자그래프(box plot)와 바이올린 그래프(violin plot)가 바로 그것인데요, 각각 데이터의 분포를 표시해서 X축의 값(월별, month)에 따른 Y축의 값(승객 수, passenger)이 어떤 분포에 따라 흩어져있는지 쉽게 확인할 수 있습니다.  

 

3 다양한 막대그래프 사례
막대그래프를 사용할 때 유의해야 할 사항이 있습니다. 아래 3개의 막대 그래프를 살펴보겠습니다. 첫번째 막대그래프의 경우, Y축의 각 값들의 차이가 미미한 경우 비교가 쉽지 않아 데이터의 특징을 파악하는데 쉽지 않습니다. 또한 세번째 그래프는 값의 차이가 너무 달라서 비교가 쉽지 않은 사례입니다. 이러한 경우에는 막대그래프를 사용하는 것보다 데이터의 분포를 확인하기 위한 파이차트를 사용하여 데이터를 시각화하는 것이 좀 더 효과적인 방법입니다.
 

 

아래 막대그래프는 막대가 너무 많이 존재합니다. 이것은 X축에 값을 분절형 데이터가 아닌 연속형 데이터를 사용했기 때문인데요. 막대그래프가 가장 그리기 쉽고, 친근하기 때문에 데이터 시각화를 처음하는 경우 무조건 막대그래프를 그리는 경향이 있습니다. 막대그래프의 X축은 분절형 데이터, 즉 카테고리가 한정적이고 명확하게 구분되는 형태의 데이터를 지정해주어야합니다. 아래 사례의 경우 X축은 전체 지불금액(total_bill)을 나타내기 때문에 굉장히 다양한 형태의 값이 존재하는 연속형 데이터입니다. 이 경우에는 우측의 차트와 같이 산점도를 사용하는 것이 바람직합니다.

 

 
다음 막대그래프는 막대그래프를 매우 적절하게 사용한 사례입니다. 시각적 차이를 강조하기 위해 특정 막대에 색상을 적용하였습니다. 색상은 특정 상태나 범위를 나타내기 때문에, 어느 데이터에 초점을 맞추어서 확인해야하는지 수월하게 찾을 수 있습니다. 그래프를 해석하는 사람을 배려해주는 좋은 막대그래프 시각화 사례라고 볼 수 있습니다.

 

막대그래프를 잘 활용한 사례

 

 

지금까지 막대그래프에 대해서 살펴보았습니다.

막대그래프는 분석할 데이터의 성격에 맞게 적절하게 사용한다면 누구에게나 친근한 그래프인만큼 활용도가 높은 그래프입니다. 

 

함께 보면 좋은 글

 


※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.

728x90