안녕하세요. 데이터 요리사, 루나 입니다.
분절형 데이터의 차이를 쉽게 파악하는데 도움을 주는
'막대 그래프(Bar plot)'에 대해서 살펴보겠습니다.
1 | 개념 잡기 |
- 수치를 길이로 표현해 절대값을 갖는 막대를 배치
- 분절형 시간 시각화: 시간에 따른 트렌드와 경향성을 확인 점 : 하나의 점은 X-Y축 좌표의 위치로 표시
- 가로 축: 시간 순서대로 정렬된 시간의 특정 시점, 범주
- 세로 축: 그래프의 크기, 범위
2 | 막대 그래프에 꽂힌 건 무엇인가요? |
막대그래프는 일상생활에서 자주 접할 수 있는 그래프라 친근한 느낌이 드는데요,
그렇다고 쉽게 그릴 수 있는 것은 아닙니다.
아래 예제는 어떤 항공사(NK)의 월별 항공편 지연 사례를 막대 그래프로 시각화한 사례입니다.
막대그래프를 그리기위해서 가장 좋은 데이터의 형태는 X축에 해당하는 Y축 데이터가 하나씩 정해져있는 형태입니다. 1월에는 약 11.40, 2월에는 약 16.47, 3월에는 약 10.04 이런식으로요.
만약 X축에 해당하는 데이터가 여러 개 존재하는 경우에는 어떻게 막대그래프가 그려질까요?
위의 데이터는 연도, 월, 승객수를 포함하고 있습니다. 데이터 일부만 표시되어서 정확히 알 수는 없지만 10년간의 데이터가 있다고 가정한다면 10년동안 1월에 해당하는 데이터 10개, 2월에 해당하는 데이터 10개..... 이런식으로 X축에 해당하는 Y축 데이터가 여러 개 존재하게 되겠죠.
막대그래프는 2차원 평면에 값을 표시해야하기 때문에 10개의 데이터 중 하나의 대표값만을 추출하여 사용해야합니다. 일반적으로 가장많이 사용하는 대표값은 평균값이나 중앙값입니다.
대표값만을 사용하여 데이터를 시각화할 경우, '1월의 승객수는 약 230이야'하고 해석할 수 있습니다. 평균의 큰 함정인 것이죠. 실제로 1949년 1월에는 112명의 승객수가 존재했고, 어떤 해에는 300명에 가까운 승객수가 존재했는데 그런 정보를 다 누락하게 되는것입니다.
이러한 문제를 보완하기 위한 방법이 바로 막대그래프에 데이터 신뢰구간을 표시하는 것입니다. 위의 막대그래프에는 검정색 선이 그어져있습니다. 이 검정색 선은 막대그래프의 Y축 값이 어떤 분포를 보이는지 짐작하는데 도움을 줍니다. 막대의 길이가 길 수록, 평균값과 먼 값이 있었던 해가 존재하는 것입니다.
이를 좀 더 보완한 다른 그래프도 있습니다. 상자그래프(box plot)와 바이올린 그래프(violin plot)가 바로 그것인데요, 각각 데이터의 분포를 표시해서 X축의 값(월별, month)에 따른 Y축의 값(승객 수, passenger)이 어떤 분포에 따라 흩어져있는지 쉽게 확인할 수 있습니다.
3 | 다양한 막대그래프 사례 |
아래 막대그래프는 막대가 너무 많이 존재합니다. 이것은 X축에 값을 분절형 데이터가 아닌 연속형 데이터를 사용했기 때문인데요. 막대그래프가 가장 그리기 쉽고, 친근하기 때문에 데이터 시각화를 처음하는 경우 무조건 막대그래프를 그리는 경향이 있습니다. 막대그래프의 X축은 분절형 데이터, 즉 카테고리가 한정적이고 명확하게 구분되는 형태의 데이터를 지정해주어야합니다. 아래 사례의 경우 X축은 전체 지불금액(total_bill)을 나타내기 때문에 굉장히 다양한 형태의 값이 존재하는 연속형 데이터입니다. 이 경우에는 우측의 차트와 같이 산점도를 사용하는 것이 바람직합니다.
지금까지 막대그래프에 대해서 살펴보았습니다.
막대그래프는 분석할 데이터의 성격에 맞게 적절하게 사용한다면 누구에게나 친근한 그래프인만큼 활용도가 높은 그래프입니다.
함께 보면 좋은 글 |
※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.
'데이터시각화·EDA' 카테고리의 다른 글
[예제로 개념잡기] 히트맵(Heatmap) (0) | 2021.08.13 |
---|---|
[예제로 개념잡기] 산점도(Scatter plot) (0) | 2021.08.13 |
[예제로 개념잡기] 히스토그램 (0) | 2021.08.13 |
[예제로 개념잡기] 선 그래프 (라인플롯, 라인차트, Line graph, Line plot) (0) | 2021.08.13 |
[데이터 시각화] 실습(2) - 샘플답안 (0) | 2021.08.13 |