Kaggle·데이터분석예제

Kaggle 이란?

데이터요리사 2020. 8. 30. 15:56

Kaggle(https://www.kaggle.com/)은 전 세계 데이터 사이언티스트들이 데이터를 분석할 수 있도록 대회를 개최하고, 분석 내용을 토론할 수 있는 커뮤니티를 제공하는 플랫폼입니다. 데이터 분석 대회 뿐만 아니라 데이터 분석을 위한 데이터 셋, 파이썬, R 기반 개발 환경, 초보 데이터 분석가들을 위한 무료 강의 등 다양한 기능을 제공합니다. 데이터 분석을 할 때 분석할 데이터 셋을 구하고 문제를 정의하는 것 부터 쉽지 않습니다. Kaggle은 이런 번거로운 작업들을 미리 다 해두었기 때문에 데이터 전처리와 분석에만 집중 할 수 있습니다.

Kaggle 대회 참여방법

Kaggle 사이트에 접속해서 **Compete** 메뉴를 선택하면 다양한 대회 목록을 볼 수 있습니다.

 

대회 종류는 크게 현재 진행 중인 대회, 과거에 진행했던 대회로 나뉘어집니다. 현재 진행 중인 대회는 상금이 걸린 대회와 그렇지 않은 대회가 있습니다. 대회 참여는 개인이 참여해도 되고, 팀을 구성하여 참여하는 것도 가능합니다.

이 책에서는 데이터 분석 초보자가 참여하기 좋은 대회를 위주로 정리하였습니다. 이 장에서는 현재 진행 중인 대회인 OSIC Pulmonary Fibrosis Progression 대회를 기준으로 대회 참여 방법을 정리하겠습니다.

먼저 참여할 대회 이름을 클릭하면 아래와 같은 화면이 보입니다.

Competition의 구성에 대해서 살펴보겠습니다. 모든 Competition은 Overview, Data, Notebooks, Discussion, Leaderboard, Rules 메뉴를 제공합니다.

  • Overview: 대회의 설명, 평가방법, 제출 기간, 상금 등 대회에 대한 전반적인 내용을 설명합니다.

  • Data: 본 대회에서 사용하는 데이터 셋을 설명합니다. 보통 데이터는 학습용 데이터, 테스트용 데이터로 나뉘어져 있습니다. 학습용 데이터로 모델을 생성하고 테스트용으로 추론을 진행하여 결과을 도출하여 캐글에 제출합니다.

  • Notebooks: 개발 환경을 제공합니다. Kaggle 웹 사이트에서 Python이나 R을 활용하여 코드를 작성하고 컴파일 할 수 있습니다. 또한 작성한 코드를 공개하여 다른 사람들이 코드 분석한 결과를 볼 수도 있고 토론할 수도 있습니다.

  • Discussion: 대회를 진행하면서 궁금한 사항, 이슈가 될 사항등을 토론하는 공간입니다.

  • Leaderboard: 순위를 확인합니다. 데이터 분석 결과를 제출한 파일을 Overview에서 제시한 평가방법을 기준으로 정확도를 평가하여 순위를 매깁니다.

  • Rules: 대회 진행의 규칙을 설명합니다.

대회 참여는 **Join Competition** 을 클릭하고 **'I Understand and Accept'**를 클릭하면 참여가능합니다.

그 밖에 Kaggle에서 할 수 있는 것

흔히 Kaggle에서는 데이터 분석 대회만 참여할 수 있다고 생각합니다. Kaggle은 무료 데이터 셋 배포, 데이터 분석 관련 강의, 구직 정보등 데이터 분석에 필요한 다양한 정보를 얻을 수 있습니다.

무료 데이터 셋

Kaggle의 Data 메뉴(https://www.kaggle.com/datasets)에서는 무료로 오픈 데이터 셋을 다운로드 받을 수 있습니다.

대회를 참여하지 않아도 데이터 분석이 가능한 대용량 데이터 파일을 사용할 수 있습니다.

무료 강의

Kaggle의 Courses 메뉴(https://www.kaggle.com/learn/)에서는 Python, 머신러닝, 데이터 시각화 등 강의를 제공합니다.

강의는 내용 설명하는 Tutorial 섹션과 Tutorial을 모두 완료하면 Exercise 섹션에서 연습문제를 제공해 직접 코드를 작성해서 문제를 푸는 부분으로 나뉘어져 있습니다. Exercise에서는 문제를 푸는 동안 해결이 안되는 경우를 대비해 도움말을 제공해서 튜터 없이도 스스로 문제를 해결 할 수 있도록 도와줍니다.

데이터분석 위키

Kaggle에서 제공해주는 강의도 좋지만, 실제 데이터 분석 문제를 풀면서 다른 사람들은 어떤 관점으로 문제에 접근을 했는지 살펴볼 수 있다는 것이 Kaggle의 큰 매력인 것 같습니다. 각 대회의 Discussion 탭이나 메인 메뉴의 Discuss 메뉴를 통해 전 세계 데이터분석가들이 작성한 의견들, 댓글들을 읽어보는 것 또한 데이터 분석을 학습하는데 도움이 됩니다.

728x90