Kaggle·데이터분석예제

Kaggle-Colab 연동방법

데이터요리사 2020. 8. 30. 16:57

Kaggle은 파이썬 명령으로 Kaggle의 일부 기능을 사용할 수 있도록 API를 제공합니다.

github.com/Kaggle/kaggle-api

 

Kaggle/kaggle-api

Official Kaggle API. Contribute to Kaggle/kaggle-api development by creating an account on GitHub.

github.com

오늘은 Kaggle API를 활용하여 구글 Colab에서 Kaggle 대회의 데이터셋을 다운로드 받고 제출하는 방법을 정리해보겠습니다. 

 

 

1. Kaggle API 토큰 발행

우선 Kaggle 사이트에서 자신의 계정과 API 토큰을 발행하는 작업이 필요합니다. 

 

Kaggle의 우측 상단에 아이콘을 클릭하고, My Account를 선택합니다.

 

 

 

My Account 화면에서 API 항목의 Create New API Token을 선택합니다.

버튼을 클릭하면 kaggle.json 파일이 다운로드되고, Ensure kaggle.json is in the location ~/.kaggle/kaggle.json to use the API라는 메세지가 보입니다. 다운로드 받은 kaggle.json 파일은 반드시 ~/.kaggle/kaggle.json 경로에 위치하도록 지정해두어야합니다.

 

 

2. Colab 

!pip install kaggle

from google.colab import files
files.upload()

다운로드 받은 kaggle.json 파일을 선택합니다.

 

kaggle.json 파일을 ./kaggle 경로로 옮겨줍니다. Kaggle API 사이트에 json 파일 자격증명을 600으로 변경하라고 되어있어 chmod 600~ 명령어도 실행합니다.

!mkdir -p ~/.kaggle
!mv kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

 

대회에서 사용하는 데이터를 다운로드 받습니다. 

!kaggle competitions download -c titanic

데이터 다운로드는 Kaggle 사이트의 참여하는 대회의 'Data' 탭에 있는 명령어를 사용하여 다운로드 받습니다.

 

3. 파일 제출

 

데이터 분석을 한 후, 결과 파일을 csv 파일로 만들어서 Kaggle에 제출합니다. gender_submission.csv 파일을 생성해서 titanic 대회에 제출하는 코드입니다.

!kaggle competitions submit -c titanic -f gender_submission.csv -m "Message"

!kaggle competitions submit -c {대회이름} -f {파일이름} -m {제출 메세지} 의 구조로 되어있습니다. 모든 항목에 대해서 다 기입해야 명령어가 정상적으로 동작합니다.

 

 

 

 

728x90