Kaggle·데이터분석예제 14

[Kaggle][문제]타이타닉(titanic)

1. 대회 설명 www.kaggle.com/c/titanic 타이타닉호에서 생존한 승객을 예측하는 모델을 만듭니다. 평가방법 : 승객의 생존여부를 0, 1로 예측하여 제출하고, 정확도를 계산하여 순위를 결정 2. 데이터 설명 Variable Definition Key survival 생존여부 0 = No, 1 = Yes pclass 티켓 등급 1 = 1st, 2 = 2nd, 3 = 3rd sex 성별 Age 나이 sibsp 타이타닉에 탑승한 형제/자매 수 parch 타이타닉에 탑승한 부모/자녀 수 ticket 티켓번호 fare 운임(티켓요금) cabin 객실 번호 embarked 탑승한 곳(항구) C = Cherbourg, Q = Queenstown, S = Southampton 3. 데이터 전처리 (1..

[Kaggle][답]타이타닉(titanic)

Titanic: Machine Learning from Disaster 1. 대회 설명 URL: https://www.kaggle.com/c/titanic 설명: 타이타닉호에서 생존한 승객을 예측하는 모델을 만듭니다. 키워드: #분류 # classification 평가방법: 승객의 생존여부를 0, 1로 예측하여 제출하고, 정확도(accuracy)를 계산하여 순위를 결정 2. 데이터 Variable Definition Key survival 생존여부 0 = No, 1 = Yes pclass 티켓 등급 1 = 1st, 2 = 2nd, 3 = 3rd sex 성별 Age 나이 sibsp 타이타닉에 탑승한 형제/자매 수 parch 타이타닉에 탑승한 부모/자녀 수 ticket 티켓번호 fare 운임(티켓요금) ca..

[Kaggle][답]샌프란시스코 범죄 예측(sf-crime)

San Francisco Crime Classification 1. 대회 설명 URL: https://www.kaggle.com/c/sf-crime 설명 1934년부터 1963년까지 샌프란시스코의 알카트라즈섬에 악명 높은 범죄자들을 수용 한 것으로 유명했습니다. 이 대회는 약 12년 동안 샌프란시스코의 모든 지역에서 발생한 범죄 보고서를 제공합니다. 시간과 장소가 주어지면 발생한 범죄의 유형(카테고리)을 예측하여 제출합니다. 키워드 #분류 # classification 평가방법 범죄 유형별 범죄 발생 가능성을 확률로 계산하여 제출하면, multi class logarithmic loss를 사용하여 정확도를 측정합니다. 2. 데이터 본 대회는 샌프란시스코 오픈 데이터 SF OpenData에서 제공하는 범죄..

[Kaggle][문제]샌프란시스코 범죄 예측(sf-crime)

URL: https://www.kaggle.com/c/sf-crime 데이터 훑어보기 csv 파일을 데이터프레임으로 읽기 학습 데이터 셋의 상위 5개 항목 출력 학습 데이터 셋의 각 필드 데이터 분포(평균, 최소값, 최대값 등)를 살펴보기 각 컬럼의 데이터 타입 확인하기 범죄의 범주 'Category'는 어떤 값이 있는지 확인하기 데이터 할당/변경하기(create, update) Dates 필드의 데이터타입을 'datetime64' 타입으로 변경하기 범죄 사건 발생 날짜 및 시간 정보를 포함한 'Dates'필드의 값을 연도별, 월별, 일별, 시간별로 분석하기 위해서 datetime64타입으로 변환합니다. 문자열 파싱을 해서 분석할 수도 있지만, datetime64 타입으로 변환하면 파이썬 내장함수를 사용..

LIST