전체 글 67

[데이터 시각화] 실습(2)

안녕하세요. 데이터 요리사, 루나입니다. Seaborn을 활용한 데이터 시각화 실습과제 2탄입니다. ※ dataset과 과제의 답안은 클래스 수강생을 대상으로 배포합니다. ※ 1 Lineplot(spotify data) 1) 데이터 준비 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # 도표의 너비(14)와 높이(6) 설정 plt.rc('figure', figsize=(14,6)) df = pd.read_csv("./dataset/spotify.csv", index_col="Date", parse_dates = True) 2) 분석과제 주어진 데이터를 활용하여 5개의 음원에 대한 Line plot 그리기 주어진 데이터를..

[데이터 시각화] 실습(1)

안녕하세요. 데이터 요리사, 루나입니다. 파이썬 데이터 시각화 패키지 Seaborn의 사용법을 익히고, 데이터에 따라 다양한 시각화 방법을 적용하는 실습을 진행합니다. 1 사전 준비 데이터 시각화에 대한 개념 이해 Seaborn 사용법 #seaborn 패키지 불러오기 import seaborn as sns #그래프 그리기 sns.barplot(data=flights, x="year", y="passengers") 2 Seaborn의 내장 데이터셋(tips 데이터)를 활용한 시각화 연습 1) 데이터 준비 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns tips = sns.load_datas..

머신러닝이란? - 머신러닝 절차, 머신러닝 프로세스 이해하기

안녕하세요. 데이터 요리사, 루나입니다. 1 머신러닝이란? 머신러닝(Machine Learning)은 말 그대로 기계(Machine)가 학습(Learning)을 하는 것입니다. 사람이 책을 읽고 문제집을 풀어가면서 이론을 익혀나가듯이, 기계는 수많은 데이터를 읽어들여서 그 안에 숨겨진 패턴을 찾고, 문제를 해결할 수 있는 알고리즘을 찾아나갑니다. 이렇게 주어진 데이터를 분석해서 문제해결 솔루션을 만들어내는 과정을 기계학습, 즉 머신러닝이라고 합니다. 기존에 프로그래밍을 작성해본 경험이 있는 사람이라면, 위의 그림이 쉽게 이해가 될 것입니다. 프로그래머가 작성하던 코드를 머신러닝이나 딥러닝에서는 기계가 스스로 찾아냅니다. 프로그래머의 역할이 바뀌게 되는거죠. 머신러닝을 개발하는 개발자는 기계가 스스로 학습..

머신러닝 2020.10.19

파이썬 데이터 시각화 라이브러리, Seaborn(씨본) 한 페이지 정리!

안녕하세요. 데이터 요리사, 루나 입니다. 이번 시간에는 파이썬 데이터 시각화 라이브러리 중 하나인 'Seaborn'에 대해서 살펴보겠습니다. 1 Searbon이란? 파이썬의 대표적인 시각화 도구로는 matplotlib과 seaborn이 있습니다. seaborn은 matplotlib 대비 손쉽게 그래프를 그리고 그래프 스타일 설정을 할 수 있다는 장점이 있습니다. 정교하게 그래프의 크기를 조절하거나 각 축의 범례 값을 조절할 때에는 matplotlib을 함께 사용해야하지만, seaborn 사용법에 익숙해진다면 큰 문제가 되진 않습니다. 아래 표는 Seaborn 라이브러리에서 제공해주는 그래프(plot)의 종류입니다. 다양한 종류의 plot을 제공하기 때문에 처음에는 어떤 그래프를 가져다 써야할지 막막합니..

Kaggle 파일 제출하기

Notebooks 탭에서 New Notebook을 선택합니다. 노트북 환경 셋팅에서 원하는 작업환경을 셋팅합니다. 저는 Python 언어, Notebook 형태의 에디터를 선택했습니다. 추가로 ADVANCED SETTINGS 에서 Accelator로 GPU를 사용하도록 설정하였습니다. 하드웨어 가속기(GPU 또는 TPU) 설정은 작업 도중에 변경이 불가능하니 꼭 사전에 셋팅할 수 있도록 주의해주세요. 노트북 형태의 작업 환경이 생성된 화면입니다. 사용방법이 다른 노트북(주피터 노트북 또는 Colab) 환경과 크게 다르지 않습니다. 처음에 Kaggle 환경에서 데이터 분석 할 때 가장 헤매는 부분이 데이터를 어디에서 읽어와야하는지, 어떻게 제출해야하는지 하는 부분입니다. 입력 데이터는 우측의 Data 섹션..

Kaggle-Colab 연동방법

Kaggle은 파이썬 명령으로 Kaggle의 일부 기능을 사용할 수 있도록 API를 제공합니다. github.com/Kaggle/kaggle-api Kaggle/kaggle-api Official Kaggle API. Contribute to Kaggle/kaggle-api development by creating an account on GitHub. github.com 오늘은 Kaggle API를 활용하여 구글 Colab에서 Kaggle 대회의 데이터셋을 다운로드 받고 제출하는 방법을 정리해보겠습니다. 1. Kaggle API 토큰 발행 우선 Kaggle 사이트에서 자신의 계정과 API 토큰을 발행하는 작업이 필요합니다. Kaggle의 우측 상단에 아이콘을 클릭하고, My Account를 선택합니다..

Kaggle 이란?

Kaggle(https://www.kaggle.com/)은 전 세계 데이터 사이언티스트들이 데이터를 분석할 수 있도록 대회를 개최하고, 분석 내용을 토론할 수 있는 커뮤니티를 제공하는 플랫폼입니다. 데이터 분석 대회 뿐만 아니라 데이터 분석을 위한 데이터 셋, 파이썬, R 기반 개발 환경, 초보 데이터 분석가들을 위한 무료 강의 등 다양한 기능을 제공합니다. 데이터 분석을 할 때 분석할 데이터 셋을 구하고 문제를 정의하는 것 부터 쉽지 않습니다. Kaggle은 이런 번거로운 작업들을 미리 다 해두었기 때문에 데이터 전처리와 분석에만 집중 할 수 있습니다. Kaggle 대회 참여방법 Kaggle 사이트에 접속해서 **Compete** 메뉴를 선택하면 다양한 대회 목록을 볼 수 있습니다. 대회 종류는 크게 ..

코드 작성 시 가독성 좋은 폰트 추천, D2Coding

안녕하세요. 데이터 요리사, 루나 입니다. 보통 코드 작성은 비주얼스튜디오나 이클립스 같은 IDE 환경에서 개발하는데요, PC에 설치된 기본 폰트를 활용할 경우에 약간의 아쉬움이 있습니다. 예를 들어 숫자 1과 알파벳 l(소문자 L), I(대문자 I) 잘 구분이 되지 않는 다던가, 주석에서 사용하는 한글이 깨져서 보인다던지 하는 문제가 종종 발생하더라구요. 이런 점을 보완한 폰트가 네이버에서 만든 D2Coding 이라는 폰트입니다. 소스코드 작성 시 가독성이 좋기로 유명한 폰트 'D2Coding' 설치 방법 알려드릴께요. 1 폰트 다운로드 1) 여기(https://github.com/naver/d2codingfont/releases)로 이동합니다. 2) 다운로드에 버전명(Ver 1.3.2) 링크를 눌러서..

IT 이야기 2020.08.26

자연어 처리 과정 정리하기

ㅈPseudo coding: (국문)영화 데이터 리뷰 -> 감정 분석(긍정, 부정, 중립) 1.크롤링 2.전처리 : 문자만 가져오기, Null, 라벨링 / 데이터 분리(테스트, 트레이닝) 3.토큰화(Konlpy) : 1.사전만들기 1.딕셔너리 형태, k-v, 단어-형태소, 인덱스-단어) 2.불용어제거 1.불용어 리스트 : 1.명사: 직접 만들기 2.형태소분석을 통해서 어미, 조사, .!” 그런거 제거 2.For문을 돌면서 불용어에 포함되지 않으면 새로운 사전에 넣는다 4.벡터화 1.카운트 : CountVecector(BoW), TfIDF 2.예측 : Word2Vec, FastText 3.카운트 + 예측 : Glove 4.(정답값) : One-hot 5.모델링 1.분류 모델 : RandomForestCla..

[Kaggle][답]강아지 품종 분류(dog-breed-identification)

0. 대회 설명 URL : https://www.kaggle.com/c/dog-breed-identification 강아지 사진에 알맞은 품종을 할당(분류)하는 대회 1. 데이터 읽어오기 (1) 상위 5개 항목 확인하기 정답확인 label = pd.read_csv('../input/dog-breed-identification/labels.csv') sample_submission = pd.read_csv('../input/dog-breed-identification/sample_submission.csv') label.head() (2) 종('breed')에 대한 정보 확인하기(어떤 종류가 있는지, 몇개 있는지) # label['breed'].value_counts().index print(len(lab..

LIST