전체 글 67

[예제로 개념잡기] 히트맵(Heatmap)

안녕하세요. 데이터 요리사, 루나 입니다. 이번 시간에는 여러 속성의 분포를 한 눈에 파악하는데 도움을 주는 '히트맵(Heatmap)'에 대해서 살펴보겠습니다. 1 개념 잡기 한 칸의 색상으로 데이터 값을 표현하여 여러가지 변수를 비교 가능한 그래프 하나의 대상에 해당하는 한 행을 왼쪽→오른쪽으로 보면서 모든 변수를 파악 가능 변수에 대응하는 한 열을 위→아래로 읽을 수 있음 2 예제로 이해하기! 모든 데이터를 한번에 훑어본 다음 흥미로운 점을 짚고 다른 점을 찾아가는 방향을 제시해줄 수 있음 여러 변수의 비교가 가능 3 정리하며 마무리 히트맵 생성 시, 유의사항 데이터가 지나치게 많을 경우 혼란스러울 수 있음 →색상이 아닌 크기를 활용하는 방법도 존재함 함께 보면 좋은 글 선 그래프 (Line plot..

[예제로 개념잡기] 산점도(Scatter plot)

안녕하세요. 데이터 요리사, 루나 입니다. 이번 시간에는 월별, 일별, 시간별 흐름에 따라 발생하는 데이터의 흐름을 쉽게 파악하는데 도움을 주는 '산점도(Scatter plot)'에 대해서 살펴보겠습니다. 1 개념 잡기 변수(인자)간의 상관 관계를 시각적으로 보여주는 시각화 기법 가로축과 세로축의 변수값에 대응하는 점을 좌표에 배치하여 상관관계를 확인 점들이 오른쪽 위로 상승 추세 → 양의 상관관계 점이 오른쪽 아래로 하강 추세 → 음의 상관관계 점의 배치에 패턴이 보이지 않음 → 상관관계 없음 2 예제로 이해하기! 1) 산점도에 회귀선을 추가 데이터 간의 상관관계를 알면 한 수치의 변화를 통해 다른 수치의 변화를 예측할 수 있음 데이터가 얼마나 분포됐는지 또는 데이터 포인트들 간의 관련 여부 이해에 도..

[예제로 개념잡기] 히스토그램

안녕하세요. 데이터 요리사, 루나 입니다. 이번 시간에는 데이터의 분포를 쉽게 파악하는데 도움을 주는 '히스토그램'에 대해서 살펴보겠습니다. 1 개념 잡기 가로축에 계급의 크기를, 세로축에 도수(개수, 빈도수)를 연속하는 직사각형 형태로 그린 그래프 정규분포의 히스토그램: 평균값을 중심으로 양 옆으로 점진적인 감소 모양을 보이는 종 곡선 가로축과 세로축은 연속적임 도수의 크기는 세로의 길이 계급의 크기(bins) KDE plot 2 예제로 이해하기! 여러 Feature의 데이터 분포를 한 눈에 확인 3 정리하며 마무리 왼쪽으로 치우친 모양: 데이터가 전체 범위에서 수치가 낮은 쪽에 몰려있음 오른쪽에 치우친 모양: 높은 쪽에 몰려있음 수평선 형태: 균일한 분포를 의미 분포의 형태 왜도(skew): 분포가 ..

[예제로 개념잡기] 선 그래프 (라인플롯, 라인차트, Line graph, Line plot)

안녕하세요. 데이터 요리사, 루나입니다. 이번 시간에는 월별, 일별, 시간별 흐름에 따라 발생하는 데이터의 흐름을 쉽게 파악하는데 도움을 주는 '선 그래프(Line Graph, Line Plot)'에 대해서 살펴보겠습니다. 1 개념 잡기 데이터가 끊임없이 변화하는 추이를 선으로 표현하여, 연속적인 데이터 변화를 확인하는데 용이 변수의 변화, 트렌드, 변화율 정보가 중요한 경우 사용 점 : 하나의 점은 X-Y축 좌표의 위치로 표시 선분 : 점를 연결하는 선으로 점 간의 변화 추이를 보여줌 2 예제로 이해하기! 첫번째로 살펴볼 데이터는 2017년~2018년 인기 음원 5곡이 얼마나 많이 스트리밍 되었는지 스트리밍 수를 나타낸 데이터입니다. NaN이라고 표시된 부분은 데이터가 비어있다는 것을 의미합니다. 아마..

[데이터 전처리 05] - 데이터는 그냥 합칠 수 있는게 아니다, "데이터 통합" 제대로 정리하기

안녕하세요. 데이터 요리사, 루나입니다. 데이터 분석은 다양한 기관에서 수집한 데이터를 하나로 모아서 진행하기도 하고, 동일 기관이라도 여러 개의 파일, 테이블로 나누어서 관리하기 때문에 다양한 소스에 존재하는 데이터를 합치는 작업이 필요합니다. 데이터는 어떻게 합칠 수 있을까요? 데이터 통합에 대해서 알아봅시다. 1 데이터 병합(merge)과 조인(join) 데이터를 통합하는 방법은 크게 병합(merge)하는 방법과 조인(join)의 방법이 있습니다. 먼저 병합과 조인이 어떤 식으로 데이터를 합치는지 정리해볼께요. 1) 데이터 병합 여러 개의 데이터 파일이 있는 경우, column(열)을 결합 하거나 row(행)을 결합하는 작업 기업의 상반기 데이터 A와 하반기 데이터 B가 다른 파일에 저장된 경우, ..

[데이터 전처리 04] - 데이터가 너무 많아 분석하기 힘들다면? "데이터 축소"

안녕하세요. 데이터 요리사, 루나입니다. 데이터는 많으면 많을 수록 좋은거 아닌가요? 빅데이터가 있어야 좋은 성능을 낼 수 있다던데, 데이터 축소가 왠말인가요? 1 개념 잡기 일반적으로 데이터가 부족해서 데이터 분석이 제대로 안되는 경우가 많은 것은 사실이에요. 그렇다고 데이터 양이 너무 많으면요, 방대한 양의 데이터를 분석하기 위해서는 많은 시간이 소요될 뿐만 아니라 실용적이지 못하거나 분석이 불가능할 수도 있습니다. 우리 글을 쓸 때도, 말을 할 때도 마찬가지자나요. 주절주절 똑같은 말을 늘어놓는 것보다는 핵심만 간단히 하는 것이 훨씬 더 효과적인 것처럼요. 데이터도 역시 원본 데이터가 가지고 있는 의미는 최대한 보존하면서 축소된 데이터 셋을 만드는 과정이 필요합니다. 이렇게 함으로써 데이터 저장과 ..

[파시데]삼성전자 주가 데이터로 데이터프레임 연습 - pandas, dataframe, 데이터전처리

안녕하세요. 데이터 요리사, 루나입니다. pandas의 기본 기능을 얼마나 알고 계신가요? 다음 문제를 스스로 해결해보세요. - 이 글은 '파이썬으로 시작하는 데이터 분석'에서 배우는 문제를 일부 소개합니다. - pandas의 자세한 설명은 책의 내용을 참고해주세요. - '더보기'를 클릭하시면 샘플 답안을 확인하실 수 있습니다. - 제시한 답안은 샘플 답안입니다. 동일한 코드를 사용하지 않아도 정답일 수 있습니다. 1 준비 - 삼성전자 주가 데이터 불러오기 야후 파이낸스로부터 삼성전자 주가 데이터를 다운로드 받습니다. 2020년 1월 1일부터 2021년 6월 30일 데이터를 다운 받았습니다. 만약 다른 종목이나 날짜를 조정하고 싶다면 get_datat_yahoo()의 파라미터를 조절하여 설정해주세요. !..

파이썬 기본 문법, 10분 안에 정리하기

안녕하세요. 데이터 요리사, 루나 입니다. 파이썬 기본 문법은 배웠는데, 아직 익숙하지 않으시다구요? 파이썬 책을 들고다니기엔 무겁고, 하나씩 검색해서 하기에는 너무 시간이 오래 걸리시는 분들을 위해서 파이썬 기본 문법 정리본을 공유드립니다. pdf도 함께 첨부했으니 인쇄하셔서 사용하세요~ 1 파이썬 기본 문법 2 파이썬 기본 함수 pdf 파일 위에 정리한 내용 인쇄가능한 pdf 파일입니다. 함께 보면 좋은 글 ※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.

주피터 노트북 사용법, 테마 셋팅방법

안녕하세요. 데이터 요리사, 루나 입니다. 주피터 노트북 실행부터 설정방법까지 정리해볼께요! 1 다양한 파이썬 개발환경 : 통합 개발 환경 vs 인터렉티브 개발환경 파이썬의 특징 중 하나가 코드가 바로바로 실행된다는 것임 Java, C 언어 등의 프로그래밍 언어는 이클립스, 비주얼스튜디오 같은 통합개발환경(IDE)에서 코드를 작성하는 것이 일반적이나 파이썬은 통합개발환경(IDE) 뿐만 아니라 인터렉티브 개발 환경도 제공한다는 것이 큰 장점! '인터렉티브하다'는 것은 뭐냐? 코드 작성하고 실행하면 결과가 바로 아래 보임. 작성한 코드와 연산 결과를 곧장 확인 가능할 뿐만 아니라 결과도 함께 저장할 수 있음. (숙제 검사할 때 아주 좋음) 인터렉티브 개발환경 중 대표적인 것이 바로 주피터 노트북(Jupyte..

LIST