안녕하세요. 데이터 요리사, 루나입니다.
데이터 분석을 할 때 자주 등장하는 통계용어에 대해 정리해보았습니다.
('파이썬으로 배우는 통계학 교과서(한빛미디어)'를 참조하여 내용을 정리했습니다.
자세한 설명은 포함되어있지 않습니다.)
1 | 통계를 알아야하는 이유? 통계란 무엇인가? |
- 표본(현재 가지고 있는 데이터)을 분석해서 모집단(아직 가지고 있지 않은 데이터)을 이해하는 활동
- 가지고 있는 데이터를 설명: 데이터를 정리 요약(평균값 등) → 기술통계
- 모르는 데이터의 예측과 추측: 과거의 데이터를 분석하여 미래의 데이터를 예측(예: 판매량 예측) → 추측통계
2 | 표본(=샘플, Sample)을 얻는 과정 |
- 샘플링(표본추출): 모집단(호수 안에 살고 있는 모든 물고기)에서 표본(잡은 물고기)을 얻는 활동
- (단순) 랜덤 샘플링: 모집단에서 무작위로 표본을 얻는 활동
- 확률변수: 확률적 법칙에 따라서 변화하는 값
- 실현값: 확률변수의 구체적인 값(예: 3센티)
- 확률(Probability) 표기법
- (반올림한 결과) 몸 길이 2cm 물고기가 잡힐 확률: P(1.5 ≤ 몸길이< 2.5) = 20%
- 확률분포: 확률변수와 그 값이 나올 수 있는 확률을 대응시켜 표시
- 확률분포를 따른다: 어떤 데이터가 어떤 확률분포에 대응할 때
- 모집단분포: 모집단이 따르는 확률분포
- 호수에서 낚시를 해서 3센티짜리 물고기를 낚았다
- =모집단에서 샘플링하여 3센티짜리 물고기라는 표본을 얻었다.
- =모집단분포를 따르는 확률변수로 3센티짜리 물고기라는 데이터를 실현값으로 획득했다
- 항아리모델: 항아리에서 공을 꺼내는 행동으로 여러 가지 현상을 표현하는 모델
3 | 기술통계 |
- 수치형 변수: 얻은 데이터가 정량적인 수치(예: 물고기 마릿수, 물고기 몸길이)
- 이산형변수: 정수값만 가지는 것
- 연속형변수: 소수점 이하의 값을 가지며 연속적으로 변화하는 것
- 카테고리형 변수: 정량적인 수치로 표시할 수 없는 것
- 명목척도: 송사리/잉어
- 서열척도: 대/중/소
- 계급: 수치형 변수일 때 값을 몇 개의 범위로 분할(예: 1.5<몸길이<2.5)
- 계급값: 계급을 대표하는 값, 중간값(예: 2)
- 도수: 데이터가 나타난 횟수, 빈도수
- 도수분포: 계급에 대응하는 도수의 목록
- 상대도수: 전체를 1로 두었을 때 도수가 차지하는 비율
- 누적도수: 계급을 작은 것부터 차례대로 정렬하여 그 도수의 누적 합계를 구한 것
- 누적상대도수: 상대 도수의 누적값
계급(몸길이) 도수분포 누적도수분포 1.5~ 2.5 1마리 1마리 1/10 2.5~3.5 2마리 3마리 3/10 3.5~4.5 4마리 7마리 7/10 4.5~5.5 2마리 9마리 9/10 5.5~6.5 1마리 10마리 10/10 - 히스토그램 : 가로축(계급), 세로축(도수) 나타낸 그래프
- 통계량: 데이터를 집계한 값
- 표본의 특징을 살펴보고 모집단을 추정
- 평균값
- 기댓값: 아직 얻지 못한 모르는 데이터에도 적용 가능한 평균값
- 분산: 데이터가 평균값과 얼마나 떨어져 있느냐를 표시하는 지표
- 분산이 작다: 데이터가 평균값에 가깝게 모여 있는 경우
- 분산이 크다: 데이터가 평균값에 멀리 떨어져 있는 경우
- 평균과 분산과 데이터의 범위
- 평균과 분산만으로는 데이터의 형상을 올바르게 판단할 수 없는 일도 있으므로, 히스토그램을 그림으로써 데이터의 특징을 시각적으로 볼 수 있음
4 | 추측통계(모집단 분포 추정) |
- 가정하기
- '모집단 분포를 정규분포라고 가정하자'
- 정규분포를 따르는 확률변수의 히스토그램은 평균값을 중심으로 좌우대칭이 되는 특징을 갖고 있음
- 계산이 쉽고 데이터와 실제 데이터와 잘 대응
- '모집단 분포를 정규분포라고 가정하자'
- 확률질량함수: 데이터를 인수로 전달받아서 확률을 계산 결과로 내놓는 함수
- 확률밀도: 연속형 변수의 값에 대응하는 확률
- 예: 물고기 몸길이 4센티 이상~ 5센티 이하가 될 확률 = 4~5 사이를 적분하는 확률밀도함수를 사용해서 구함
- 확률밀도함수: 데이터를 인수로 전달받아서 확률밀도를 계산하는 함수
- 확률(밀도)이 언제나 0 이상이고, 확률의 합계가 1이 되는 다양한 수식
- 함수가 너무 복잡하면 모집단분포에 전혀 대응할 수 없음
- 정규분포
- -∞ ~ ∞ 의 실숫값을 취한다
- 평균값 부근의 확률밀도가 크다 = 평균값 주변에 데이터가 많다
- 평균값에서 멀어질수록 확률밀도가 작다
- 확률밀도의 크기는 평균값을 중심으로 좌우대칭이다
- 모수(확률분포의 매개변수)
- 통계 관찰의 대상이 되는 집단 전체인 모집단의 특징을 나타내는 수치
- 확률분포를 특징짓는 값
- 정규분포의 모수: 평균, 분산
- 여러가지 확률분포
- 정규분포 : -∞ ~ ∞
- 이항분포 : 결과가 두 가지 패턴(예: 동전의 앞뒤)으로만 발생하는 데이터
- 푸아송분포: 0 이상의 정수만 있는 데이터(예: 수량이나 횟수)
- 모집단분포의 추정
- 분포의 형태를 정한다.
- 모수(확률분포의 매개변수)를 정한다
- 모수를 추정하는 가장 간단한 아이디어는 '표본통계를 모집단분포의 모수라고 생각하는 것'
- 추정오차: 표본의 통계량과 모수에는 조금 차이가 있음을 인정 → 구간추정
함께 보면 좋은 글 |
※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.
728x90
'데이터·데이터전처리' 카테고리의 다른 글
[데이터 전처리 05] - 데이터는 그냥 합칠 수 있는게 아니다, "데이터 통합" 제대로 정리하기 (0) | 2021.08.13 |
---|---|
[데이터 전처리 04] - 데이터가 너무 많아 분석하기 힘들다면? "데이터 축소" (0) | 2021.08.13 |
쉽지만 실수하기 쉬운 데이터 분할! - 예비법, 교차검증, 부트스트랩까지 완벽 정리 (0) | 2021.01.27 |
[데이터 전처리 02] - 머신러닝에서 가장 중요한(?) 데이터 전처리(2) - 이상치(Outlier) 처리 (0) | 2021.01.27 |
[데이터 전처리 01] - 머신러닝에서 가장 중요한(?) 데이터 전처리, 결측치 처리 (0) | 2021.01.27 |