데이터·데이터전처리

[통계 기초 정리] - 데이터 분석을 할 때 꼭 알아야하는 통계 개념'만' 정리

데이터요리사 2020. 11. 23. 01:30

안녕하세요. 데이터 요리사, 루나입니다.

데이터 분석을 할 때 자주 등장하는 통계용어에 대해 정리해보았습니다.

('파이썬으로 배우는 통계학 교과서(한빛미디어)'를 참조하여 내용을 정리했습니다.

자세한 설명은 포함되어있지 않습니다.)

 

1 통계를 알아야하는 이유? 통계란 무엇인가?
  • 표본(현재 가지고 있는 데이터)을 분석해서 모집단(아직 가지고 있지 않은 데이터)을 이해하는 활동
  • 가지고 있는 데이터를 설명: 데이터를 정리 요약(평균값 등) → 기술통계
  • 모르는 데이터의 예측과 추측: 과거의 데이터를 분석하여 미래의 데이터를 예측(예: 판매량 예측) → 추측통계

 

2 표본(=샘플, Sample)을 얻는 과정
  • 샘플링(표본추출): 모집단(호수 안에 살고 있는 모든 물고기)에서 표본(잡은 물고기)을 얻는 활동
    • (단순) 랜덤 샘플링: 모집단에서 무작위로 표본을 얻는 활동
  • 확률변수: 확률적 법칙에 따라서 변화하는 값
  • 실현값: 확률변수의 구체적인 값(예: 3센티)
  • 확률(Probability) 표기법
    • (반올림한 결과) 몸 길이 2cm 물고기가 잡힐 확률: P(1.5 ≤ 몸길이< 2.5) = 20%
  • 확률분포: 확률변수와 그 값이 나올 수 있는 확률을 대응시켜 표시
  • 확률분포를 따른다: 어떤 데이터가 어떤 확률분포에 대응할 때
  • 모집단분포: 모집단이 따르는 확률분포
    • 호수에서 낚시를 해서 3센티짜리 물고기를 낚았다
    • =모집단에서 샘플링하여 3센티짜리 물고기라는 표본을 얻었다.
    • =모집단분포를 따르는 확률변수로 3센티짜리 물고기라는 데이터를 실현값으로 획득했다
  • 항아리모델: 항아리에서 공을 꺼내는 행동으로 여러 가지 현상을 표현하는 모델

 

3 기술통계
  • 수치형 변수: 얻은 데이터가 정량적인 수치(예: 물고기 마릿수, 물고기 몸길이)
    • 이산형변수: 정수값만 가지는 것
    • 연속형변수: 소수점 이하의 값을 가지며 연속적으로 변화하는 것
  • 카테고리형 변수: 정량적인 수치로 표시할 수 없는 것
    • 명목척도: 송사리/잉어
    • 서열척도: 대/중/소
  • 계급: 수치형 변수일 때 값을 몇 개의 범위로 분할(예: 1.5<몸길이<2.5)
    • 계급값: 계급을 대표하는 값, 중간값(예: 2)
  • 도수: 데이터가 나타난 횟수, 빈도수
    • 도수분포: 계급에 대응하는 도수의 목록
    • 상대도수: 전체를 1로 두었을 때 도수가 차지하는 비율
    • 누적도수: 계급을 작은 것부터 차례대로 정렬하여 그 도수의 누적 합계를 구한 것
    • 누적상대도수: 상대 도수의 누적값
    누적상대도수분포
    계급(몸길이) 도수분포 누적도수분포  
    1.5~ 2.5 1마리 1마리 1/10
    2.5~3.5 2마리 3마리 3/10
    3.5~4.5 4마리 7마리 7/10
    4.5~5.5 2마리 9마리 9/10
    5.5~6.5 1마리 10마리 10/10
  • 히스토그램 : 가로축(계급), 세로축(도수) 나타낸 그래프
  • 통계량: 데이터를 집계한 값
    • 표본의 특징을 살펴보고 모집단을 추정
    • 평균값
    • 기댓값: 아직 얻지 못한 모르는 데이터에도 적용 가능한 평균값
    • 분산: 데이터가 평균값과 얼마나 떨어져 있느냐를 표시하는 지표
      • 분산이 작다: 데이터가 평균값에 가깝게 모여 있는 경우
      • 분산이 크다: 데이터가 평균값에 멀리 떨어져 있는 경우
    • 평균과 분산과 데이터의 범위
      • 평균과 분산만으로는 데이터의 형상을 올바르게 판단할 수 없는 일도 있으므로, 히스토그램을 그림으로써 데이터의 특징을 시각적으로 볼 수 있음

 

4 추측통계(모집단 분포 추정)
  • 가정하기
    • '모집단 분포를 정규분포라고 가정하자'
      • 정규분포를 따르는 확률변수의 히스토그램은 평균값을 중심으로 좌우대칭이 되는 특징을 갖고 있음
      • 계산이 쉽고 데이터와 실제 데이터와 잘 대응
  • 확률질량함수: 데이터를 인수로 전달받아서 확률을 계산 결과로 내놓는 함수
  • 확률밀도: 연속형 변수의 값에 대응하는 확률
    • 예: 물고기 몸길이 4센티 이상~ 5센티 이하가 될 확률 = 4~5 사이를 적분하는 확률밀도함수를 사용해서 구함
  • 확률밀도함수: 데이터를 인수로 전달받아서 확률밀도를 계산하는 함수
    • 확률(밀도)이 언제나 0 이상이고, 확률의 합계가 1이 되는 다양한 수식
    • 함수가 너무 복잡하면 모집단분포에 전혀 대응할 수 없음
  • 정규분포
    • -∞ ~ ∞ 의 실숫값을 취한다
    • 평균값 부근의 확률밀도가 크다 = 평균값 주변에 데이터가 많다
    • 평균값에서 멀어질수록 확률밀도가 작다
    • 확률밀도의 크기는 평균값을 중심으로 좌우대칭이다
  • 모수(확률분포의 매개변수)
    • 통계 관찰의 대상이 되는 집단 전체인 모집단의 특징을 나타내는 수치
    • 확률분포를 특징짓는 값
    • 정규분포의 모수: 평균, 분산
  • 여러가지 확률분포
    • 정규분포 : -∞ ~ ∞
    • 이항분포 : 결과가 두 가지 패턴(예: 동전의 앞뒤)으로만 발생하는 데이터
    • 푸아송분포: 0 이상의 정수만 있는 데이터(예: 수량이나 횟수)
  • 모집단분포의 추정
    • 분포의 형태를 정한다.
    • 모수(확률분포의 매개변수)를 정한다
    • 모수를 추정하는 가장 간단한 아이디어는 '표본통계를 모집단분포의 모수라고 생각하는 것'
    • 추정오차: 표본의 통계량과 모수에는 조금 차이가 있음을 인정 → 구간추정

 

 

 

함께 보면 좋은 글

 


※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.

728x90