데이터·데이터전처리

[데이터 전처리 04] - 데이터가 너무 많아 분석하기 힘들다면? "데이터 축소"

데이터요리사 2021. 8. 13. 18:20

안녕하세요. 데이터 요리사, 루나입니다.

 

데이터는 많으면 많을 수록 좋은거 아닌가요?

빅데이터가 있어야 좋은 성능을 낼 수 있다던데, 데이터 축소가 왠말인가요?

 

1 개념 잡기

일반적으로 데이터가 부족해서 데이터 분석이 제대로 안되는 경우가 많은 것은 사실이에요. 그렇다고 데이터 양이 너무 많으면요, 방대한 양의 데이터를 분석하기 위해서는 많은 시간이 소요될 뿐만 아니라 실용적이지 못하거나 분석이 불가능할 수도 있습니다. 우리 글을 쓸 때도, 말을 할 때도 마찬가지자나요. 주절주절 똑같은 말을 늘어놓는 것보다는 핵심만 간단히 하는 것이 훨씬 더 효과적인 것처럼요.

데이터도 역시 원본 데이터가 가지고 있는 의미는 최대한 보존하면서 축소된 데이터 셋을 만드는 과정이 필요합니다. 이렇게 함으로써 데이터 저장과 분석 비용을 줄일 수 있어요!

2 예제로 이해하기!

데이터 축소는 속성을 줄이느냐, 인스턴스를 줄이느냐에 따라 '차원축소'와 '인스턴스 축소'의 개념으로 나눠서 살펴 볼 수 있습니다.

데이터 축소

 

3 차원축소

차원 축소는 관련성이 적거나 중복되는 속성을 찾아서 제거함으로써 분석의 효율성을 높이는 방법입니다. 

모든 속성을 사용하여 얻은 데이터 분석 결과 ≈ 차원 축소한 속성을 사용하여 얻은 데이터 분석 결과

데이터의 차원을 축소하는 방법에는 데이터 분석가가 사전에 알고 있는 도메인 지식을 기반으로 속성을 통합하거나 관련없는 속성을 제거하는 방법과 상관관계를 분석, PCA와 같은 알고리즘 기반의 방법이 있습니다. 

 

4 인스턴스 축소

인스턴스를 축소하는 방법으로는 샘플링을 통해서 일부 데이터만 사용하는 방법 또는 기존의 인스턴스를 그룹핑하여 저장하는 방법 등이 있습니다. 

먼저 샘플링 방식은 데이터를 추출하는 방법에 따라 재사용하는지 여부에 따라 아래와 같이 구분됩니다.

구분 샘플링방법 설명
데이터 추출 방법 단순 랜덤 샘플링
-단순 확률 추출, 무작위 추출
층화 샘플링
-모집단을 동질적인 다수의 층으로 나누고, 층을 기준으로 단순 무작위 표본추출을 하는 방법
데이터
재사용 여부
복원 추출법
-추출한 데이터를 다시 모집단에 복원하여 추출하는 방법
비복원 추출법
-추출한 데이터를 모집단에서 제외하는 방법

 

인스턴스를 그룹핑하는 방법 중에 가장 간단한 방법은 연속형 변수를 범주형 변수로 이산화하여 관리하는 것입니다. 예를들어 나이(age)를 {어린이, 성인, 노인}과 같이 범주로 나눠서 관리하는 것이 있습니다.

 

함께 보면 좋은 글

 


※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.

728x90