데이터·데이터전처리

[데이터전처리 08] - Feature Engineering vs Data Cleansing, 용어 정리

데이터요리사 2022. 2. 20. 09:18

안녕하세요. 데이터 요리사, 루나입니다.

 

Feature Engineering, Data Cleaning

다 비슷비슷해보이는데요. 어떤 차이점이 있을까요?

 

1 Feature Engineering

Feature Engineering을 우리말로 번역하면 '특징 공학'이라고 할 수 있습니다. 

Feature라는 것이 일반적으로 학습할 때 사용할 데이터 중 독립변수(X)에 해당하는 데이터를 의미하죠?

 

Feature Engineering은 주어진 Feature를 변형하여 타겟(종속변수, Y)값을 더 잘 설명할 수 있도록 변환하는 것이 목표입니다.

Feature가 의미가 있으려면 Feature(X)는 모델의 Target(Y)과 올바른 관계가 형성되어야합니다. 예를 들어 선형모델의 경우, 종속변수와 독립변수간의 선형 관계만 학습 할 수 있으므로, 이 종속변수와 독립변수간의 관계가 선형이어야합니다. 선형이 아니라면 Feature에 스케일을 변환하여 선형 관계가 되도록 변환하거나, 다른 알고리즘을 적용해야합니다.

 

Feature Engineering을 통해서 모델의 예측 성능을 향상시킬 수 있고, 컴퓨터 리소스를 더욱 효율적으로 활용할 수도 있습니다.  

 

2 Data Cleaning

Data Cleaning은 우리말로 번역하면 '데이터 정제'입니다. 우리가 흔히 알고 있는 데이터 전처리 활동에 포함되는 작업을 수행합니다. 데이터를 학습 모델에 입력할 수 있는 형태로, 결측지 제거, 이상치 제거, 데이터 통합, 인코딩 작업 등을 변환하는 것입니다.

 

3 Feature Engineering vs Data Cleaning

일반적으로 Data Cleaning은 모델을 학습시키기 위해서 1차적으로 수행하는 데이터 전처리 활동이라면, Feature Engineering은 더 좋은 학습 성능을 내기 위해서 데이터를 가공하는 전처리 활동이라고 할 수 있습니다. 

 

 

 

 

 

함께 보면 좋은 글

 


※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.

728x90