안녕하세요. 데이터 요리사, 루나입니다.
Feature Engineering, Data Cleaning
다 비슷비슷해보이는데요. 어떤 차이점이 있을까요?
1 | Feature Engineering |
Feature Engineering을 우리말로 번역하면 '특징 공학'이라고 할 수 있습니다.
Feature라는 것이 일반적으로 학습할 때 사용할 데이터 중 독립변수(X)에 해당하는 데이터를 의미하죠?
Feature Engineering은 주어진 Feature를 변형하여 타겟(종속변수, Y)값을 더 잘 설명할 수 있도록 변환하는 것이 목표입니다.
Feature가 의미가 있으려면 Feature(X)는 모델의 Target(Y)과 올바른 관계가 형성되어야합니다. 예를 들어 선형모델의 경우, 종속변수와 독립변수간의 선형 관계만 학습 할 수 있으므로, 이 종속변수와 독립변수간의 관계가 선형이어야합니다. 선형이 아니라면 Feature에 스케일을 변환하여 선형 관계가 되도록 변환하거나, 다른 알고리즘을 적용해야합니다.
Feature Engineering을 통해서 모델의 예측 성능을 향상시킬 수 있고, 컴퓨터 리소스를 더욱 효율적으로 활용할 수도 있습니다.
2 | Data Cleaning |
Data Cleaning은 우리말로 번역하면 '데이터 정제'입니다. 우리가 흔히 알고 있는 데이터 전처리 활동에 포함되는 작업을 수행합니다. 데이터를 학습 모델에 입력할 수 있는 형태로, 결측지 제거, 이상치 제거, 데이터 통합, 인코딩 작업 등을 변환하는 것입니다.
3 | Feature Engineering vs Data Cleaning |
일반적으로 Data Cleaning은 모델을 학습시키기 위해서 1차적으로 수행하는 데이터 전처리 활동이라면, Feature Engineering은 더 좋은 학습 성능을 내기 위해서 데이터를 가공하는 전처리 활동이라고 할 수 있습니다.
함께 보면 좋은 글 |
※ 이 글의 내용을 상업적으로 무단 활용, 편집하는 것은 금지하고 있습니다. 강의, 출판 등 상업적 이용이 필요하신 경우, 문의 바랍니다.
'데이터·데이터전처리' 카테고리의 다른 글
[데이터 전처리 07] - 데이터의 누수"Data Leakage"를 바로 잡자! (0) | 2021.11.30 |
---|---|
[데이터 전처리 05] - 데이터는 그냥 합칠 수 있는게 아니다, "데이터 통합" 제대로 정리하기 (0) | 2021.08.13 |
[데이터 전처리 04] - 데이터가 너무 많아 분석하기 힘들다면? "데이터 축소" (0) | 2021.08.13 |
쉽지만 실수하기 쉬운 데이터 분할! - 예비법, 교차검증, 부트스트랩까지 완벽 정리 (0) | 2021.01.27 |
[데이터 전처리 02] - 머신러닝에서 가장 중요한(?) 데이터 전처리(2) - 이상치(Outlier) 처리 (0) | 2021.01.27 |