안녕하세요. 데이터 요리사, 루나입니다. 머신러닝에서 데이터는 자산입니다. 머신러닝 알고리즘 개발자는 자산을 운용하는 사람이 되겠네요. :) 데이터가 많다많다 하지만 실제로 데이터 분석할 때 보면 데이터가 한 없이 부족합니다. 아니 쓸만한 데이터는 부족합니다. ㅠㅠ 그렇기 때문에 데이터 분할은 정말 계획적으로 잘~ 해야하는데요. 우선 개념부터 정리해보겠습니다. 1 학습용 데이터 vs 테스트용 데이터 그리고 검증용 데이터 우리가 가지고 있는 데이터가 100이라면 보통 70~80%는 학습과정에서 사용하고, 나머지는 모델을 평가하는데 사용합니다. 학습과정에서 사용하는 데이터를 학습용 데이터(Training set), 평가 과정에서 사용하는 데이터를 테스트용 데이터(Test set)이라고 합니다. 머신러닝을 시..