Article 2. 데이터 분할 3122

less than 1 minute read

Section 2. 분석 환경 구축

Paragraph 1. 데이터 분할 개념

  • 데이터 분할은 데이터를 학습용 데이터, 검증용 데이터, 평가용 데이터로 분할하는 것을 말한다.
  • 데이터 분할을 하는 이유는 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 과대 적합의 문제를 예방하여 2종 오류인 잘못된 귀무가설을 채택하는 오류를 방지하는 데 목적이 있다.

Paragraph 2. 데이터 분할 시 고려사항

데이터 분할

  • 학습용 데이터와 검증용 데이터는 학습 과정에서 사용하며 평가용 데이터는 학습 과정에 사용되지 않고 오로지 모형의 평가를 위한 과정에만 사용된다.
  • 검증용 데이터를 사용하여 모형의 학습 과정에서 모형이 제대로 학습되었는지 중간에 검증을 실시하고, 과대 적합과 과소 적합의 발생 여부 등을 확인하여 모형의 튜닝에도 사용한다.
  • 학습이 완료된 모형에 대하여 한 번도 사용하지 않은 평가용 데이터를 통하여 모형을 평가하며, 이때 사용된 결과가 모형의 평가 지표가 된다.
  • 데이터를 일반적으로 학습용 데이터와 검증용 데이터를 60~80% 사용하고, 평가용 데이터를 20~40%로 분할하지만 절대적인 기준은 아니다.
  • 데이터가 충분하지 않을 경우 학습용 데이터와 평가용 데이터로만 불할하여 사용하기도 한다.

데이터 분할 예제

데이터 분할 예제