IT 알아가기

과대적합과 과소적합 차이점 쉽게 이해하기: AI 머신러닝 용어 총정리

성공하는그날까지 2025. 7. 2. 07:00
728x90

과대적합과 과소적합 차이점 쉽게 이해하기: AI 머신러닝 용어 총정리

 

 

 

 

AI와 머신러닝 공부를 시작하시는 분들이 꼭 알아두셔야 할 과대적합(Overfitting)과소적합(Underfitting) 의 차이에 대해 말씀드리려고 합니다.

이런 용어들은 어려워 보이지만, 쉽게 이해할 수 있을 정도로 간단한 개념입니다.

끝까지 읽어보시면 쉽게 과대적합과 과소적합의 차이를 명확히 아실 수 있습니다.

 


 

1. 과대적합이란 무엇인가요?

 

과대적합(Overfitting)

과대적합은 머신러닝 모델이 너무 똑똑해져서 문제를 푸는 규칙을 넘어 특정 데이터에만 맞게 외운 것 같은 상태를 말합니다.

예를 들어, 여러분이 수학 문제를 풀 때 시험에 나온 문제만 계속 외우는 것을 생각해 보세요. 새로운 문제가 나오면 풀지 못하고, 오직 외운 문제만 잘 푸는 겁니다. 바로 이런 게 과대적합입니다.

 

과대적합이 되면 훈련 데이터(모델을 공부시킨 데이터) 에 대해서는 성적이 아주 좋지만, 시험(새로운 데이터)을 보면 엉망이 됩니다. 이유는 모델이 진짜 규칙을 배운 게 아니라 외운 것에 불과하기 때문입니다.

 

 


2. 과소적합이란 무엇인가요?

 

과소적합(Underfitting)

과소적합은 모델이 공부를 덜 해서 문제를 잘 풀지 못하는 상태입니다.

다시 수학 예시로 보겠습니다. 공부를 너무 조금 해서 기본 문제도 못 풀고, 연습했던 문제도 제대로 풀지 못하는 상태입니다. 즉, 훈련 데이터에서도 잘하지 못하고, 새로운 데이터에서도 못합니다.

머신러닝에서는 모델이 너무 단순하거나 학습을 충분히 하지 않으면 이런 과소적합이 생깁니다. 이럴 때는 더 많은 학습이나 더 복잡한 모델이 필요할 수 있습니다.

 

 


3. 과대적합과 과소적합의 차이점

 

 

여기서 과대적합과 과소적합의 차이를 한눈에 이해하실 수 있도록 비교해보겠습니다.

 

구분 과대적합 (Overfitting) 과소적합 (Underfitting)
공부 상태 너무 외워버림 공부가 부족함
훈련 데이터 성능 매우 좋음 나쁨
새로운 데이터 성능 나쁨 나쁨
원인 모델이 너무 복잡함 모델이 너무 단순함
해결법 모델 단순화, 데이터 늘리기 모델 복잡화, 학습 더 하기
 

즉, 과대적합은 너무 외운 것 때문에 생기고, 과소적합은 공부가 부족해서 생깁니다.

 

 


4. 과대적합과 과소적합을 방지하는 방법

 

 

이제 두 가지 문제를 어떻게 해결할 수 있는지 알려드리겠습니다.

과대적합을 방지하는 방법

  • 데이터를 더 많이 준비합니다.
  • 모델을 단순하게 만듭니다.
  • 드롭아웃(dropout) 같은 기법을 사용해 과도한 학습을 방지합니다.
  • 교차검증(cross-validation)을 사용하여 일반화 성능을 높입니다.

과소적합을 방지하는 방법

  • 모델을 더 복잡하게 만듭니다.
  • 학습 시간을 늘립니다.
  • 더 좋은 특징(feature)을 찾아서 모델에 제공합니다.

즉, 과대적합은 모델이 덜 똑똑하게, 과소적합은 모델이 더 똑똑하게 공부하도록 도와주는 방법이 필요합니다.

 

 


 

5. 실제 사례로 이해하는 과대적합 vs 과소적합

 

 

마지막으로 실제 예를 통해 쉽게 이해해 보겠습니다.

과대적합 사례

  • 어떤 앱이 사람 얼굴을 인식하는데, 훈련 데이터에 있던 사람은 잘 찾지만 새로운 사람 얼굴은 전혀 못 알아봅니다.
  • 이유는 훈련 데이터의 얼굴만 외워버렸기 때문입니다.

과소적합 사례

  • 숫자 글씨를 구분하는 프로그램을 만들었는데, 숫자 0과 8도 제대로 구분하지 못합니다.
  • 이유는 모델이 너무 단순해서 숫자의 복잡한 차이를 배우지 못했기 때문입니다.

이처럼 과대적합과 과소적합은 AI나 머신러닝을 하면서 꼭 주의해야 할 문제입니다.

 

머신러닝과 AI에서 자주 나오는 과대적합과 과소적합의 차이를 아주 쉽게 설명해 보았습니다.

과대적합은 너무 외워서 문제를 풀지 못하는 것이고, 과소적합은 공부가 부족해서 문제를 못 푸는 것입니다. 이 두 가지는 반대 개념처럼 보이지만, 결국 적절한 공부(학습) 를 통해 둘 다 피할 수 있습니다.

머신러닝 모델을 잘 만들기 위해서는 데이터의 양과 품질, 그리고 모델의 복잡도를 잘 조절하는 것이 중요합니다. 

728x90