본문 바로가기
『 Python 』/AI

[AI] 1.2 머신러닝 주요 과제

by Play IT 2023. 2. 5.
반응형

머신러닝에 문제가 되는 나쁜 알고리즘과 데이터에 대해 알아보겠습니다.

 


충분하지 않은 양의 훈련 데이터


 

자세한 내용은 The Unreasonable Effectiveness of Data 피터 노르빅 2009년 논문을 참고하시길 바랍니다.

 

 


대표성 없는 훈련 데이터,

낮은 품질의 데이터, 관련 없는 특성


관련 없는 특성은 특성 공학을 통해 분류할 수 있습니다. 가지고 있는 특성 중에서 가장 유용한 특성을 선택하는 특성 선택, 특성을 결합하여 더 유용한 특성을 만드는 특성추출, 새로운 데이터를 수집해 새 특성을 만드는 공학입니다.

잘못된 데이터를 학습하게 된다면  샘플링 잡음 및 샘플링 편향이 발생할 수 있습니다.

 

훈련 데이터에서는 과대 적합이라 하는 훈련데이터에 너무 잘 맞지만 일반성이 떨어지는 일이 발생할 수있습니다. 

과대적합은 보통 잡음의 양에 비해 모델이 너무 복잡할때 발생하기에 다음과 같은 방법으로 해결에 도움을 줄수 있습니다.

  1. 파라미터 수가 적은 모델을 선택, 훈련 데이터에 있는 특성 수를 줄이거나 모델에 제약을 가하여 단순화시키기
  2. 훈련 데이터를 더 많이 모으기
  3. 훈련 데이터의 잡음 줄이기

과대적합의 위험을 감소하기 위해 규제 및 자유도를 부여할 수 있습니다.

여기서 규제와 자유도를 부여하는 과정에서 하이퍼파라미터가 관여를 합니다.

이 하이퍼 파리미터의 튜닝 과정은 매우 중요한 과정입니다.

 

과소적합은 과대 적합의 반대입니다. 모델이 너무 단순해 데이터의 구조를 학습하지 못할때 발생합니다.

해결방법은 다음과 같습니다.

  1. 더 강력한 모델을 선택하기
  2. 학습 알고리즘에 더 좋은 특성 만들기
  3. 모델의 제약을 줄이기

 

1.2 1.3장을 정리해보면 다음과 같습니다.

  1. 머신러닝은 어떤 작업을 더 잘하도록 학습하는 것
  2. 머신러닝은 여러 종류가 있으며 지도 비지도, 온라인 배치, 사례기반 학습 등이 있습니다.
  3. 훈련 세트에 데이터를 모아 학습 알고리즘에 주입하고 학습 알고리즘이 모델 기반이면 훈련 세트에 모델을 맞추기 위해 파라미터를 조정하며 새로운 데이터에서도 좋은 예측을 만들것을 기대합니다. 반면 사례기반일 경우 샘플을 기억하는 것이 학습이고 유사도 측정을 사용하여 학습한 샘플과 새로운 샘플을비교하는 식으로 새로운 샘플을 일반화 시킵니다.
  4. 훈련 세트가 너무 적거나 대표성이 없고 잡읍이 많은 특성으로 이루어져 있다면 시스템은 잘 작동하지 않습니다. 또는 모델이 너무 단순하거나 너무 복잡해서도 안됩니다.

 

 

반응형

댓글