본문 바로가기
반응형

머신러닝3

[AI] 1.3 머신러닝 테스트와 검증 모델이 새로운 샘플에 얼마나 잘 작동할지 아는 방법은 실제로 적용해 보는 것입니다. 가장 좋은 방법은 훈련 데이터를 훈련 세트와 테스트 세트로 나누는 것입니다. 샘플에 대한 오류 비율을 일반화 오차(외부 샘플 오차)라 하며 테스트 세트에서 모델을 평가함으로써 이 오차에 대한 추정값을 얻습니다. 해당 값은 새로운 모델에 얼마나 잘 작동할지 알려줍니다. 보통 훈련세트 80%, 테스트 세트20%로 분리합니다. [하이퍼파라미터 튜닝과 모델 선택] 모델평가는 그냥 테스트 세트를 사용하시면 됩니다. 만약 문제를 해결하기 위해 두 모델인 선형 모델과 다항모델 중 어떤것 을 사용할지 갈등하고 있다고 합시다. 둘중 하나를 결정하는 방법은 두 모델 모두 훈련 세트로 훈련하고 테스트 세트로 얼마나 잘 일반화되는지 비교해 보.. 2023. 2. 5.
[AI] 1.2 머신러닝 주요 과제 머신러닝에 문제가 되는 나쁜 알고리즘과 데이터에 대해 알아보겠습니다. 충분하지 않은 양의 훈련 데이터 자세한 내용은 The Unreasonable Effectiveness of Data 피터 노르빅 2009년 논문을 참고하시길 바랍니다. 대표성 없는 훈련 데이터, 낮은 품질의 데이터, 관련 없는 특성 관련 없는 특성은 특성 공학을 통해 분류할 수 있습니다. 가지고 있는 특성 중에서 가장 유용한 특성을 선택하는 특성 선택, 특성을 결합하여 더 유용한 특성을 만드는 특성추출, 새로운 데이터를 수집해 새 특성을 만드는 공학입니다. 잘못된 데이터를 학습하게 된다면 샘플링 잡음 및 샘플링 편향이 발생할 수 있습니다. 훈련 데이터에서는 과대 적합이라 하는 훈련데이터에 너무 잘 맞지만 일반성이 떨어지는 일이 발생할 .. 2023. 2. 5.
[AI] 1.1 머신러닝 시스템의 종류 머신러닝 시스템의 종류는 굉장히 많습니다. 사람의 감독하에 훈련하는 것인가? (지도, 비지도, 준지도, 강화학습) 실시간으로 점진적인 학습인가? (온라인 학습, 배치 학습) 단순하게 알고있는 데이터 포인트와 새 데이터 포인트를 비교하는 것인가? 훈련 데이터셋에서 패턴을 발견하여 예측하는 모델인가? ( 사례 기반 학습, 모델 기반학습) 이 범주들은 서로 배타적이지 않으며 서로간 원하는 대로 연결할 수 있습니다. 지도 학습과 비지도 학습 머신러닝 시스템을 학습하는 동안의 감독 형태나 정보량에 따라 분류할 수 있습니다. 지도 학습, 비지도 학습, 준지도 학습, 강화 학습 등 크게 네 가지 범주로 나뉩니다. [지도 학습] 전형적인 방식으로는 다음과 같습니다. 분류 : 스팸인지 아닌지 새 메일을 어떻게 분류할 것.. 2023. 2. 5.
반응형