본문 바로가기

Machine Learning

(2)
머신 러닝 입문자를 위한 설명 - 교차 검증(K-Fold Cross Validation) 기계 학습(머신 러닝) 알고리즘은 '모델'이 학습 데이터(Training Data)를 통해 학습된 속성을 기반으로 결과를 예측하도록 합니다. 얼핏 생각하기에는 적합한 데이터를 이용하여 훈련시킨다면 다른 데이터에 대해서도 정확한 답을 내놓을 것 같지만, 실제로 시도해 보면 생각만큼 제대로 작동하지는 않습니다. 여기서는 그 원인들 중 하나인 Overfitting(이하 과적합) 문제에 대해 이야기해보고자 합니다. 과적합이란 '학습이 너무 잘 된 상태'를 의미합니다. 학습이 잘 이루어졌는데 어째서 문제가 발생하는지 궁금하신 분들을 위해 간단한 예시를 들겠습니다. 다음과 같이 붉은색의 예측한 그래프와 파란색의 원하는 결과 그래프가 상이한 상황을 볼 수 있습니다. 이처럼 과적합이란 "모델이 실제 변수들 간의 관계보..
중학생도 쉽게 이해하는 Gaussian Naive Bayes Classifier ML을 이용해서 데이터를 예측하는 과정은 크게 세단계로 이루어집니다. training data 분석 Feature Engineering model 선정 및 data feed & test data를 이용한 데이터 예측 그 중 세번째 단계, 즉 model 선정에서 선택할 수 있는 model은 굉장히 다양합니다. 간단히 나열해보자면, Logistic Regression Support Vector Machines (Linear and Radial) Random Forest K-Nearest Neighbors Naive Bayes Decision Tree 등이 있죠! 이번 포스트에서는 이 많은 model 중 Naive Bayes, 그 중에서도 Gaussian Naive Bayes classifier에 대해 알아보..