Machine Learning (23) 썸네일형 리스트형 머신 러닝 입문자를 위한 설명 - 교차 검증(K-Fold Cross Validation) 기계 학습(머신 러닝) 알고리즘은 '모델'이 학습 데이터(Training Data)를 통해 학습된 속성을 기반으로 결과를 예측하도록 합니다. 얼핏 생각하기에는 적합한 데이터를 이용하여 훈련시킨다면 다른 데이터에 대해서도 정확한 답을 내놓을 것 같지만, 실제로 시도해 보면 생각만큼 제대로 작동하지는 않습니다. 여기서는 그 원인들 중 하나인 Overfitting(이하 과적합) 문제에 대해 이야기해보고자 합니다. 과적합이란 '학습이 너무 잘 된 상태'를 의미합니다. 학습이 잘 이루어졌는데 어째서 문제가 발생하는지 궁금하신 분들을 위해 간단한 예시를 들겠습니다. 다음과 같이 붉은색의 예측한 그래프와 파란색의 원하는 결과 그래프가 상이한 상황을 볼 수 있습니다. 이처럼 과적합이란 "모델이 실제 변수들 간의 관계보.. 컴퓨터의 시각 인식에 대해 알아보자 The Beginner's Guide to Computer Vision 원문 링크 : https://www.kaggle.com/sandeeppat/the-beginner-s-guide-to-computer-vision/notebook Intro 안녕하세요 여러분! 이 글은 컴퓨터의 시각 인식과 특히 컴퓨터가 어떻게 이미지를 처리하는지에 대해서 처음 알아보는 분들께 가이드가 되고자 만들어진 커널입니다. 저희가 이번 커널에서 다룰 내용은 아래와 같습니다 - Section A 이미지가 컴퓨터에 어떻게 저장되며, 왜 그렇게 저장되는가? 이미지를 어떻게 읽어오고, 그 속성을 어떻게 확인하는가? 훈련 목적의 요구사항에 맞게 이미지의 사이즈를 재설정하는 방법은 무엇인가? Section B 커널 transfor.. Boosting과 친해져보자! Boosting (Type of Ensembling) 오늘 알아볼 것은 Machine Learning, 즉 기계 학습시에 사용되는 Ensemble Learning 의 기법 중 하나인 Boosting이 무엇인지, 그리고 Boosting의 종류로는 어떤 것들이 있으며 각각 어떤 특징을 가지고 있는지에 대한 것입니다. Ensembling 이 글을 읽고 있는 분들 모두 아시다시피, 기계 학습 과정에서 우리는 새로운 데이터에 대해서 예측을 하기 위해 K-NN, SVM과 같은 여러 기계학습 알고리즘들 중 하나를 선택하게 됩니다. 그러나 이 하나의 모델만으로 단순히 예측할 수 있는 수준에는 한계가 있기에 사람들은 고민하였고, Ensemble 이란 새로운 기법을 만들어냈죠. Ensemble은 프랑스어로 조화, 통일이라.. 중학생도 쉽게 이해하는 Gaussian Naive Bayes Classifier ML을 이용해서 데이터를 예측하는 과정은 크게 세단계로 이루어집니다. training data 분석 Feature Engineering model 선정 및 data feed & test data를 이용한 데이터 예측 그 중 세번째 단계, 즉 model 선정에서 선택할 수 있는 model은 굉장히 다양합니다. 간단히 나열해보자면, Logistic Regression Support Vector Machines (Linear and Radial) Random Forest K-Nearest Neighbors Naive Bayes Decision Tree 등이 있죠! 이번 포스트에서는 이 많은 model 중 Naive Bayes, 그 중에서도 Gaussian Naive Bayes classifier에 대해 알아보.. Ensemble의 기법 앙상블에 대해 공부하는 분이라면 이미 Logistic Regression Tree와 Random Forest Regression의 차이에 대해 알 것이라 생각합니다. Random Forest Regression은 여러개의 Logistic Regression Tree들의 예측값들을 평균내서 예측값을 추측합니다. 이 모델의 기반이 되는 생각은 "똑똑한 한 명의 천재보단 멍청한 여러명의 집단이 낫다."라고 요약할 수 있겠네요. 앙상블도 마찬가지 입니다. 앙상블이란 머신 러닝에서 사용되는 모델의 성능을 올리기 위한 기법 중 하나로 다양한 기법들이 존재합니다. 앙상블에는 크게 Voting, Bagging, Boosting, Stacking. 총 4가지가 있습니다. 이 글에선 앙상블의 기법과 각 기법들의 동작 방식.. Supervised Learning Models 머신러닝에는 3종류의 방법이 있습니다. Supervised Learning Unsupervised Learning Reinforcement Learning 지도학습(Supervised Learning)은 인풋데이터와 아웃풋데이터가 정해져 있고 이를 토대로 학습하여 인풋데이터에 맞는 아웃풋이 나올 수 있도록 학습합니다. 비지도학습(Unsupervised Learning)은 인풋데이터에 대한 결과가 정해져있지 않을 때의 학습 방법입니다. 보통 특성이 많은 데이터를 간단하게 줄여서 나타내거나 비슷한 데이터들끼리 묶는 클러스터링 등의 방법을 사용합니다. 강화학습(Reinforcement Learning)은 주어진 상황에서 보상을 최대화할 수 있도록 하는 행동을 학습하는 방법을 의미합니다. 이번 포스트에서는 머신.. Epoch, Batch, Iteration 용어 정리 0. Mini Batch Gradient Descent Batch Gradient Descent와 Stochastic Gradient Descent의 합의 알고리즘인 Mini-Batch Gradient Descent는 속도 및 일반화 측면에서 다른 최적화 기법에 비해 상대적으로 좋은 성적을 내므로 Neural Network와 같은 모델에서 자주 채택됩니다. Mini Batch Gradient Descent의 기본적인 아이디어는 전체 데이터 셋을 여러개의 Mini Batch로 쪼개어 각각의 묶음에 대해 Weight Update 값을 계산하여 Local Minima에 갇히는 상황을 회피하고 SGD와 같이 빠른 속도로 최적점에 다가가는 것을 목표로하는 알고리즘을 사용하는 것입니다. 이후 해당 기법을 이용한 o.. 이전 1 2 3 다음