본문 바로가기

머신러닝의 정의

 

머신러닝의 몇몇 주요 개념은 확률이론 및 통계학에서 파생된 것이기 때문에 머신러닝의 역사를 살펴볼 때는 확률이론부터 시작해야 한다. 1763년 에 등장한 베이즈 정리(Bayes Theorem)는 머신러닝에 대한 현대적인 접근 법에서 핵심 개념으로 남아 있다. 그 이후 발전 속도는 생각보다 빠르지 않았으나 여러 번의 황금기와 암흑기를 거듭하면서 지금에 이르렀다. 2016년 기준으로 머신러닝은 인공지능 분야의 총투자액 중 60%를 끌어 모음으로써 인공지능 분야의 핵심 동력으로 자리잡았다.
 

머신러닝의 정의

 
머신러닝은 경제거래(전자상거래, 마케팅 및 소매 등), 컴퓨터 과학과 기 술, 통계학 및 의료 등 많은 분야에서 활발하게 사용되고 있다. 예를 들어, 아마존은 상품 추천, 배송 및 물류 예측 등에 머신러닝 기술을 응용한 지 이미 20년이 지났다. 머신러닝을 활용해 아마존의 물류는 기존 1시간 걸리 던 순환 속도가 15분으로 단축되었다. 재고 공간을 50% 이상 높이고 운영비 용을 20% 이상 낮출 수 있었다. 또한 징동(JD)은 특정 시간에 특정 상품 에 대한 수요를 예측하여 사전에 상품을 준비함으로써 유통시간을 단축하는 물류전략을 취했다. 이런 전략에 의존해서 JD의 물류 서비스는 소비자의 마 음을 얻고 알리바바(Alibaba)와 맞설 수 있는 쇼핑 사이트가 되었다.
머신러닝에 관해 다양한 정의가 있으나 핵심 내용은 비슷하다. 요약하면 머신러닝은 컴퓨터가 경험을 사용하여 성능을 향상시키거나 정확한 예측을 하는 계산방법 또는 알고리즘(algorithm)이다. 여기에서 경험이란 학습자가 사용할 수 있는 과거 정보를 말하며, 일반적으로 분석이 가능한 전자 데이터 형태로 수집된다. 본 연구에서는 주요 경제학 이슈에 적용 가능한 머신러닝 기법을 다루기 때문에, 머신러닝의 개념을 상대적으 로 좁게 정의한다. 즉 본 연구에서는 머신러닝을 예측(회귀), 분류, 클러스터 링에 중점을 두고 데이터에 적용하는 알고리즘으로 정의한다.
 
통계 및 계량경제학에서 나오는 데이터 분석을 네 가지 범주로 나눌 수 있다. 즉, 요약(summarization), 추정(estimation), 가설검정(hypothesis testing), 예측(prediction)이다. 여기에서 추정과 예측에는 큰 차이가 있다. 전형적인 예를 보면, 일반적으로 범죄가 많은 지역에 경찰이 더 많다. 그러나 경찰 숫자가 증가할 때, 범죄가 늘어나는 것을 의미하지는 않는다. 과거 데이터를 이용해서 올해 범죄 발생률에 대해 계산하는 것을 예측이라고 한다. 이에 반해 올해 경찰이 한 명 더 증가할 때 범죄 발생률 이 얼마나 변할지에 대한 계산은 추정이라고 한다. 전통적 계량경제학 방법 은 종속변수와 설명변수의 인과관계를 분석하는 것이 가장 중요한 목표이고, 이 때문에 계수의 추정 및 검증에 일차적인 초점을 맞춘다. 이에 반해 머신러닝 기법은 전통적 계량경제 방법과 달리, 주로 예측에 초점을 맞추고 예측값과 실제 관측값의 차이를 줄이는 것이 최대 목표이다.
좋은 수박을 고르는 예를 생각해보자. 사람들은 수박 껍질의 색깔이나 무 늬 또는 수박 꼭지에 따라 좋은 수박인지 판단을 내린다. 여기서 수박 껍질 의 색깔이나 무늬, 그리고 수박 꼭지를 속성(features)이라 하고, ‘좋은 수박’ 과 ‘안 좋은 수박’을 레이블(labels)이라고 한다. 레이블이 있는 경우와 그렇지 않은 경우에 따라 머신러닝 알고리즘을 지도 학습(supervised learning) 과 비지도 학습(unsupervised learning)으로 구분할 수 있다.
 
지도 학습이란 데이터에 목표 변수가 있고 이를 이용해서 목표 문제를 예측할 수 있는 알고리즘을 말한다. 이에 반해 비지도 학습이란 주어진 데이터에 분류 항목 표시나 목적 변수가 없고 컴퓨터가 스스로 법칙을 발견하고 분류하는 것을 말한다. 한마디로 말하면, 목적값을 예측하려고 한다면 지 도 학습 방법을 선택하고, 그렇지 않다면 비지도 학습 방법을 선택한다.
 
만약 지도 학습 방법에서 목적값이 이산적인 값이라면 분류 방법을 사용 하고, 목적값이 연속된 수치라면 회귀를 사용한다. 지도 학습은 전형적으로 일련의 속성 또는 공변량을 사용하여 레이블 또는 결과를 예측하는 것을 말한다. 지도 학습에는 Lasso, 랜덤 포리스트, 의사결정트리(decision tree) 등 여러 가지 기법들이  있다. 비지도 학습은 유사한 속성 또는 공변량의 측면에서 관측 집단을 분류한다. 따라서 ‘차원 감소’로 해석할 수 있다.  비지도 학습은 주로 비디오, 영상 및 텍스트 분석에 사용된다. 표에서 보 는 것처럼, 비지도 학습에는 군집화 등 여러 가지 기법들이 있다.
머신러닝 기법을 이용할 때 가장 우려되는 것이 과적합(overfitting) 문제 이다. 과적합이란 현재 환경에 지나치게 적합되어 조금의 변화도 받아들이지 못하는 상태를 의미한다. 다시 말하면, 표본에 지나치게 적합되는 경우, 실제 모집단에 적용하였을 경우, 오히려 예측력이 떨어지게 된다. 이러한 과적합 문제는 표본외 예측 실패를 초래할 수 있다.
 
모형이 과적합 되지 않도록 주로 사용하는 방법이 교차검증(cross validation)이다. 교차검증은 우선 전체 데이터를 k개 표본으로 나눈다. 주로 사용되는 k의 값은 5에서 10 사이이다. 우선 전체 데이터 집합을 열 개의 표본으로 나눈 뒤에,  그중 하나를 시험표본, 그리고 나머지 9개를 합쳐서 훈련표본으로 설정한다. 그림에서와 같이 첫 번째부터 열 번째 표본 모두가 시험표본이 될 수 있으므로 k가 10인 경우에는 훈련표본과 시험표본의 조합이 열 개가 된다. 이들 각각에 대해 훈련표본으로 모형을 구축하고 시험표본을 대상으로 학습된 모형의 정확도를 산출할 수 있다. 따라서 최종적으로 10개의 정확도 값을 얻을 수 있고 이들의 평균을 구한다. 이와 같은 교차검증을 통해서 구한 평균 적인 정확도는 다양한 훈련표본과 시험표본을 대상으로 해서 나온 값이므로 신뢰할 수 있는 정확도 예측치라고 할 수 있을 것이다.
 

 

facebook twitter kakaoTalk kakaostory naver band

본 사이트는 쿠팡 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있습니다.

Copyright © 생생정보 All rights reserved.