머신러닝 분석 기법

1. 단계적 변수 선택

높은 차원의 데이터세트를 갖고 있는 경우에 모든 변수를 전부 사용하는 것은 비효율적이다. 왜냐하면 중복 정보를 의미하는 변수가 동시에 포함될 수 있기 때문이다. 따라서 정확한 모형을 구성하기 위해서는 적합한 설명변수를 선택해야한다. 적합한 설명변수를 선택하는 방법에는 여러 가지가 있다. 그중 하나가 단계적 변수 선택(stepwise variable selection) 기법이다.

단계적 변수 선택에서는 설명변수(예측인자)의 선택을 일정 절차에 의하여 수행한다. 각 단계마다 지정된 기준에 따라 설명변수를 변수 집합에 더 하거나 빼게 된다. 변수를 하나씩 더하는 것을 전진형(forward) 선택이라고 하고, 변수를 하나씩 빼는 것을 후진형(backward) 선택이라고 한다. 전진형 선택과 후진형 선택 과정에 대한 설명이 각각 표 2-2와 2-3에 나와 있다.

2. 배깅(bagging)

배깅은 붓스트랩 결합(bootstrap aggregating)을 의미한다. 붓스트랩은 복원추출(sampling with replacement)로 여러 개의 표본을 만드는 방법이다. 배깅이란 훈련표본을 복원추출하여 표본을 여러 개 만든 후에 각 표본에 맞는 분석 모형을 표본의 숫자만큼 생성한 다음, 그것들을 앙상블(ensemble) 함으로써 최종모형을 얻는 기법이다.

그림 2-2에 배깅 기법의 흐름도가 나와 있다. 우선 훈련표본에서 복원추 출을 통해 분석용 데이터와 동일한 표본 크기를 갖는 표본을 재추출 (resampling)하여 첫 번째 표본을 만든다. 동일한 방법으로 두 번째 표본을 재추출하고, 이를 계속 반복하여 N개의 표본을 만든다. 첫 번째 표본으로 첫 모형을, 두 번째 표본으로 두 번째 모형을 만드는 식으로 총 N개의 모형을 만든다. 동일한 설명변수들이 동일한 종속변수를 예측하는 각기 다른 N개의 모형이 만들어지는데, 이 모형들이 가지는 예측값들의 평균값으로 최 종 예측치를 산출하게 된다. 평균값을 계산할 때 가중치 를 이용하여 여러 개의 모형을 조합하는 방법도 있다. 이런 과정을 거쳐서 약간씩 다른 여러 훈련표본으로부터 약간씩 다른 여러 개의 약학습기(weak learner)를 얻을 수 있으며, 다시 이를 통합하여 안정된 강학습기(strong learner)를 구축할 수 있다.

3. 랜덤 포리스트

랜덤 포리스트는 다수의 의사결정트리를 결합하여 하나의 포리스트를 생성하는 방법이다. 랜덤 포리스트 기법에서 다수의 의사결정트리를 생성하는 과정은 그림 2-3과 같다. 훈련표본을 복원추출하여 표본을 여러 개를 만드는 것은 배깅과 동일하나, 각 표본의 각 노드에서 설명변수를 모두 다 사용 하는 것이 아니라 설명변수에 대해 무작위 표집을 실시한다는 점이 다르다. 그 다음에는 개의 표본에 대하여 N개의 의사결정트리를 만들어 각 의사 결정트리 모형들이 제시하는 예측값들의 평균값을 최종 예측치로 산출하게 된다.

배깅 기법과 비교할 때, 랜덤 포리스트 기법은 표본을 무작위로 추출할 뿐만 아니라 설명변수도 무작위로 추출하는 것을 알 수 있다. 랜덤 포리스트 기법은 설명변수를 무작위로 추출함으로써 여러 개의 비슷하지 않은의 사결정트리를 만들 수 있다. 이처럼 랜덤 포리스트 기법은 다양성을 극대화 하여 예측력이 상당히 우수한 편이다.

4. 서포트 벡터 머신(SVM)

SVM 기법은 종속변수에 대하여 가능한 한 먼 두 집단으로 분리시키는 직선 또는 평면을 찾는다. 2차원에서는 직선을 찾는 것이고, 3차원 공간에서 는 평면을 찾는 것이다. 훈련표본을 분류할 수 있는 직선이나 초평면3)은 무 수히 많으나 SVM 기법은 두 집단 사이에 가장 큰 폭(margin)을 가지는 직선이나 평면을 선택하는 것이다. 두 집단 사이의 마진이 가장 큰 평면을 최대 마진 초평면(MMH: maximal margin hyperplane)이라고 부른다. 그림 2-4를 보면, 두 집단을 가장 멀리 분리시키는 직선이 α일 때, 나누어진 두 그룹 각각에서 직선 α와 가장 가까운 점(동그라미로 표시된 점)을 서포트 벡터(support vector)라 한다.

SVM 기법은 선형 분리 가능, 선형 분리 불가, 비선형 분리의 세 가지 경우로 나눌 수 있다. 선형 분리 가능의 경우는 최대 마진 초평면의 개념을 이용하여 훈련표본을 분리할 수 있고, 선형 분리 불가의 경우는 완화된 마 진의 개념을 이용하여 훈련표본을 분리할 수 있다. 비선형의 경우는 새로운 좌표 공간으로 변환시켜서 선형 분류가 가능한 초평면을 찾은 후에 이를 다시 역변환 시켜서 원래의 좌표공간으로 가져옴으로써 비선형적인 분리가 가 능해진다. 여기에서 새로운 좌표 공간으로 변환시켜주는 함수를 커널함수 (kernel function)라고 한다. 커널함수는 다양한 형태가 존재하는데, 주로 쓰이는 함수는 다항(polynomial), 방사형(radial), 시그모이드(sigmoid) 함수 등 이 있다.

5. 결합모형

모형의 예측력을 높이기 위해 여러 개 단일 모형을 결합시켜 하나의 모 형을 만드는 방법들이 시도되어 왔다. Bates and Granger(1969)는 두 개의 예측 모형을 결합하는 여러 방법들을 제시하였으며, 결합된 모형의 예측력이 향상될 수 있다는 것을 입증하였다. 뿐만 아니라 그들은 두 개 이상의 예측 모형을 결합하는 것도 가능하다는 것을 보였다.

Bajari et al.(2015)는 소매점 제품 수요 예측에 전통적 계량경제학 접근 법과 머신러닝 기법을 적용하여 표본외 예측성과를 평가하였다. 그리고 머신러닝의 다양한 모델링을 선행회귀분석과 결합한 방법도 제시하였다.

결합모형을 만들기 위해 우선 데이터를 훈련표본, 검증표본, 시험표본으 로 나눈다. 데이터의 50%를 훈련표본으로 사용하고, 25%를 검증표본 (validation sample), 나머지 25%를 시험표본으로 사용한다. 여기에서 검증 표본은 각 기법의 가중치를 산출하기 위해서 사용된 표본을 말한다.

이들 세 가지 표본을 이용하여 결합모형을 만드는 방법은 다음과 같다. 먼저, 머신러닝의 4개 기법(단계적 변수 선택, 배깅, 랜덤 포리스트, SVM)을 훈련표본에 적용한다. 그런 다음 검증표본을 이용하여 각 기법의 예측값을 산출한다. 그렇게 해서 얻는 4개 모형의 검증표본 예측값을 설명변수로, 그 리고 실제값을 종속변수로 하여 제한된 선형회귀(constraint regression)를 수행한다. 제한된 선형회귀란 변수의 계수에 제약조건을 두는 것으로 여기 에서는 계수의 합이 1이라는 조건이다. 제한된 선형회귀를 통해서 얻은 각 기법의 추정값을 결합모형의 가중치로 삼는다. 마지막으로 산출된 가중치를 이용해서 가중평균 예측값을 계산하여 결합모형의 시험표본 예측값으로 삼는다.