최근 컴퓨터의 연산 능력이 좋아지고, 이에 따라 빅데이터가 등장하게 되면서 인공지능(Artificial Intelligence, AI)의 중요성이 대두하고 있다. 인공지능은 세계 최고 프로 바둑 기사에게 승리하고, 퀴즈 챔피언을 이기는 등 특정 분야에서 의미 있는 성과를 거 두어 왔다. 또한 구글(Google)은 인공지능 비서 서비스인 구글 어시스턴트(Google Assistant)를 통해 사람 없이도 미용실 예약을 스스로 해내는 모습을 보여주었으며 (2018 구글 개발자 회의), 아마존(Amazon)은 AI로 작동하는 자동 물류 로봇을 통해 주문 센터 직원들이 직접 상품을 확인하는 단계를 건너뛰게 해 주었다. 이처럼 인공지능 의 발전은 세상을 조금씩 변화시키고 있다.
인공지능의 눈부신 발전에는 머신 러닝(Machine Learning)이라는 기술이 중요한 역 할을 담당하고 있다. 머신 러닝은 알고리즘과 기술을 개발하여 기계가 학습할 수 있도록 하는 분야를 말한다. 최근 다양한 머신 러닝 기법들이 개발·연구되고 있으며, 그 중 딥 러닝(Deep Learning)이 대표적이다. 머신 러닝의 한 종류인 딥 러닝은 인공 신경망(Artificial Neural Network, ANN)의 발전된 모델로 볼 수 있다. 1958년 Rosenblatt가 퍼셉트론(Perceptron)을 제안한 이후 로, 딥 러닝 모델들은 여러 분야에서 주목할 만한 결과를 얻었다. Krizhevsky는 지도 학습과 심층 신경망을 통해 컴퓨터 비전에서 성능 향상을 끌어냈고, Graves는 RNN 기반 모델을 통해 음성 인식에서 의미 있는 결과를 만들었다. Conneau는 심층 CNN 기반 모델을 구축하여 텍스트 분석기의 성능을 높였다.
이와 같은 데이터 분석기법의 발전에 따라 '데이터' 그 자체의 가치가 높아지고 있다. 특히 앞서 언급한 구글 어시스턴트의 미용실 예약 사례처럼 기계가 인간의 언어를 학습 할 수 있게 되면서 텍스트 데이터의 활용방법이 다양해지고 있다. 텍스트 마이닝은 "비정형 텍스트 데이터에서 자연어처리 기술에 기반하여 유용한 정보를 추출·가공하는 것을 목적으로 하는 기술"이다(지형 공간정보체계 용어사전). 텍스트 마이닝은 주로 번역이나 문서분류, 예측 등에 적용되고 있다. Nagi and Lee는 정책 결정에 텍스트 마이닝을 적용하는 방법을 제안하였으며, 김유영·송 민은 텍스트 마이닝을 이용한 감성분석으로 영화 리뷰를 분석하고, 영화의 흥행과 리뷰에서 나타나는 감성에 대한 상관관계를 확인하였다.
이 외에도 호텔 리뷰 데이터를 분석함으로써 텍스 트 마이닝을 관광분야에 적용하는 연구, 뉴스 헤드라인 분석을 통한 외환 시장 예측 연구 등 텍스트 마이닝에 관한 많은 연구가 진행됐다. 하지만 텍스트 마이닝을 '고장진단' 분야에 적용한 경우는 찾아보기 힘들었다. 텍스트 데이터는 사람이 직접 기록해야 하는 데이터이기 때문에, 수치 데이터보다 제조 현장에 서 수집 방법이 까다롭기 때문이다.
또한, 데이터를 잘 모았더라도 이를 통해 어떤 가치를 얻을 수 있는지 모르는 경우도 있다. 그러나 번거롭지만 사람이 직접 글자로 기록해야만 하는 데이터들이 많다. 그리고 그 귀중한 데이터를 활용할 수 있어야 한다. 따라서 텍스트 마이닝의 다양한 활용방법에 관한 연구가 필요하다.