Page 23 -
P. 23
● 3단계: 불용어(stop words) 제거
● 4단계: 어간 추출(stemming)
● 5단계: DTM 생성
1단계: 텍스트 마이닝 대상이 되는 코퍼스를 준비하기
이 단계에서는 분석 대상인 비정형 텍스트 데이터들을 준비해야 한다. 텍스트 마이닝은 다수의 텍
스트 데이터, 즉 문헌을 분석하는 데 그 문헌들의 집합을 코퍼스(corpus)라 부른다. 그 형태는 한
파일로 제공될 수 있고, 문헌별로 파일이 별도로 제공되거나 웹 페이지에 존재할 수도 있다. 경우
에 따라 적절한 방법을 사용하여 해당 문헌을 수집하고 정리해야 하는데, 중요한 것은 각 문헌이
분리되어 식별이 가능해야 한다는 것이다.
2단계: 코퍼스에 대해 숫자나 문장 부호 등을 제거하기
코퍼스에서 숫자나 문장 부호 등을 제거한다. 숫자나 문장 부호가 나타내는 문장의 뉘앙스가 있겠
지만, 텍스트 마이닝은 다량의 문헌에서 대략적인 의미를 파악하는 것을 목표로 하므로 해석하는
경우의 수를 단순화하고자 숫자나 문장 부호를 제거하는 것이 좋다. 영어의 경우에는 모두 소문자
로 변환한다.
3단계: 불용어 제거하기
텍스트 마이닝과 정보 검색에서는 큰 의미가 없으면서 가장 빈번하게 사용되는 단어가 있다. 영어
에서는 the, of, and, to 등이 있고, 한글에서는 조사나 접속사 등이 이에 해당하는데, 이를 불용
어(stop words)라 한다. 이러한 불용어는 영어 기준으로 대략 400~500개 단어 정도 있다. 분야나
상황에 따라 다를 수 있지만, 일반적으로 영어 텍스트에서 불용어는 전체 단어의 20~30%를 차지
하며, 한글에도 생각보다 많은 단어가 해당된다. 이러한 불용어를 제거하면 텍스트 마이닝의 결과
인 DTM에서 열의 수가 줄어드는 효과가 있다. 따라서 이 과정을 거치면 처리하고 분석할 데이터
의 크기가 줄어든다.
4단계: 어간 추출하기
어간 추출(stemming)은 단어의 어간(root 또는 stem)을 찾는 기법이다. 즉, 같은 의미인데 문장에
서 여러 형태로 사용되는 단어의 경우에 어간을 찾아서 한 단어로 치환하는 역할을 한다. 예를 들
어 user, users, used, using이라는 단어에는 모두 use라는 의미가 있다. 물론 단어별로 미묘한
38
수학통계_06.indd 38 2020-08-13 오후 4:29:11