Page 24 -
P. 24
뉘앙스나 용법의 차이가 있지만, 우리는 다량의 문헌에서 대략적 의미를 파악해야 하므로 어간을
추출한다.
예를 들어 engineering, engineered 등의 단어는 engineer로 치환할 수 있다. 이러한 어간 추 1
출로 불용어 제거와 같이 DTM에서 열의 수를 줄일 수 있다. 이렇게 처리하고 분석할 데이터의
크기를 줄이면 궁극적으로는 정보 검색과 텍스트 마이닝의 성능을 향상시킬 수 있다.
이 과정을 거치면 보통 영어 텍스트에서는 40~50% 정도 데이터의 크기가 줄어든다. 단, 어간 추 데이터 과학과 파이썬 소개
출을 통해서 단어의 형태가 어간만을 나타낼 경우 이를 다시 표제어로 바꿔주는 과정을 거칠 수
있으며, 이를 표제어 추출(lemmatization)이라 부른다.
5단계: DTM 생성하기
이제 이렇게 정리된 코퍼스를 대상으로 문헌별 각 용어가 얼마나 나왔는지를 알려주는 DTM을 생
성한다. 이 행렬을 생성하려면 지금까지 정리된 코퍼스에서 나타난 모든 단어를 행렬의 열로 배치
하고, 코퍼스의 모든 문헌을 행으로 배치한 후 각 해당되는 값을 채우면 된다. 이때 다양한 경우로
값을 채울 수 있다. 각 문헌에서 각 용어가 나타난 빈도(Term Frequency, TF)이거나 용어 빈도에 가
중치를 적용한 값(Term Frequency-Inverse Document Frequency, TF-IDF)이거나 또는 출현 여부로 0
과 1로 나타낸 값 등이다.
표 1-7은 문헌 10개를 TF 기준으로 나타낸 것이다.
표 1-7 문헌용어행렬(TF 기준)
회귀 분류 군집 탐색 절차 오픈 소스
문헌 1 24 21 9 0 0 3
문헌 2 32 10 5 0 3 0
문헌 3 12 16 5 0 0 0
문헌 4 6 7 2 0 0 0
문헌 5 43 31 20 0 3 0
문헌 6 2 0 0 18 7 6
문헌 7 0 0 1 32 12 0
문헌 8 3 0 0 22 4 4
문헌 9 1 0 0 34 27 25
문헌 10 6 0 0 17 4 23
39
수학통계_06.indd 39 2020-08-13 오후 4:29:12