Page 24 -
P. 24

뉘앙스나 용법의 차이가 있지만, 우리는 다량의 문헌에서 대략적 의미를 파악해야 하므로 어간을
                    추출한다.

                    예를 들어 engineering, engineered 등의 단어는 engineer로 치환할 수 있다. 이러한 어간 추                 1
                    출로 불용어 제거와 같이 DTM에서 열의 수를 줄일 수 있다. 이렇게 처리하고 분석할 데이터의
                    크기를 줄이면 궁극적으로는 정보 검색과 텍스트 마이닝의 성능을 향상시킬 수 있다.

                    이 과정을 거치면 보통 영어 텍스트에서는 40~50% 정도 데이터의 크기가 줄어든다. 단, 어간 추                           데이터 과학과 파이썬 소개
                    출을 통해서 단어의 형태가 어간만을 나타낼 경우 이를 다시 표제어로 바꿔주는 과정을 거칠 수

                    있으며, 이를 표제어 추출(lemmatization)이라 부른다.


                    5단계: DTM 생성하기

                    이제 이렇게 정리된 코퍼스를 대상으로 문헌별 각 용어가 얼마나 나왔는지를 알려주는 DTM을 생

                    성한다. 이 행렬을 생성하려면 지금까지 정리된 코퍼스에서 나타난 모든 단어를 행렬의 열로 배치
                    하고, 코퍼스의 모든 문헌을 행으로 배치한 후 각 해당되는 값을 채우면 된다. 이때 다양한 경우로
                    값을 채울 수 있다. 각 문헌에서 각 용어가 나타난 빈도(Term Frequency, TF)이거나 용어 빈도에 가
                    중치를 적용한 값(Term Frequency-Inverse Document Frequency, TF-IDF)이거나 또는 출현 여부로 0
                    과 1로 나타낸 값 등이다.

                    표 1-7은 문헌 10개를 TF 기준으로 나타낸 것이다.


                       표 1-7 문헌용어행렬(TF 기준)
                                회귀        분류         군집         탐색        절차         오픈 소스
                     문헌 1       24        21         9          0         0          3
                     문헌 2       32        10         5          0         3          0
                     문헌 3       12        16         5          0         0          0

                     문헌 4       6         7          2          0         0          0
                     문헌 5       43        31         20         0         3          0
                     문헌 6       2         0          0          18        7          6
                     문헌 7       0         0          1          32        12         0
                     문헌 8       3         0          0          22        4          4
                     문헌 9       1         0          0          34        27         25

                     문헌 10      6         0          0          17        4          23




                                                                                                  39





     수학통계_06.indd   39                                                                       2020-08-13   오후 4:29:12
   19   20   21   22   23   24   25   26   27   28   29