Page 4 -
P. 4

4장 좋은 훈련 데이터셋 만들기: 데이터 전처리                                143


                4.1  누락된 데이터 다루기  144
                    4.1.1 테이블 형태 데이터에서 누락된 값 식별  144
                    4.1.2 누락된 값이 있는 훈련 샘플이나 특성 제외  146
                    4.1.3 누락된 값 대체  147
                    4.1.4 사이킷런 추정기 API 익히기  151
                4.2  범주형 데이터 다루기  153
                    4.2.1 순서가 있는 특성 매핑  154
                    4.2.2 클래스 레이블 인코딩  155
                    4.2.3 순서가 없는 특성에 원-핫 인코딩 적용  157
                4.3  데이터셋을 훈련 데이터셋과 테스트 데이터셋으로 나누기  162

                4.4  특성 스케일 맞추기  164
                4.5  유용한 특성 선택  169
                    4.5.1 모델 복잡도 제한을 위한 L1 규제와 L 2 규제  170
                    4.5.2 L 2 규제의 기하학적 해석  171
                    4.5.3 L1 규제를 사용한 희소성  172
                    4.5.4 순차 특성 선택 알고리즘  176
                4.6  랜덤 포레스트의 특성 중요도 사용  184
                4.7  요약  188




                5장 차원 축소를 사용한 데이터 압축                            189


                5.1  주성분 분석을 통한 비지도 차원 축소  190
                    5.1.1 주성분 분석의 주요 단계  191
                    5.1.2 주성분 추출 단계  192
                    5.1.3 총 분산과 설명된 분산  196
                    5.1.4 특성 변환  197
                    5.1.5 사이킷런의 주성분 분석  200
                5.2  선형 판별 분석을 통한 지도 방식의 데이터 압축  205
                    5.2.1 주성분 분석 vs 선형 판별 분석  205
                    5.2.2 선형 판별 분석의 내부 동작 방식  207








     machinelearning_06.indd   20                                                           2021-03-17   오후 12:35:57
   1   2   3   4   5   6   7   8   9