Page 4 -
P. 4
4장 좋은 훈련 데이터셋 만들기: 데이터 전처리 143
4.1 누락된 데이터 다루기 144
4.1.1 테이블 형태 데이터에서 누락된 값 식별 144
4.1.2 누락된 값이 있는 훈련 샘플이나 특성 제외 146
4.1.3 누락된 값 대체 147
4.1.4 사이킷런 추정기 API 익히기 151
4.2 범주형 데이터 다루기 153
4.2.1 순서가 있는 특성 매핑 154
4.2.2 클래스 레이블 인코딩 155
4.2.3 순서가 없는 특성에 원-핫 인코딩 적용 157
4.3 데이터셋을 훈련 데이터셋과 테스트 데이터셋으로 나누기 162
4.4 특성 스케일 맞추기 164
4.5 유용한 특성 선택 169
4.5.1 모델 복잡도 제한을 위한 L1 규제와 L 2 규제 170
4.5.2 L 2 규제의 기하학적 해석 171
4.5.3 L1 규제를 사용한 희소성 172
4.5.4 순차 특성 선택 알고리즘 176
4.6 랜덤 포레스트의 특성 중요도 사용 184
4.7 요약 188
5장 차원 축소를 사용한 데이터 압축 189
5.1 주성분 분석을 통한 비지도 차원 축소 190
5.1.1 주성분 분석의 주요 단계 191
5.1.2 주성분 추출 단계 192
5.1.3 총 분산과 설명된 분산 196
5.1.4 특성 변환 197
5.1.5 사이킷런의 주성분 분석 200
5.2 선형 판별 분석을 통한 지도 방식의 데이터 압축 205
5.2.1 주성분 분석 vs 선형 판별 분석 205
5.2.2 선형 판별 분석의 내부 동작 방식 207
machinelearning_06.indd 20 2021-03-17 오후 12:35:57