Page 20 -
P. 20
그림 3-2 승객 정보에서 생사 결과 예측
생사 여부(1=생존) 성별 연령 티켓 승선장
1 여 11 1등급 C
예
0 측 남 56 2등급 Q
학습 데이터
모
0 여 23 3등급 S
델
1 여 72 2등급 C
1 여 68 2등급 Q
예 테스트 데이터
측
0 남 35 1등급 S
실제 값 예측 값
덧붙여 타이타닉호의 승객 데이터는 데이터 분석의 벤치마크 데이터셋으로 유명합니다. 따라서 여러
가지 해법이나 정답 데이터들이 이미 공개되어 있습니다. 예를 들어 캐글의 리더보드에는 예측 결
과가 모두 맞았음을 의미하는 정확도가 1.0인 것들이 상위를 차지하고 있습니다. 따라서 어디까
지나 학습용으로 준비된 것이며, 데이터 분석 흐름을 잡을 수 있는 경진대회라고 생각하기 바랍니
다(그림 3-3, 그림 3-4).
그림 3-3 2021년 4월 타이타닉 생존자 예측 경진대회의 상위권 참가자들의 예측 정확도(완벽히 예측한 경우가 상위권을 차지)
078