Page 20 -
P. 20

그림 3-2 승객 정보에서 생사 결과 예측

                생사 여부(1=생존)     성별    연령      티켓       승선장
                1               여     11      1등급      C
                            예
                0           측   남     56      2등급      Q
                                                                 학습 데이터
                            모
                0               여     23      3등급      S
                            델
                1               여     72      2등급      C
                       1        여     68      2등급      Q
                            예                                   테스트 데이터
                            측
                       0        남     35      1등급      S
                실제 값  예측 값

               덧붙여 타이타닉호의 승객 데이터는 데이터 분석의 벤치마크 데이터셋으로 유명합니다. 따라서 여러
               가지 해법이나 정답 데이터들이 이미 공개되어 있습니다. 예를 들어 캐글의 리더보드에는 예측 결

               과가 모두 맞았음을 의미하는 정확도가 1.0인 것들이 상위를 차지하고 있습니다. 따라서 어디까
               지나 학습용으로 준비된 것이며, 데이터 분석 흐름을 잡을 수 있는 경진대회라고 생각하기 바랍니
               다(그림 3-3, 그림 3-4).


                  그림 3-3 2021년 4월 타이타닉 생존자 예측 경진대회의 상위권 참가자들의 예측 정확도(완벽히 예측한 경우가 상위권을 차지)



































         078
   15   16   17   18   19   20   21   22   23   24   25