Page 23 -
P. 23

titanic.zip에는 gender_submission.csv, train.csv, test.csv 세 파일이 포함되어 있는데, 이는
                    보통 캐글 경진대회에서 주어지는 형태의 데이터셋입니다.

                    먼저 train.csv 파일에는 Sex(성별), Age(연령) 등 여러 설명 변수(속성)와 함께 예측해야 할 목적
                    변수(클래스)인 Survived(생존 여부)가 포함되어 있습니다.

                    함께 포함된 test.csv 파일에는 train.csv 파일과 형식이 같은 설명 변수들이 있지만, 목적 변수인
                                                                                                      3
                    Survived는 없습니다(그림 3-7).

                       그림 3-7 train.csv, test.csv의 내부(파이썬을 이용하여 DataFrame 형식으로 출력한 모습. 3.5절에서 출력할 예정)  캐글 경진대회 도전 ①: 타이타닉 생존자 예측











































                    캐글 경진대회의 데이터셋에는 학습 데이터, 테스트 데이터 외에 sample submission 파일이 함

                    께 포함되어 있습니다. 이는 캐글에 제출할 때 사용하는 데이터입니다.
                    타이타닉 생존자 예측 경진대회에서는 gender_submission.csv 파일이 sample submission에

                    해당합니다. 이 파일은 승객 아이디(PassengerId)별로 Survived가 입력되게끔 합니다. 아직 예


                                                                                                  081
   18   19   20   21   22   23   24   25   26   27   28