Page 23 -
P. 23
titanic.zip에는 gender_submission.csv, train.csv, test.csv 세 파일이 포함되어 있는데, 이는
보통 캐글 경진대회에서 주어지는 형태의 데이터셋입니다.
먼저 train.csv 파일에는 Sex(성별), Age(연령) 등 여러 설명 변수(속성)와 함께 예측해야 할 목적
변수(클래스)인 Survived(생존 여부)가 포함되어 있습니다.
함께 포함된 test.csv 파일에는 train.csv 파일과 형식이 같은 설명 변수들이 있지만, 목적 변수인
3
Survived는 없습니다(그림 3-7).
그림 3-7 train.csv, test.csv의 내부(파이썬을 이용하여 DataFrame 형식으로 출력한 모습. 3.5절에서 출력할 예정) 캐글 경진대회 도전 ①: 타이타닉 생존자 예측
캐글 경진대회의 데이터셋에는 학습 데이터, 테스트 데이터 외에 sample submission 파일이 함
께 포함되어 있습니다. 이는 캐글에 제출할 때 사용하는 데이터입니다.
타이타닉 생존자 예측 경진대회에서는 gender_submission.csv 파일이 sample submission에
해당합니다. 이 파일은 승객 아이디(PassengerId)별로 Survived가 입력되게끔 합니다. 아직 예
081