Page 10 -
P. 10

1.1      전 세계 데이터 과학자가 경쟁하는 플랫폼
                                                                            KAGGLE





               프롤로그에서도 언급했지만, 캐글은 2010년 4월 미국 앤서니 골드블룸(Anthony Goldbloom), 벤
               햄너(Ben Hamner)가 창립한 데이터 분석 경진대회 플랫폼입니다. 2017년 구글이 인수해서 모회

               사인 알파벳(Alphabet Inc.) 산하로 들어왔습니다. 지금까지 전 세계 데이터 과학자 15만 명 이상이
               참가해 왔으며, 꾸준히 경진대회를 열 개 안팎으로 개최하고 있습니다.

               캐글은 ‘데이터 사이언스를 스포츠처럼!(Making Data Science a Sport)’이라는 구호 아래 데이터 분
               석 기술을 스포츠처럼 경쟁할 수 있게 만든 것이 특징입니다. 경쟁마다 풀어야 할 과제와 평가 지
               표, 실제 데이터가 주어집니다. 주어진 데이터를 바탕으로 정해진 시간 안에 다양한 분석을 실시
               하여 가장 높은 정확도로 예측하는 것이 목표입니다. 캐글에 분석 결과를 업로드하면 온라인에서

               몇 분 안에 채점되며(경진대회에 따라 채점에 걸리는 시간이 다름), 평가 지표에 근거하여 참가자
               간 순위를 매깁니다.

               하루에 분석 결과를 제출할 수 있는 횟수가 경진대회마다 정해져 있어 경진대회 종반에 어떤 결과
               를 채점하여 제출할지를 결정하는 것도 하나의 전략이 됩니다. 정해진 시간 안에 상위권에 들거나
               메달, 상금을 획득하는 것이 목표입니다. 일반적으로 시간이 3개월 정도 주어지며 참가 인원과 순
               위는 매일 변동합니다. 일단 메달권 순위에 들어가도 자신의 점수를 계속해서 개선하지 않으면 다

               른 사람의 점수에 밀려 메달을 획득하기 어렵습니다. 매일 자신의 분석 결과를 향상시키는 것은
               물론, 향상 속도도 다른 경쟁자보다 빨라야 한다는 점에서 캐글을 스포츠처럼 느낄 수 있습니다.

               한편 캐글에는 서로의 실력을 향상시키는 커뮤니티적인 측면도 있습니다. 참가자끼리 서로 자
               신이 알아낸 것을 나누고 이것을 논의하는 Discussion 코너, 자신의 코드를 그대로 공유하는
               Notebook 코너가 있어 거기에 코멘트를 달거나 투표를 할 수도 있습니다. 자신의 데이터 과학
               수준이 어느 정도인지 확인할 수 있을 뿐 아니라, 다른 사람의 최신 지식과 스킬을 배울 수 있는

               것도 캐글의 매력 중 하나입니다.

               또 다양한 기업이 캐글에서 여러 경진대회를 진행하며 과제를 제출하고 있습니다. 데이터 분석 책
               에서 자주 소개하는 타이타닉호의 생존 예측이나 아이리스 꽃의 분류 등 유명 벤치마크 데이터뿐
               아니라 실제 사회에서 얻은 구체적인 과제를 다루므로 판매 예측, 지진의 전조 예측, 영상 속 문
               자 인식 등을 할 수 있어 매우 좋은 훈련을 할 수 있습니다(타이타닉호 생존 예측 과제는 이 책에
               서 다루는 튜토리얼입니다). 경진대회 주제에 따라서 데이터가 정리되지 않은 채 주어지기도 하기





         024
   5   6   7   8   9   10   11   12   13   14   15