Page 27 -
P. 27

1.4         판다스: 파이썬 데이터 분석 도구
                                                                       Neural Network


                                                                                                      1



                    판다스(pandas)는 데이터 분석에 (아마도) 가장 널리 활용하는 파이썬 라이브러리다. 판다스는 넘
                    파이 라이브러리를 바탕으로 다양한 데이터셋을 다룰 수 있는 빠르고 유연한 데이터 구조를 제공                               머신 러닝과 신경망 개론
                    한다. 데이터는 CSV 형식과 같은 테이블 형태로 저장된 경우가 많다. 판다스는 이러한 CSV 파일
                    을 DataFrame이라는 데이터 구조로 가져오는 간편한 함수를 제공한다. DataFrame은 데이터를
                    손쉽게 다루는 여러 기능을 제공한다.





                    1.4.1 판다스 DataFrame


                    판다스 DataFrame은 2차원 데이터 구조로, 엑셀 스프레드시트와 똑같다고 생각하면 된다.
                    DataFrame은 CSV 파일을 손쉽게 가져올 수 있는 명령을 제공한다. 예를 들어 raw_data.csv 파
                    일을 가져오려면 다음 명령을 입력한다.


                      import pandas as pd
                      df = pd.read_csv("raw_data.csv")


                    데이터를 DataFrame으로 가져오면 손쉽게 전처리할 수 있다. 붓꽃(Iris flower) 데이터셋을 사용
                    해 전처리 과정을 실습해 보자. 붓꽃 데이터셋은 붓꽃 세 품종의 꽃받침(sepal)과 꽃잎(petal)의 길
                    이 및 너비를 측정한 데이터로, 머신 러닝 실습에 널리 쓰인다. 먼저 UCI(University of California
                    Irvine)에서 무료로 제공하는 붓꽃 데이터셋을 가져오자. 판다스는 URI의 데이터를 직접 가져올

                    수 있다.

                      import pandas as pd

                      # UCI 데이터베이스에서 붓꽃 데이터셋을 가져온다
                      URL = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
                      df = pd.read_csv(URL, names = ['sepal_length', 'sepal_width',
                                                     'petal_length', 'petal_width', 'class'])









                                                                                                  39





     신경망교과서_07.indd   39                                                                     2020-05-19   오전 9:04:32
   22   23   24   25   26   27   28   29   30   31   32