Page 10 -
P. 10

이 과정을 일일이 수작업으로 한다면 매우 긴 시간이 필요합니다. 하지만 SQL을 익혀 두면
                    다음처럼 2단계와 3단계의 일부를 손쉽게 진행할 수 있습니다.


                    그림 1-7 데이터 분석 과정
                                       전처리 영역
                                         데이터
                       문제 인식                            데이터 분석          분석 결과 실행
                                       수집과 가공

                                           데이터베이스 조작 언어(SQL)
                                               적용 가능 영역


                    그렇다면 SQL은 어느 정도까지 익혀야 하는 걸까요? 필자의 경험에 따르면 기업에서는 현

                    업 실무자가 SQL을 사용해 기술 통계(기초 산술, 평균, 분산, 표준편차 등)까지만 자유롭게
                    처리할 수 있다면 (경우에 따라 다르겠지만) ‘충분’합니다. 그러므로 기술 통계 영역을 벗어

                    난 높은 수준의 통계적 분석 영역은 SQL을 통한 데이터 처리가 가능해진 후 그다음 단계로
                    생각하고 학습하는 것이 좋습니다.




                   3       정형 데이터와 비정형 데이터




                    데이터베이스에 대해 본격적으로 이야기하기 전에 데이터의 형태에 대해 살펴보겠습니다.
                    데이터는 크게 정형 데이터(structured data)와 비정형 데이터(unstructured data)로 나눌 수

                    있습니다.

                    그림 1-8 정형 데이터와 비정형 데이터






                             정형 데이터                      비정형 데이터
                            (structured data)          (unstructured data)

                    •틀이 잡혀 있는 데이터, 체계화된 데이터      •틀이 잡혀 있지 않고
                    •높은 안정성, 유연하지 못한 구조             사전 정의가 없는 데이터
                    •금융, 제조 등 대부분 기업의            •다양하고 방대한 양의 데이터,
                       업무용 데이터베이스                   별도의 분석 처리 기술이 필요
                                                 •텍스트, 이미지, 음원 데이터, 빅데이터




             18   1장  관계형 데이터베이스와 SQL



         SQL_06.indd   18                                                                        2018-09-06   오전 7:34:23
   5   6   7   8   9   10   11   12   13   14   15