Page 9 -
P. 9
데이터 과학으로 처리되는 빅데이터는 크기(Volume), 다양성(Variety), 속도(Velocity)라는 3V로 정
의할 수 있다.
1
● 크기: 활용 대상이 되는 데이터의 크기를 의미한다. 물론, 데이터 크기는 지금도 급증하고
있어서 빅데이터가 되기 위한 크기를 정의하기는 쉽지 않다. 또한, 크기에 대해서는 산업
별, 영역별, 지역별로 인식 차이가 있으며 때로는 언론에서 간혹 언급하는 PB(petabytes)나
ZB(zettabytes)보다 적은 크기의 데이터도 빅데이터로 고려하는 경우도 있다. 데이터 과학과 파이썬 소개
Note 데이터 크기 단위
•1,024GB(기가바이트) = 1TB(테라바이트)
•1,024TB(테라바이트) = 1PB(페타바이트)
•1,024PB(페타바이트) = 1EB(엑사바이트)
•1,024EB(엑사바이트) = 1ZB(제타바이트)
● 다양성: 빅데이터는 다양한 형태를 가진다는 특징이 있다. 데이터 형태는 크게 세 가지로
구분할 수 있다. CSV 파일이나 관계형 데이터베이스 같이 구조화되어 있는 정형 데이터와
JSON 형태의 반정형 데이터, 그리고 구조화되어 있지 않은 비정형 데이터로 구분한다. 이
와 같은 데이터의 다양성은 빅데이터가 생성되는 다양한 출처에서 기인한다.
● 속도: 빅데이터는 빠르게 생성되며, 이러한 생성 속도도 특성으로 고려할 수 있다. 온라인
게임처럼 실시간으로 생성되는 데이터나 동영상 같은 스트리밍 데이터도 빅데이터 영역에
포함되므로 데이터의 생성 속도는 중요하게 고려된다. 빠르게 생성되는 빅데이터에 대한 신
속한 처리와 분석도 큰 이슈가 된다.
앞의 정의에서 볼 수 있듯이 빅데이터는 본질적으로 ‘데이터’이고, 그렇기에 빅데이터를 잘 이해하
고 활용하려면 데이터 과학이 중요하다. 그리고 데이터의 크기보다 중요한 것은 새로운 데이터 소
스를 발굴하고, 처리와 분석 방법을 통해 새로운 통찰력을 찾는 기회를 만들어가는 것이다.
데이터 과학을 위한 기법: 데이터 마이닝
데이터 과학을 이해하려면 기법과 도구에 대한 이해가 필요하다. 데이터 과학을 하기 위한 기법인
데이터 마이닝(data mining)은 데이터에서 유의미한 트렌드와 패턴, 규칙을 발견하고자 대량의 데
1
이터에서 자동화 혹은 반자동화 방법으로 데이터를 탐색하고 분석하는 과정이다. 여기서 마이닝
1 Gordon S. Linoff, Michael J. A. Berry, Data Mining Techniques, Wiley & Sons, 1997
17
수학통계_06.indd 17 2020-08-13 오후 4:29:04