Page 3 -
P. 3

2.3  RDD의 기본 행동 연산자 및 변환 연산자  064
                              2.3.1 map 변환 연산자  064
                              2.3.2 distinct와 flatMap 변환 연산자  067
                              2.3.3 sample, take, takeSample 연산으로 RDD의 일부 요소 가져오기  071
                          2.4  Double RDD 전용 함수  074
                              2.4.1 double RDD 함수로 기초 통계량 계산  075
                              2.4.2 히스토그램으로 데이터 분포 시각화  076
                              2.4.3 근사 합계 및 평균 계산  076
                          2.5  요약  077




                          3장 스파크 애플리케이션 작성하기                           079


                          3.1  이클립스로 스파크 프로젝트 생성  080
                          3.2  스파크 애플리케이션 개발  087
                              3.2.1 깃허브 아카이브 데이터셋 준비  088
                              3.2.2 JSON 로드  090
                              3.2.3 이클립스에서 애플리케이션 실행  092
                              3.2.4 데이터 집계  095
                              3.2.5 분석 대상 제외  097
                              3.2.6 공유 변수  100
                              3.2.7 전체 데이터셋 사용  103
                          3.3  애플리케이션 제출  105
                              3.3.1 uberjar 빌드  105
                              3.3.2 애플리케이션의 적응력 올리기  107
                              3.3.3 spark-submit 사용  110
                          3.4  요약  113




















         spark_08.indd   17                                                                      2018-05-08   오후 6:26:09
   1   2   3   4   5   6   7   8