Page 3 -
P. 3
2.3 RDD의 기본 행동 연산자 및 변환 연산자 064
2.3.1 map 변환 연산자 064
2.3.2 distinct와 flatMap 변환 연산자 067
2.3.3 sample, take, takeSample 연산으로 RDD의 일부 요소 가져오기 071
2.4 Double RDD 전용 함수 074
2.4.1 double RDD 함수로 기초 통계량 계산 075
2.4.2 히스토그램으로 데이터 분포 시각화 076
2.4.3 근사 합계 및 평균 계산 076
2.5 요약 077
3장 스파크 애플리케이션 작성하기 079
3.1 이클립스로 스파크 프로젝트 생성 080
3.2 스파크 애플리케이션 개발 087
3.2.1 깃허브 아카이브 데이터셋 준비 088
3.2.2 JSON 로드 090
3.2.3 이클립스에서 애플리케이션 실행 092
3.2.4 데이터 집계 095
3.2.5 분석 대상 제외 097
3.2.6 공유 변수 100
3.2.7 전체 데이터셋 사용 103
3.3 애플리케이션 제출 105
3.3.1 uberjar 빌드 105
3.3.2 애플리케이션의 적응력 올리기 107
3.3.3 spark-submit 사용 110
3.4 요약 113
spark_08.indd 17 2018-05-08 오후 6:26:09