Page 4 -
P. 4
4장 스파크 API 깊이 파헤치기 115
4.1 Pair RDD 다루기 116
4.1.1 Pair RDD 생성 117
4.1.2 기본 Pair RDD 함수 117
4.2 데이터 파티셔닝을 이해하고 데이터 셔플링 최소화 125
4.2.1 스파크의 데이터 Partitioner 127
4.2.2 불필요한 셔플링 줄이기 128
4.2.3 RDD 파티션 변경 133
4.2.4 파티션 단위로 데이터 매핑 134
4.3 데이터 조인, 정렬, 그루핑 137
4.3.1 데이터 조인 137
4.3.2 데이터 정렬 145
4.3.3 데이터 그루핑 150
4.4 RDD 의존 관계 154
4.4.1 RDD 의존 관계와 스파크 동작 메커니즘 154
4.4.2 스파크의 스테이지와 태스크 156
4.4.3 체크포인트로 RDD 계보 저장 157
4.5 누적 변수와 공유 변수 158
4.5.1 누적 변수로 실행자에서 데이터 가져오기 158
4.5.2 공유 변수로 실행자에 데이터 전송 161
4.6 요약 162
2부 스파크 패밀리와 만남
5장 스파크 SQL로 멋진 쿼리를 실행하자 167
5.1 DataFrame 다루기 169
5.1.1 RDD에서 DataFrame 생성 172
5.1.2 기본 DataFrame API 182
5.1.3 SQL 함수로 데이터에 연산 수행 186
5.1.4 결측 값 다루기 192
5.1.5 DataFrame을 RDD로 변환 194
spark_08.indd 18 2018-05-08 오후 6:26:09