Page 4 -
P. 4

4장 스파크 API 깊이 파헤치기                      115


                     4.1  Pair RDD 다루기  116
                        4.1.1 Pair RDD 생성  117
                        4.1.2 기본 Pair RDD 함수  117
                     4.2  데이터 파티셔닝을 이해하고 데이터 셔플링 최소화  125
                        4.2.1 스파크의 데이터 Partitioner  127
                        4.2.2 불필요한 셔플링 줄이기  128
                        4.2.3 RDD 파티션 변경  133
                        4.2.4 파티션 단위로 데이터 매핑  134
                     4.3  데이터 조인, 정렬, 그루핑  137
                        4.3.1 데이터 조인  137
                        4.3.2 데이터 정렬  145
                        4.3.3 데이터 그루핑  150
                     4.4  RDD 의존 관계  154
                        4.4.1 RDD 의존 관계와 스파크 동작 메커니즘  154
                        4.4.2 스파크의 스테이지와 태스크  156
                        4.4.3 체크포인트로 RDD 계보 저장  157
                     4.5  누적 변수와 공유 변수  158
                        4.5.1 누적 변수로 실행자에서 데이터 가져오기  158
                        4.5.2 공유 변수로 실행자에 데이터 전송  161
                     4.6  요약  162




                     2부 스파크 패밀리와 만남

                     5장 스파크 SQL로 멋진 쿼리를 실행하자                           167


                     5.1  DataFrame 다루기  169
                        5.1.1 RDD에서 DataFrame 생성  172
                        5.1.2 기본 DataFrame API  182
                        5.1.3 SQL 함수로 데이터에 연산 수행  186
                        5.1.4 결측 값 다루기  192
                        5.1.5 DataFrame을 RDD로 변환  194







         spark_08.indd   18                                                                      2018-05-08   오후 6:26:09
   1   2   3   4   5   6   7   8   9