Page 5 -
P. 5

5.1.6 데이터 그루핑  195
                              5.1.7 데이터 조인  199

                          5.2  DataFrame을 넘어 Dataset으로  201
                          5.3  SQL 명령  202
                              5.3.1 테이블 카탈로그와 하이브 메타스토어  203
                              5.3.2 SQL 쿼리 실행  206
                              5.3.3 쓰리프트 서버로 스파크 SQL 접속  208
                          5.4  DataFrame을 저장하고 불러오기  213
                              5.4.1 기본 데이터 소스  213
                              5.4.2 데이터 저장  215
                              5.4.3 데이터 불러오기  218
                          5.5  카탈리스트 최적화 엔진  220

                          5.6  텅스텐 프로젝트의 스파크 성능 향상  223
                          5.7  요약  224




                          6장 스파크 스트리밍으로 데이터를 흐르게 하자                                  227


                          6.1  스파크 스트리밍 애플리케이션 작성  229
                              6.1.1 예제 애플리케이션  230
                              6.1.2 스트리밍 컨텍스트 생성  231
                              6.1.3 이산 스트림 생성  232
                              6.1.4 이산 스트림 사용  233
                              6.1.5 결과를 파일로 저장  235
                              6.1.6 스트리밍 계산 작업의 시작과 종료  236
                              6.1.7 시간에 따라 변화하는 계산 상태 저장  238
                              6.1.8 윈도 연산으로 일정 시간 동안 유입된 데이터만 계산  246
                              6.1.9 그 외 내장 입력 스트림  250
                          6.2  외부 데이터 소스 사용  251
                              6.2.1 카프카 시작  252
                              6.2.2 카프카를 사용해 스트리밍 애플리케이션 개발  253
                          6.3  스파크 스트리밍의 잡 성능  262
                              6.3.1 성능 개선  262
                              6.3.2 장애 내성  265






         spark_08.indd   19                                                                      2018-05-08   오후 6:26:09
   1   2   3   4   5   6   7   8   9   10