Page 5 -
P. 5
5.1.6 데이터 그루핑 195
5.1.7 데이터 조인 199
5.2 DataFrame을 넘어 Dataset으로 201
5.3 SQL 명령 202
5.3.1 테이블 카탈로그와 하이브 메타스토어 203
5.3.2 SQL 쿼리 실행 206
5.3.3 쓰리프트 서버로 스파크 SQL 접속 208
5.4 DataFrame을 저장하고 불러오기 213
5.4.1 기본 데이터 소스 213
5.4.2 데이터 저장 215
5.4.3 데이터 불러오기 218
5.5 카탈리스트 최적화 엔진 220
5.6 텅스텐 프로젝트의 스파크 성능 향상 223
5.7 요약 224
6장 스파크 스트리밍으로 데이터를 흐르게 하자 227
6.1 스파크 스트리밍 애플리케이션 작성 229
6.1.1 예제 애플리케이션 230
6.1.2 스트리밍 컨텍스트 생성 231
6.1.3 이산 스트림 생성 232
6.1.4 이산 스트림 사용 233
6.1.5 결과를 파일로 저장 235
6.1.6 스트리밍 계산 작업의 시작과 종료 236
6.1.7 시간에 따라 변화하는 계산 상태 저장 238
6.1.8 윈도 연산으로 일정 시간 동안 유입된 데이터만 계산 246
6.1.9 그 외 내장 입력 스트림 250
6.2 외부 데이터 소스 사용 251
6.2.1 카프카 시작 252
6.2.2 카프카를 사용해 스트리밍 애플리케이션 개발 253
6.3 스파크 스트리밍의 잡 성능 262
6.3.1 성능 개선 262
6.3.2 장애 내성 265
spark_08.indd 19 2018-05-08 오후 6:26:09