Hadoop Eco System Concept
전체 흐름도
: 수집 -> 저장 -> 처리 -> 분석 -> 시각화
수집(Flume, Sqoop, Crawler)
: 시스템 데이터를 HDFS로 가져온다.
: 가져올때는 64MB 사이즈의 블록으로 병렬 수집한다.
: 복제하여 분산 저장
: METAdata 저장(datanode 블록 위치 정보)
저장(Pig, Hive, Hbase)
: Pig - 비정형(Unstructured) 데이터 (전처리)수집, 정교한 데이터 처리 가능, 프로그래머 접근성 쉬움, UDF 사용자 정의 함수 제공, yahoo에서 개발
: Hive - 정형(Structured) 데이터(전처리) 수집, 하둡 기반의 DW, 정교한 데이터 조작 불가능, DBA 접근성 쉬움, ETL 사용, facebook에서 개발
처리(Map-Reduce)
: Map - Reduce 과정을 거쳐 연산 데이터 산출
: 동일한 키를 기준으로 셔플링하여 분배
: 키의 묶음(일터레이터) 으로 리듀싱하면서 자동으로 키를 기준으로 정렬한다.
분석
: 오픈 소스 R을 사용하여 데이터 마이닝
: HDFS에 저장된 로그를 Hive로 정체해 추출한다.
시각화
: Business Intelligence