본문 바로가기

전체 글

(94)
Spark RDD 특징 - 하나의 RDD에 속한 요소를 작은 단위로 Partition이라고 한다. 작업을 수행할 때 여러 분산 클러스터로부터 Partition 단위로 나뉘어서 병렬로 처리한다. - 만들어진 Partition은 작업이 진행되는 과정에서 재구성되거나 네트워크를 통해 다른 서버로 이동하는데 Shuffling이 발생함 - 이런 Shuffling은 전체 작업 성능에 큰 영항을 주기 때문에 셔플링이 발생하는 주요 연산마다 Partition의 개수를 직접 지정할 수 있는 옵션을 제공 - 하나의 RDD가 여러 Partition으로부터 나눠져 다수의 클러스터에 처리되다 보니 작업 도중 일부 Partition 장애가 발생하여 데이터 유실이 생김 - Spark는 손상된 RDD를 원래 상태로 다시 복원하기 위해 RDD 생성 과정을 ..
HDFS에서 블록 개수를 3개로 하는 이유 HDFS에서 블록을 3개를 기본으로 하는 이유에 대해 찾다가 Quora의 좋은 답글이 있어 요약 해보았다.https://www.quora.com/Is-replication-factor-of-3-a-standard-for-HDFS 다음과 같은 이유로 이상적인 복제 블록은 개수는 3개 이다. 하나의 복제본이 손상되어 액세스 할 수 없는 경우 또 다른 복제본으로 부터 읽을 수 있다.NameNode에게 경고를 보내고 실패한 노드의 복제본을 새 노드로 복구하는데 충분한 시간이 있다.해당 시간에 두번째 노드가 계획되지 않아 실패한 경우에도 중요한 데이터를 처리할 수 있다.Hadoop Rack awareness 시나리에도 적용따라서 3개를 복제 하는 요인은 모든 상황에서 적절하게 잘 작동하며 데이터를 과도하게 복제하..
오픈스택 dashboard 에러 오픈스택을 설치하고 dashboard에서 먹통이 되거나 클릭해도 적용이 안될때 트러블 슈팅 확인 사항 - Controller - /var/log/message 에서 ERROR oslo_db.sqlalchemy.exc_filters InternalError: (1927, u'Connection was killed') 에러가 발생할 때- mariadb max connections 값을 변경했는데 적용이 안될 때 * open_files_limit 및 max-allowed-packet 을 추가]# vi /etc/my.cnf.d/mariadb_openstack.cnf [mysqld]max_connections = 4096max-allowed-packet = 512Mopen_files_limit = 131072 m..
[Hadoop] Flume RegexHbaseEventSerializer Error 이슈사항Flume 1.4.1에서 Hbase로 갖고 올 경우 hbaseSink.serializer = org.apache.flume.sink.hbase.RegexHbaseEventSerializer 옵션을 사용하면 Regex로 로그를 파싱하여 가져 올 수 있다고 하였다. 허나 정규식은 전혀 먹히지 않아 소스코드 수정 후 성공하였다. RegexHbaseEventSerializer.java 소스코드를 살펴보면다음과 같이 기본 정규식이 세팅되 있다. 즉 문자의 모든 것을 가져온다는 의미인데public static final String REGEX_DEFAULT = "(.*)"; conf에서 hbaseSink.serializer.colNames = a 와 같이 컬럼을 하나만 줬을 경우에는 잘 들어간다. 이유는 위..
[Hadoop] Flume + Hbase 연동하기 Flume ver : 1.4.0HBase Ver : 0.94.1Hadoop ver: : 1.2.1 시나리오 - NameNode : 192.168.1.2 - FlumeAgent : 192.168.1.5 - Flume Agent에서 Tail로 로그를 받아와 NameNode의 HBase로 저장한다. - NameNode와 Agent와 통신은 Avro 프로토콜을 이용한다. - HBase Table 명 : demo (미리 만들어줌) - Hbase ColumnFamily 명 : cf Flume Master Configuration(flume-hbase.conf)master.sources = node1master.channels = mem-channelmaster.sinks = hbaseSink # For each o..
어나니머스 2014년 4월 14일 한국 정부 공격 예고 한국시간 13일에 한국정부를 공격하겠다는 선전포고를 했다. 자세한 사항은 https://twitter.com/AnonOpsokore(@AnonOpsokor)
[BigData] Hadoop Eco System Hadoop Eco System Concept 전체 흐름도 : 수집 -> 저장 -> 처리 -> 분석 -> 시각화 수집(Flume, Sqoop, Crawler) : 시스템 데이터를 HDFS로 가져온다. : 가져올때는 64MB 사이즈의 블록으로 병렬 수집한다. : 복제하여 분산 저장 : METAdata 저장(datanode 블록 위치 정보) 저장(Pig, Hive, Hbase) : Pig - 비정형(Unstructured) 데이터 (전처리)수집, 정교한 데이터 처리 가능, 프로그래머 접근성 쉬움, UDF 사용자 정의 함수 제공, yahoo에서 개발 : Hive - 정형(Structured) 데이터(전처리) 수집, 하둡 기반의 DW, 정교한 데이터 조작 불가능, DBA 접근성 쉬움, ETL 사용, facebo..
Genymotion Google Play Store 버전이 없어지다. Genymotion을 사용해보면 with Google Apps가 있는 버전과 없는 버전이 따로 있었는데 최근 정책이 바뀌어 with Google Apps버전이 없어지면서 내장된 구글 스토어를 쓸 수 없게 되었다. 허나 옆구리로 쓸 수 있는 방법은 기존에 with Google Apps로 Genymotion을 쓰고 있었다면 버추얼박스 상에서 내보내기를 한다음에 저장된 ova파일을 새로 설치된 버추얼박스에서 불러오기를 하고 Genymotion을 실행해 보면 목록에 뜨는 것을 볼 수 있다. 당황하지 마시고 한번 실행해 보길 바란다. 혹시 파일이 없다면 댓글로 요청 바랍니다.제가 가지고 있는 버전은 Galaxy Nexus - 4.2.2 - with Google Apps-API17 - 720x1280 이네요.