본문 바로가기

Data Science/분산처리기술5

Hadoop 개념 - MapReduce의 흐름에 따른 정의 MapReduce 의 데이터 흐름Figure 4.4: High-level MapReduce의 pipelineHDFS 클러스터에 파일이 적재됨으로써 MapReduce 입력이 시작된다. 이들 파일은 전체 node에 균등하게 배분되는데 이에 대해 MapReduce 프로그램이 수행되면서 node에서는 mapping task가 시작된다. 이때 각각의 mapping task는 동등한 것으로서 이들 서로를 구별할 수 없으며 각 mapper는 그 어떤 입력파일도 처리할 수 있다. 각각의 mapper는 각 기기에 인접해 존재하는 파일들을 적재한 후 그 컴퓨터가 처리하게 한다.mapping 단계가 끝나면 중간산출물로서의 intermediate (key, value) pair가 각 컴퓨터 사이에서 교환되고 같은 key를 가.. 2014. 11. 23.
하둡개념 - 정리전 ③ HDFS 명령어HDFS는 일반 Unix/Linux의 파일시스템과는 전혀 별개이다. DataNode 데몬을 수행하는 기기에서 ls 명령을 수행하면 일반 Linux 파일시스템의 내용은 보이지만 HDFS의 파일은 보이지 않는다. 마찬가지로 fopen() 또는 fread()같은 표준의 읽기/쓰기 작업도 불가능하다. 요컨대 파일시스템으로서의 각종 작업에 대해서 HDFS는 HDFS 나름의 독자적인 명령어와 shell 구조를 가지고 있다는 말이다. 이러한 현상은 HDFS가 별도의 독립된 namespace,를 가지기 때문이다. HDFS (정확히는 HDFS를 구성하는 블록) 내의 파일은 DataNode 서비스가 관리하는 별도의 디렉토리에 저장된다. 그리고 이들 파일은 block id로만 표시된다. HDFS에 저장된 .. 2014. 11. 23.
Hadoop 개념 - Namenode/Datanode 이전 포스팅에서 언급했던 HDFS에 대한 개념에 연장선인 Namenode와 Datanode에 대해서 알아보려 한다.간단하게 정리하면 Namenode는 master역활로서 hdfs에 있는 데이터 datanode에 분산시키고 관리하는 기능을 담당한다. 즉, slaves에 해당하는 datanode에게 I/O를 담당하고 datanode의 이상유무를 체크하는 일을 처리하는 역할이다.Datanode는 자신에게 할당된 데이터 블록을 처리하는 역할을 한다. NameNodeHDFS에서의 master인 NameNode는 분산환경에서 저장기능을 담당한다. 즉, 실제 작업의 대상이 되는 파일을 블록(block)단위로 나누어서 slave node들에게 분배할 뿐만 아니라 전체적인 (분산) 파일시스템의 이상 유무도 체크하고 sl.. 2014. 11. 23.
Hadoop 개념 - HDFS(Hadoop Distributed File System) 학부생에 있을때 3학년부터 4학년까지 분산처리 관련 프로젝트를 진행하며, Hadoop을 기술적으로 이용만 했을 뿐, 필요한 부분 이외에는 그 속에 남긴 의미를 이해하려하지 않았다. 하지만 2011년 Hadoop을 처음 접했을 때와 지금은 많은 부분이 달라졌다. 클라우데라(Cloudera)와 같이 CDH(Cloudera's Destributed in Apache Hadoop) 배포판으로 쉽게 하둡을 설치하고 사용 할 수 있으며, Hadoop Eco System에 포함된 전반적인 솔루션을 쉽게 설치해 사용 할 수 있다는 점이다. 서론은 여기까지 하고, 하둡에 대해 이야기 해보자. (1) HDFS (Hadoop Distributed File System)① HDFS 설계원칙데이터를 많은 사용자가 네트워크 환경.. 2014. 11. 23.
Rhipe 란? 구글에 Rhipe install 하면 수많은 reference site가 존재한다.하지만, 우리나라에서는 학생들이 공부한다거나, 아니 모르는 사람이 많기 때문에 한글로 된 사이트는 거의 없다..그래서 이번에 Rhipe에 대해 공부하면서 하나하나 지식을 공유해보려 한다.많은 나와같은 공학도에게 도움이 되기를.. 일단 Rhipe를 설치하기전에 설치한 나의 환경을 알려드리겠습니다 :) OS : Ubuntu 11.10R -> 2.15.10Hadoop -> hadoop 1.1.1 Rhipe -> 0.69 컴퓨터환경을 공개하는 이유는,, 다 최신버전으로 했다가 서로 연동이 제대로 안되고 에러가 나는경우가 비일비재하여 여태까지 사람들이 많이 설치했고, 쓰고 있는 환경을 맞췄습니다. Rhipe는 R and Hadoop.. 2013. 2. 18.