본문 바로가기

Data Science21

Hadoop 개념 - Namenode/Datanode 이전 포스팅에서 언급했던 HDFS에 대한 개념에 연장선인 Namenode와 Datanode에 대해서 알아보려 한다.간단하게 정리하면 Namenode는 master역활로서 hdfs에 있는 데이터 datanode에 분산시키고 관리하는 기능을 담당한다. 즉, slaves에 해당하는 datanode에게 I/O를 담당하고 datanode의 이상유무를 체크하는 일을 처리하는 역할이다.Datanode는 자신에게 할당된 데이터 블록을 처리하는 역할을 한다. NameNodeHDFS에서의 master인 NameNode는 분산환경에서 저장기능을 담당한다. 즉, 실제 작업의 대상이 되는 파일을 블록(block)단위로 나누어서 slave node들에게 분배할 뿐만 아니라 전체적인 (분산) 파일시스템의 이상 유무도 체크하고 sl.. 2014. 11. 23.
Hadoop 개념 - HDFS(Hadoop Distributed File System) 학부생에 있을때 3학년부터 4학년까지 분산처리 관련 프로젝트를 진행하며, Hadoop을 기술적으로 이용만 했을 뿐, 필요한 부분 이외에는 그 속에 남긴 의미를 이해하려하지 않았다. 하지만 2011년 Hadoop을 처음 접했을 때와 지금은 많은 부분이 달라졌다. 클라우데라(Cloudera)와 같이 CDH(Cloudera's Destributed in Apache Hadoop) 배포판으로 쉽게 하둡을 설치하고 사용 할 수 있으며, Hadoop Eco System에 포함된 전반적인 솔루션을 쉽게 설치해 사용 할 수 있다는 점이다. 서론은 여기까지 하고, 하둡에 대해 이야기 해보자. (1) HDFS (Hadoop Distributed File System)① HDFS 설계원칙데이터를 많은 사용자가 네트워크 환경.. 2014. 11. 23.
Hive + Python + VirtualEnv Hive + Python + VirtualEnvHive 쿼리에서 TRANSFORM, MAP/REDUCE 명령어를 사용하면 표준 입/출력을 통해 데이터를 처리할 수 있다.이걸 이용해 Python 스크립트로 데이터 처리를 해왔었는데 몇가지 귀찮은점이 있었다.모든 노드에 같은 버전의 파이썬을 설치해줘야 한다.모든 노드에 같은 파이썬 의존성 패키지를 설치해줘야 한다.모든 노드에 내가 작성한 파이썬 패키지를 배포해놓아야 한다.Hive의 ADD FILE 명령어와 VirtualEnv를 사용하면 이런 작업을 좀 더 간단하게 할 수 있다.위 스크립트는 url.txt에서 주소 하나를 가져와 requests 라이브러리를 사용해 데이터를 긁어와 반환하는 스크립트이다.특별한 의미는 없고 1. 스크립트가 사용하는 데이터 파일이 .. 2014. 9. 10.
[펌] 데이터마이닝을 배우고싶습니다 적고 싶은 글이 있었지만 일주일 넘게 글을 적지 못하고 있었는데, 페이스북에 누군가 데이터마이닝 전공에 대한 질문을 해봤길래 그 답변을 먼저 적습니다. 일전에도 '데이터마이너가 되고 싶어요'라는 글에서도 비슷한 답변을 해줬고, '데이터마이닝과 데이터마이너'라는 글에서도 좀 적었던 내용입니다. 그 외에도 몇 번 언급은 했던 것같은데 다시 질문에 맞게 글을 적습니다. 당장 어떤 내용이 적힐지 모르겠지만, 일부 내용은 일부에게 상처를 줄 수도 있습니다. 솔직한 답변을 위해서 냉혹한 현실을 그대로 말하려는 것이니 너른 이해를 바랍니다. (아래에 글을 편하게 적다보니 딱딱한 문체가 되었는데 바꾸기가 귀찮으니 그대로 놔두겠습니다. 이해바랍니다.) -- (질문) (전략) 22살 지방에서 학교를 다니다 휴학하고 공익근.. 2014. 9. 4.
[펌] 소셜네트워크에서의 정보확산 The Emerging Science of Superspreaders (And How to Tell If You're One Of Them)Nobody has figured out how to spot the most influential spreaders of information in a real-world network. Now that looks set to change with important implications, not least for the superspreaders themselves. Who are the most influential spreaders of information on a network? That’s a question that marketers, bloggers,.. 2014. 9. 4.
[펌] 10 things statistics taught us about big data analysis 10 things statistics taught us about big data analysisPosted on May 22, 2014 by Jeff LeekIn my previous post I pointed out a major problem with big data is that applied statistics have been left out. But many cool ideas in applied statistics are really relevant for big data analysis. So I thought I'd try to answer the second question in my previous post: "When thinking about the big data era, wh.. 2014. 9. 4.