전체 글49 Hive + Python + VirtualEnv Hive + Python + VirtualEnvHive 쿼리에서 TRANSFORM, MAP/REDUCE 명령어를 사용하면 표준 입/출력을 통해 데이터를 처리할 수 있다.이걸 이용해 Python 스크립트로 데이터 처리를 해왔었는데 몇가지 귀찮은점이 있었다.모든 노드에 같은 버전의 파이썬을 설치해줘야 한다.모든 노드에 같은 파이썬 의존성 패키지를 설치해줘야 한다.모든 노드에 내가 작성한 파이썬 패키지를 배포해놓아야 한다.Hive의 ADD FILE 명령어와 VirtualEnv를 사용하면 이런 작업을 좀 더 간단하게 할 수 있다.위 스크립트는 url.txt에서 주소 하나를 가져와 requests 라이브러리를 사용해 데이터를 긁어와 반환하는 스크립트이다.특별한 의미는 없고 1. 스크립트가 사용하는 데이터 파일이 .. 2014. 9. 10. [펌] 데이터마이닝을 배우고싶습니다 적고 싶은 글이 있었지만 일주일 넘게 글을 적지 못하고 있었는데, 페이스북에 누군가 데이터마이닝 전공에 대한 질문을 해봤길래 그 답변을 먼저 적습니다. 일전에도 '데이터마이너가 되고 싶어요'라는 글에서도 비슷한 답변을 해줬고, '데이터마이닝과 데이터마이너'라는 글에서도 좀 적었던 내용입니다. 그 외에도 몇 번 언급은 했던 것같은데 다시 질문에 맞게 글을 적습니다. 당장 어떤 내용이 적힐지 모르겠지만, 일부 내용은 일부에게 상처를 줄 수도 있습니다. 솔직한 답변을 위해서 냉혹한 현실을 그대로 말하려는 것이니 너른 이해를 바랍니다. (아래에 글을 편하게 적다보니 딱딱한 문체가 되었는데 바꾸기가 귀찮으니 그대로 놔두겠습니다. 이해바랍니다.) -- (질문) (전략) 22살 지방에서 학교를 다니다 휴학하고 공익근.. 2014. 9. 4. [펌] 소셜네트워크에서의 정보확산 The Emerging Science of Superspreaders (And How to Tell If You're One Of Them)Nobody has figured out how to spot the most influential spreaders of information in a real-world network. Now that looks set to change with important implications, not least for the superspreaders themselves. Who are the most influential spreaders of information on a network? That’s a question that marketers, bloggers,.. 2014. 9. 4. [펌] 10 things statistics taught us about big data analysis 10 things statistics taught us about big data analysisPosted on May 22, 2014 by Jeff LeekIn my previous post I pointed out a major problem with big data is that applied statistics have been left out. But many cool ideas in applied statistics are really relevant for big data analysis. So I thought I'd try to answer the second question in my previous post: "When thinking about the big data era, wh.. 2014. 9. 4. Recommending music on Spotify with deep learning This summer, I’m interning at Spotify in New York City, where I’m working on content-based music recommendation using convolutional neural networks. In this post, I’ll explain my approach and show some preliminary results.OverviewThis is going to be a long post, so here’s an overview of the different sections. If you want to skip ahead, just click the section title to go there.Collaborative filt.. 2014. 9. 4. 서비스와 데이터마이닝 과학자는 자신이 가진 솔루션을 적용할 문제를 찾고 엔지니어는 자신의 문제를 해결할 솔루션을 찾는다라는 말로 과학(자)과 엔지니어링을 구분한 글을 본 적이 있다. 적절한 구분인 것같다. 데이터 분석/마이닝도 같은 관점에서 구분할 수 있을까? 문제에 맞는 솔루션을 찾는 사람은 데이터 마이너고, 알고리즘에 맞는 문제를 찾는 사람은 데이터 사이언티스트라고 부를 수 있을까? 별로 좋은 구분인 것같지 않다.최근 빅데이터나 데이터 사이언스 등에 관심이 조금 쏠리고 데이터 기반의 무엇 (Data-driven X)이라는 표현을 자주 접하게 된다. 선무당이 사람잡는다는 말도 있지만, 데이터와 연결된 용어들이 범람하면서 데이터 선무당들도 많이 늘고 있는 것같다. 간혹 지난 몇 년동안 엄청나게 많은 데이터를 모아놓았는데 이걸.. 2014. 9. 4. 이전 1 ··· 5 6 7 8 9 다음