본문 바로가기

전체 글49

Mamba 아키텍처 소개 Mamba 아키텍처는 시퀀스 모델링 분야에서 트랜스포머(Transformer)의 한계를 극복하기 위해 개발된 새로운 신경망 구조입니다. Mamba는 긴 시퀀스를 효율적으로 처리하고, 연산 비용을 선형적으로 증가시키며, 메모리 사용과 병렬 처리 기능을 최적화하는 것을 목표로 합니다. Mamba 아키텍처Mamba 아키텍처는 긴 데이터 시퀀스를 처리하기 위해 구조화된 상태 공간 시퀀스 모델(Structured State Space sequence model, S4)을 통합합니다.S4는 연속 시간, 순환(Recurrent), 컨볼루션 모델을 결합하여 긴 의존성을 효과적으로 모델링합니다. 이를 통해 불규칙하게 샘플링된 데이터와 무한한 문맥(unbounded context)을 처리할 수 있으며, 학습과 추론 과정에.. 2025. 1. 13.
언어모델의 발전과정 (RNN에서 트랜스포머 아키텍처까지) RNN(Recurrent Neural Networks)은 자연어 처리(NLP)의 기본 아키텍처로 오랫동안 활용되어 왔습니다. 하지만 트랜스포머(Transformer)의 등장으로 언어 모델의 패러다임이 완전히 바뀌었습니다. 이러한 혁신은 모델의 성능 향상, 효율성, 그리고 확장 가능성 측면에서 획기적인 전환점이 되었습니다. 이제 이러한 발전 과정과 변화의 배경을 살펴보겠습니다.머신러닝, 딥러닝에 주로 사용된 RNNRNN은 시퀀스 데이터(Sequential Data)를 처리하기 위해 설계된 네트워크로, 입력 데이터의 순서를 고려하며 학습할 수 있는 특성을 가지고 있습니다.딥러닝이나 머신러닝 분야에서는 텍스트, 오디오, 시계열과 같은 데이터를 시계열 데이터라고 불렀습니다. 트랜스포머가 개발되기 전까지는 RNN.. 2025. 1. 13.
통계 기본, 변수의 정의 및 종류 통계를 공부하다 보면 항상 나오는 변수!독립변수, 종속 변수, 결과 변수 등등등,, 대충 의미는 알겠지만 정확하게 무엇인지 아리송 할때가 많았다. 그렇기 때문에 변수의 정의와 종류를 정리 해보려고 한다. 독립변수(Independent Variable)(= 예측변수, 처치변수, 원인변수) : 다른 변수에 영향을 주는 변수, 종속변수에 대응되는 개념: 회귀분석에서는 예측변수, 실험에서는 처치변수, 인과관계에서는 원인변수 라고 불림 종속변수(Dependent Variable) (= 기준변수, 결과변수): 다른 변수의 변화에 따라 변화하는, 영향을 받는 변수. 독립변수에 대응되는 개념:회귀분석, 실험과 인과관계에서는 기준변수, 결과변수 라고 불림 통제변수(Control Variable) : 원치않는 변수, 연구.. 2015. 1. 26.
Hadoop 개념 - MapReduce의 흐름에 따른 정의 MapReduce 의 데이터 흐름Figure 4.4: High-level MapReduce의 pipelineHDFS 클러스터에 파일이 적재됨으로써 MapReduce 입력이 시작된다. 이들 파일은 전체 node에 균등하게 배분되는데 이에 대해 MapReduce 프로그램이 수행되면서 node에서는 mapping task가 시작된다. 이때 각각의 mapping task는 동등한 것으로서 이들 서로를 구별할 수 없으며 각 mapper는 그 어떤 입력파일도 처리할 수 있다. 각각의 mapper는 각 기기에 인접해 존재하는 파일들을 적재한 후 그 컴퓨터가 처리하게 한다.mapping 단계가 끝나면 중간산출물로서의 intermediate (key, value) pair가 각 컴퓨터 사이에서 교환되고 같은 key를 가.. 2014. 11. 23.
하둡개념 - 정리전 ③ HDFS 명령어HDFS는 일반 Unix/Linux의 파일시스템과는 전혀 별개이다. DataNode 데몬을 수행하는 기기에서 ls 명령을 수행하면 일반 Linux 파일시스템의 내용은 보이지만 HDFS의 파일은 보이지 않는다. 마찬가지로 fopen() 또는 fread()같은 표준의 읽기/쓰기 작업도 불가능하다. 요컨대 파일시스템으로서의 각종 작업에 대해서 HDFS는 HDFS 나름의 독자적인 명령어와 shell 구조를 가지고 있다는 말이다. 이러한 현상은 HDFS가 별도의 독립된 namespace,를 가지기 때문이다. HDFS (정확히는 HDFS를 구성하는 블록) 내의 파일은 DataNode 서비스가 관리하는 별도의 디렉토리에 저장된다. 그리고 이들 파일은 block id로만 표시된다. HDFS에 저장된 .. 2014. 11. 23.
Hadoop 개념 - Namenode/Datanode 이전 포스팅에서 언급했던 HDFS에 대한 개념에 연장선인 Namenode와 Datanode에 대해서 알아보려 한다.간단하게 정리하면 Namenode는 master역활로서 hdfs에 있는 데이터 datanode에 분산시키고 관리하는 기능을 담당한다. 즉, slaves에 해당하는 datanode에게 I/O를 담당하고 datanode의 이상유무를 체크하는 일을 처리하는 역할이다.Datanode는 자신에게 할당된 데이터 블록을 처리하는 역할을 한다. NameNodeHDFS에서의 master인 NameNode는 분산환경에서 저장기능을 담당한다. 즉, 실제 작업의 대상이 되는 파일을 블록(block)단위로 나누어서 slave node들에게 분배할 뿐만 아니라 전체적인 (분산) 파일시스템의 이상 유무도 체크하고 sl.. 2014. 11. 23.