본문 바로가기

Data Science/LLM & GenAI8

Mamba 아키텍처 소개 Mamba 아키텍처는 시퀀스 모델링 분야에서 트랜스포머(Transformer)의 한계를 극복하기 위해 개발된 새로운 신경망 구조입니다. Mamba는 긴 시퀀스를 효율적으로 처리하고, 연산 비용을 선형적으로 증가시키며, 메모리 사용과 병렬 처리 기능을 최적화하는 것을 목표로 합니다. Mamba 아키텍처Mamba 아키텍처는 긴 데이터 시퀀스를 처리하기 위해 구조화된 상태 공간 시퀀스 모델(Structured State Space sequence model, S4)을 통합합니다.S4는 연속 시간, 순환(Recurrent), 컨볼루션 모델을 결합하여 긴 의존성을 효과적으로 모델링합니다. 이를 통해 불규칙하게 샘플링된 데이터와 무한한 문맥(unbounded context)을 처리할 수 있으며, 학습과 추론 과정에.. 2025. 1. 13.
언어모델의 발전과정 (RNN에서 트랜스포머 아키텍처까지) RNN(Recurrent Neural Networks)은 자연어 처리(NLP)의 기본 아키텍처로 오랫동안 활용되어 왔습니다. 하지만 트랜스포머(Transformer)의 등장으로 언어 모델의 패러다임이 완전히 바뀌었습니다. 이러한 혁신은 모델의 성능 향상, 효율성, 그리고 확장 가능성 측면에서 획기적인 전환점이 되었습니다. 이제 이러한 발전 과정과 변화의 배경을 살펴보겠습니다.머신러닝, 딥러닝에 주로 사용된 RNNRNN은 시퀀스 데이터(Sequential Data)를 처리하기 위해 설계된 네트워크로, 입력 데이터의 순서를 고려하며 학습할 수 있는 특성을 가지고 있습니다.딥러닝이나 머신러닝 분야에서는 텍스트, 오디오, 시계열과 같은 데이터를 시계열 데이터라고 불렀습니다. 트랜스포머가 개발되기 전까지는 RNN.. 2025. 1. 13.