본문 바로가기
AI & IT 트렌드

딥시크(DeepSeek)가 난리인 이유

by En.Lee 2025. 2. 13.
반응형

설 연휴부터 지금까지 (25년 2월) AI 업계에서 회식자리나 티타임에서 스몰토크의 주제 중 하나는 딥시크입니다.

딥시크가 발표한 DeepSeek-V2 모델 때문에 트럼프도 빅테크 기업들의 수장들도, OpenAI CEO 샘 알트먼도 모두들 당황한 기색이 역력했는데요. 대부분 인터뷰를 통해 딥시크를 칭찬하면서도 자신들의 LLM 모델을 뛰어넘을 수 없다는 식으로 말하곤 했습니다.

그렇다면 무슨 이유 때문에 난리가 난걸까요?

 

제가 생각하는 가장 큰 이유는
성능이 뛰어난 "오픈소스"이기 때문입니다.

 

기존 OpenAI의 챗GPT, Google의 Gemini, Anthropic의 Claude와 같은 빅테크의 AI 모델은 대부분 Closed-source였습니다. 하지만 딥시크의 모델은 오픈소스로 공개했습니다.

 

챗 GPT의 성능을 뛰어넘는 모델이 오픈소스라니? 이 의미가 무엇인지 연구자, 개발자 분들은 아실거라 생각합니다.

성능 좋은 모델이 오픈 소스로 공개가 됬다면 대부분 이렇게 생각합니다.

 

기업, 학계 연구에 자유롭게 딥시크의 AI 모델을 활용하고 커스터마이징 가능!

 

성능 좋은 공짜 모델이기에 Fine-Tuning을 통해 sLLM을 구축하고자하는 니즈가 있는 곳이라면 다들 솔깃하셨을 겁니다.

 

기존 오픈소스 모델인 메타의 Llama, Alphaca 같은 경우 챗 GPT와 유사한 성능을 사용하고 싶으면 용량이 큰 100B 이상의 모델을 구축했어야 했었습니다. 모델은 오픈소스인데 모델을 구동하기 위한 인프라 비용이 크다보니 그 비용이면 유료 LLM을 쓰는게 더 효율적이지 않을까?하는 고민을 하게 만들었죠.

 

 

AI 훈련 비용 획기적인 절감

 

여기에 딥시크가 난리를 만든 2번째 이유가 있습니다. 딥시크는 AI 훈련 비용을 기존 빅테크들의 인프라보다 저 사양에 인프라를 이용해 획기적으로 줄였습니다. 딥시크의 DeepSeek-V2 모델 학습 및 Fine-Tuning을 위한 훈련 비용을 획기적으로 줄일 수 있으니 말 다했죠.

 

혹자는 발표한 분석 환경과 다른 대규모 인프라, 고성능 GPU로 학습했을 수 있다는 말도 합니다. 이부분은 시간이 지나면 진실이 밝혀질거라 생각합니다.

 


 

딥시크의 DeepSeek-V2 발표는 AI 연구자와 AI 스타트업에게 희소식 입니다. 모델 훈련을 위한 인프라, 구동을 위한 인프라 결국 인프라가 성능을 좌우한다는 기존의 통념을 깬 모델이기 때문이죠. 이는 주도기업들을 제외한 후발주자에게는 

 

확실한 인프라를 갖추어도 OpenAI를 뛰어넘는 LLM 모델과 서비스를 하기 힘든 현재 상황에서 저비용으로 훈련 시킬 수 있는 환경은 앞으로 Public, Private LLM 모델에 많은 발전을 가져올 것입니다.

반응형