본문 바로가기
지식 확장/테크

DeepSeek, 671B AI 모델 공개 🚀

by Augmentia 2024. 12. 28.

중국의 AI 스타트업 DeepSeek에서 거대 언어 모델(LLM) DeepSeek-V3를 오픈소스 형태로 공개했어요. 🌐 공개된 모델이 궁금하시다면 Hugging Face의 deepseek-ai에 방문해보세요. DeepSeek 서비스 웹사이트(chat.deepseek.com)에 가입하면 누구나 무료로 사용해 볼 수도 있어요.
DeepSeek 모델은 671B 개의 파라미터로 구성되어 있으며, 텍스트 생성, 소프트웨어 코드 작성, 번역 등 다양한 작업을 수행하며, 최신 벤치마크 테스트에서 OpenAI의 GPT-4o, Google의 Gemini, Anthropic의 Claude 3.5 Sonnet 등 최신 Proprietary 모델과도 경쟁력 있는 성능을 보여주고 있어요. 🏆  


DeepSeek의 기술 개발 현황 🧠

DeepSeek는 지금까지 여러 AI 모델 개발을 진행해 왔어요. 
- DeepSeek-V2 (May 2024): 경제적인 학습과 효율적인 추론을 제공하는 236B 개의 파라미터를 가진 MoE(Mixture-of-Experts) 모델로, Multi-head Latent Attention(MLA)과 DeepSeekMoE 아키텍처를 도입해 모델의 성능을 향상시켰어요.  
- DeepSeek-Coder-V2 (Jul 2024): 300개 이상의 프로그래밍 언어를 지원하며, GPT-4-Turbo 등 최신 Proprietary 모델의 성능을 뛰어넘는 오픈소스 코드 언어 모델이에요.  
- DeepSeek-R1 (Nov 2024): 추론에 중점을 둔 대형 언어 모델로, 성능 면에서 OpenAI의 o1-preview 모델을 능가하는 결과를 보여주고 있어요.


DeepSeek-V3의 주요 특징 🌟

1. 모델 학습

  • 모델 크기: DeepSeek-V3은 총 671B(6710억) 개의 파라미터로 구성되어 있어요. 모델의 크기와 추론 효율을 균형있게 조정하여, 각 토큰에 대해 370억 개의 파라미터가 활성화 되는 구조로 설계했다고 해요.
  • 학습 데이터: 총 14.8조 개의 토큰으로 구성된 여러 도메인의 고품질 데이터를 학습에 활용했어요. 
  • 컴퓨팅 비용: 모형 학습을 위해서 2.788M H800 GPU 시간이 필요해요. 비슷한 규모의 유사한 성능을 보이는 다른 모델의 학습 비용에 비해서 매우 효율적인 비용이예요. H800 GPU 1,000개를 이용하여 학습하면 대략 111일 정도 걸리네요. 약 4개월 정도 걸리는 셈인거 같아요. 실제로는 병렬화 했을때 정확하게 시간이 1/N으로 줄어드는 것은 아니어서, 실제 학습 시간은 더 걸릴 수도 있을꺼 같아요.

2. 고급 아키테처와 최적화 기술 도입

전문가 혼합 모델 구조는 사용자 질의에 대해 거대한 하나의 모델이 추론에 사용되는 방식이 아니고, 추론에 필요한 전문가 모델만 추론을 위해 작동하게 되어 하드웨어 비용을 크게 줄일 수 있는 방식이예요. 💻  또한 DeepSeek-V3는 Multihead Latent Attention과 같은 고급 아키텍쳐를 도입하여 부하 분산 전략으로 모델을 효율적으로 학습했어요. Multitoken Prediction 기술을 도입해 텍스트 생성에서 속도를 높였어요. 
DeepSeek-V3는 오픈소스 AI 모델 개발의 새로운 기준을 제시하며, 하드웨어 효율성과 성능 최적화에서 큰 진전을 이루었어요. 🚀  특히, FP8 혼합 정밀도 학습 프레임워크 DualPipe 알고리즘을 통해 학습 비용을 크게 절감했으며, 이는 기존 대형 언어 모델의 학습 비용과 비교했을 때 혁신적인 성과예요.  

3. 전문가 혼합 구조의 고도화

DeepSeek-V3는 V2 버전과 마찬가지로 전문가 혼합(MoE, Mixture of Experts) 구조를 기반으로 설계되었어요. 🧠  
이 구조는 여러개의 전문 기능을 수행하는 특화된 언어 모델을 여러개 만들고, 이것을 라우팅 또는 지휘(ochestration)하는 하나의 모델로 통합되어 있는 구조예요.  각 전문가 모델은 특정 작업에 최적화되어 있어요. 요청이 들어오면 ‘라우터’라는 구성 요소가 가장 적합한 신경망으로 요청을 전달해요. 🚀 
전문가 혼합 방식은 마치 우리 뇌가 작동하는 방식과 비슷해요. 우리 되가 각각의 전문 적인 기능 영역으로 구분되어 있고, 이것을 통합처리 하는 영역으로 구분되어 있는 것과 비슷해요. 예를들어,시각을 전문으로 처리하는 영역(visual cortex)이 있고, 말을 하는데 특화된 영역(broca's area), 말을 이해하는데 특화된 영역(wernike's area), 움직임을 조절하는 영역(precentral gyrus; motor cortex), 감각을 알아차리는 영역(postcentral gyrus; sensory cortex), 그리고 이런 모든 처리를 종합하여 처리하는 전두엽 영역(prefrontal cortex)으로 우리의 뇌가 구성되어 있고, 처리하는 방식과 비슷해요. 🧠 


벤치마크에서의 우수성 📊

DeepSeek V3는 GPT-4, Llama 3, Claude 3 등 다양한 모델과의 벤치마크에서 놀라운 결과를 보여줬어요. 🌟

  • 수학 문제 해결: MATH 500에서 90.2% 정확도 기록 (GPT-4o 대비 +11.9%p). 🧮
  • 고급 수학 문제 해결 능력: AIME 2024에서 39.2% 정확도 기록 (GPT-4o 대비 +29.9%p) 
  • 코딩 경쟁: Codeforces에서 51.6% 정활도 기록 (경쟁 모델 대비 +16%p). 💻
  • 다중 작업 및 사실 기반 질의 응답: MMLU-Pro는 과학, 역사, 문학, 기술 등 다양한 주제가 포함되어 있는 벤치마크예요. 문맥을 정확히 이해하고, 학습된 데이터를 활용해 적절한 답을 제공하는 능력을 평가하기 위한 벤치마크예요. 여기에서 DeepSeek-V3은 75.9% 정확도를 기록했어요. GPT-4o (73.3%) 보다 조금 우수하고, Claude-3.5-Sonnet (78.0%) 보다는 약간 부족한 성능 기록. 📚

DeepSeek-V3의 의미와 전망 🌍



앞으로 DeepSeek-V3는 더 많은 연구와 응용 프로그램 개발에 기여할 것으로 기대돼요. 특히, 오픈소스 모델의 성능이 폐쇄형 모델에 근접하면서, AI 생태계의 경쟁력을 높이고 더 많은 기업과 개발자들이 접근할 수 있는 기회를 제공할 것으로 보여요. 😊  


DeepSeek 투자사 현황 🏢

DeepSeek은 2015년에 설립된 중국 항저우 기반의 헤지펀드이자 인공지능(AI) 기업인 High-Flyer(중국어: 幻方, pinyin: Huàn Fāng)로부터 투자 지원을 받고 있어요. 💰 
High-Flyer는 중국에서 가장 큰 헤지 펀드 중 하나로 알려져 있으며, AI 기술 개발에 대한 강력한 투자와 지원을 통해 DeepSeek의 성장을 뒷받침하고 있어요. 


DeepSeek의 활성 사용자 현황 📈

현재 DeepSeek의 월간 활성 사용자(MAU)에 대한 구체적인 공개 데이터는 없지만, 중국 AI 시장 내 주요 챗봇의 사용자 데이터를 통해 추정할 수 있어요. 

  • 바이트댄스의 두바오: 월간 활성 사용자 6,000만 명  (>> 관련 기사)
  • 바이두의 어니봇: 월간 활성 사용자 1,250만 명 (>> 관련 기사)
  • 문샷 AI의 키미봇: 월간 활성 사용자 1,000만 명  (>> 관련 기사)

DeepSeek는 이제 막 공개된 모델로, 사용자수를 짐작할 수는 없지만, 성능으로 볼때, 중국에서 가장 많이 활용되는 두바오와 가장 낮은 MAU인 키미봇 사이 어디쯤에 되지 않을까 예상해봐요. AI 오픈소스 기술로 인한 확장성과 빠른 성장세를 고려할 때 사용자는 더욱 증가할 수도 있을꺼 같고요. 🚀  


References

  • Andrej Karpathy Praises DeepSeek V3’s Frontier LLM, Trained on a $6M Budget (link)
  • Hugging Face: deepseek-ai/deepseek-v3 (link)