Meta가 Llama 4 모델 시리즈를 발표했습니다. 이 새로운 모델들은 Llama 생태계를 위한 가장 발전된 모델 제품군으로, 개방형 가중치를 가진 최초의 네이티브 멀티모달 모델입니다. 주요 내용을 상세히 정리해드리겠습니다.
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation
Post-training a model with two trillion parameters was a significant challenge too that required us to completely overhaul and revamp the recipe, starting from the scale of data. In order to maximize performance, we had to prune 95% of the SFT data, as opp
ai.meta.com

Llama 4 모델 소개
Meta는 세 가지 주요 Llama 4 모델을 발표했습니다:
1. Llama 4 Scout: 17B 활성 파라미터와 16개 전문가로 구성된 모델로, 총 109B 파라미터를 보유하고 있습니다. Int4 양자화를 사용하면 단일 H100 GPU에서 실행 가능합니다. 10M 토큰의 업계 최고 컨텍스트 길이를 지원합니다. (👉 머지않아 기존 RAG 사업들 다 박살 나겠다 🤢 왜? 기존의 RAG가 “외부에서 정보를 검색해 요약한 뒤 LLM에 전달”하던 과정이 불필요해짐. 예전에는 모델이 긴 문서를 한 번에 다 읽지 못했기 때문에 RAG로 필요한 부분만 추출해서 전달해야 했지만, 이제는 그냥 전부 넣어도 되는 모델이 나옴)
2. Llama 4 Maverick: 17B 활성 파라미터와 128개 전문가로 구성된 모델로, 총 400B 파라미터를 보유하고 있습니다. 단일 H100 DGX 호스트에서 실행 가능합니다. 최고 수준의 멀티모달 모델로 GPT-4o와 Gemini 2.0보다 코딩, 추론, 다국어, 긴 컨텍스트 및 이미지 벤치마크에서 우수한 성능을 보입니다.
3. Llama 4 Behemoth: 현재 훈련 중인 교사 모델로, 288B 활성 파라미터와 16개 전문가로 구성되어 있으며 총 2조 파라미터에 가깝습니다. MATH-500 및 GPQA Diamond와 같은 STEM 중심 벤치마크에서 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro보다 우수한 성능을 보입니다.
다운로드: https://www.llama.com/llama4/

주요 기술적 혁신
혼합 전문가(MoE) 아키텍처
Llama 4 모델들은 Meta의 첫 MoE 아키텍처 모델입니다. 이 아키텍처에서는 단일 토큰이 전체 파라미터의 일부만 활성화시킵니다. 이는 훈련과 추론에 있어 계산 효율성을 높이고, 동일한 훈련 FLOP 버짓으로 더 높은 품질을 제공합니다.
*MoE(Mixture of Experts)는 Meta의 Llama 4 모델에서 사용된 인공지능 아키텍처로, 하나의 레이어나 연산을 여러 개의 “전문가(expert)” 하위 네트워크로 분할하는 방식
네이티브 멀티모달리티
Llama 4 모델들은 초기 융합(early fusion)을 통해 텍스트와 비전 토큰을 통합된 모델 백본에 원활하게 통합합니다. 이를 통해 대량의 레이블이 없는 텍스트, 이미지, 비디오 데이터로 모델을 공동 사전 훈련할 수 있습니다.
긴 컨텍스트 지원
Llama 4 Scout는 Llama 3의 128K에서 업계 최고 수준인 1천만 토큰으로 지원되는 컨텍스트 길이를 크게 증가시켰습니다. 이는 다중 문서 요약, 개인화된 작업을 위한 광범위한 사용자 활동 파싱, 방대한 코드베이스에 대한 추론 등 다양한 가능성을 열어줍니다.

iRoPE 아키텍처
Llama 4 아키텍처의 주요 혁신은 위치 임베딩 없이 인터리브된 어텐션 레이어를 사용하는 것입니다. 또한 길이 일반화를 향상시키기 위해 추론 시간 온도 스케일링을 사용합니다. 이를 iRoPE 아키텍처라고 부르며, "i"는 "인터리브된" 어텐션 레이어를 의미하고, "무한한" 컨텍스트 길이를 지원하는 장기적인 목표를 강조합니다.
*iRoPE(interleaved Rotary Position Embeddings)

훈련 방법론
사전 훈련
- 새로운 MetaP 학습 기술을 개발하여 레이어별 학습률 및 초기화 스케일과 같은 중요한 모델 하이퍼파라미터를 안정적으로 설정할 수 있게 했습니다.
- Llama 4는 200개 언어로 사전 훈련되어 오픈 소스 기반의 미세 조정(fine-tuning) 작업을 효과적으로 지원합니다. 이 중 100개 이상의 언어는 각각 10억 개 이상의 토큰으로 학습되었으며, 전체적으로는 Llama 3보다 10배 더 많은 다국어 토큰이 사용되었습니다
- 또한, FP8 정밀도를 활용하여 모델 훈련의 효율성을 크게 향상시켰으며, Llama 4 Behemoth 모델을 FP8 포맷과 32K GPU 환경에서 사전 훈련하는 동안 GPU 한 대당 최대 390 TFLOPs의 성능을 달성했습니다.
중간 훈련 및 후속 훈련
- 중간 훈련(intermediate training)이라 불리는 단계에서는, 긴 컨텍스트 확장을 포함한 새로운 훈련 레시피와 전문화된 데이터셋을 활용하여 모델의 핵심 기능을 강화했습니다.
- 후속 훈련 파이프라인은 다음과 같은 방식으로 재설계되었습니다: 경량 지도 기반 미세 조정(Supervised Fine-Tuning, SFT) → 온라인 강화 학습(Online Reinforcement Learning, RL) → 경량 직접 선호 최적화(Direct Preference Optimization, DPO).
- 훈련 품질을 높이기 위해, Llama 모델을 평가자로 사용해 ‘쉬운’으로 분류된 데이터의 50% 이상을 제거하고, 남은 더 어려운 샘플을 대상으로 경량 SFT를 진행했습니다.
- 또한, 연속적인 온라인 RL 전략을 도입하여 모델을 훈련시키는 과정과 중간에서 어려운 수준의 프롬프트만 유지하는 필터링 작업을 반복적으로 수행했습니다.
시각적 능력
두 모델 모두 다양한 이미지와 비디오 프레임 스틸에 대해 훈련되어 시간적 활동과 관련 이미지를 포함한 광범위한 시각적 이해를 제공합니다. 이를 통해 시각적 추론 및 이해 작업을 위한 텍스트 프롬프트와 함께 다중 이미지 입력에 대한 원활한 상호 작용이 가능합니다. 모델들은 최대 48개의 이미지로 사전 훈련되었으며, 후 훈련에서는 최대 8개의 이미지로 좋은 결과를 보였습니다.
Llama 4 Scout는 또한 이미지 그라운딩에서도 최고 수준으로, 사용자 프롬프트를 관련 시각적 개념과 정렬하고 모델 응답을 이미지의 영역에 고정할 수 있습니다.
안전성과 편향성 대응
Meta는 가장 유용한 AI 모델을 개발하는 동시에, 가장 심각한 위험으로부터 사용자들을 보호하고 이를 완화하는 것을 목표로 하고 있습니다. Llama 4는 개발자 사용 가이드에 명시된 모범 사례를 기반으로 구축되었습니다.
사전 훈련 및 후속 훈련에서의 위험 완화
사전 훈련 단계에서는 데이터 필터링을 포함한 다양한 데이터 완화 기법을 조합하여 모델의 안전성을 확보합니다. 후속 훈련 단계에서는 다양한 기술을 적용해, 모델이 사용자와 개발자 모두에게 도움이 되는 정책을 따르도록 유도합니다.
평가 및 레드팀 운영
Meta는 모델을 다양한 시나리오와 실제 사용 사례에 걸쳐 체계적으로 테스트합니다. 자동화 테스트와 수동 테스트를 병행하며, 다양한 주제에 대해 적대적이고 동적인 프로빙 기법을 활용해 모델을 스트레스 테스트합니다.
대형 언어 모델(LLM)의 편향성 해소
모든 주요 LLM들이 편향성 문제를 안고 있다는 사실은 잘 알려져 있습니다. Meta의 목표는 이러한 편향성을 최소화하고, Llama가 논쟁적인 이슈에 대해 다양한 관점을 이해하고 표현할 수 있도록 만드는 것입니다. Llama 4는 이 부분에서 Llama 3에 비해 크게 개선되었으며, Grok과 유사한 수준의 성능을 보여줍니다.
가용성
Meta는 개방성이 혁신을 촉진하며, 개발자와 Meta, 그리고 전 세계 모두에게 긍정적인 영향을 준다고 믿습니다. Llama 4 Scout와 Llama 4 Maverick 모델은 llama.com과 Hugging Face에서 다운로드할 수 있으며, 앞으로 다양한 파트너사를 통해서도 제공될 예정입니다.
또한, WhatsApp, Messenger, Instagram Direct, 그리고 Meta AI 공식 웹사이트를 통해 Llama 4 기반의 Meta AI를 직접 체험해볼 수 있습니다.
이번 작업은 Accenture, Amazon Web Services, AMD, Arm, CentML, Cerebras 등 AI 커뮤니티 전반에 걸친 다양한 파트너들의 협력과 지원을 통해 이루어졌습니다.
The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation https://ai.meta.com/blog/llama-4-multimodal-intelligence/
'엔지니어' 카테고리의 다른 글
효율적인 IT 운영을 위한 9가지 통합 아키텍처 (0) | 2025.04.08 |
---|---|
디지털 세계의 주소체계: URI, URL, URN의 (0) | 2025.04.07 |
부와 젊음 사이에서 삶의 후회 (META 엔지니어) (0) | 2025.04.06 |
Copilot의 Agent mode 지원 (0) | 2025.04.06 |
오픈 소스가 세상을 조용히 삼키고 있다 (0) | 2025.04.06 |