스마트폰과 전기차로 익숙한 샤오미가 불과 1년 사이에 AI 대형언어모델 시장의 핵심 플레이어로 부상했다. 2025년 4월 30일 첫 오픈소스 추론 모델 MiMo-7B를 공개한 이후, 비전·오디오·로보틱스 특화 모델을 잇달아 내놓더니 2026년 3월 18일에는 1조(1T) 파라미터급 플래그십 MiMo-V2-Pro를 포함한 3종 동시 출시로 글로벌 AI 커뮤니티를 놀라게 했다.
이 문서에서는 MiMo 모델 패밀리 전체의 출시 타임라인, 버전별 아키텍처와 핵심 기술, 벤치마크 성능 수치, 가격 구조를 일목요연하게 비교한다. 2025~2026년 사이 샤오미가 어떤 전략으로 모델 라인업을 확장해 왔는지 파악하고, 실제 개발·도입 판단에 필요한 정보를 정리하는 것이 목표다.
샤오미 MiMo 팀을 이끄는 인물은 루오 푸리(Luo Fuli)다. 1995년생으로, DeepSeek V2 모델 개발 핵심 멤버 출신이며 2025년 11월 샤오미에 합류해 MiMo 팀 총괄을 맡았다. DeepSeek에서 쌓은 MoE(Mixture-of-Experts) 아키텍처 경험이 이후 MiMo-V2 시리즈 설계에 직접 반영되었다.
1. MiMo 모델 패밀리 출시 타임라인
아래 표는 2025년 4월부터 2026년 3월까지 공개된 MiMo 계열 모델의 출시 순서를 정리한 것이다.
| 출시 시기 | 모델 이름 | 파라미터 규모 | 핵심 영역 | 오픈소스 여부 |
|---|---|---|---|---|
| 2025년 4월 30일 | MiMo-7B (Base/SFT/RL) | 7B | 수학·코드 추론 | 오픈소스 |
| 2025년 6월 초 | MiMo-VL-7B (SFT/RL) | 7B (VLM) | 비전-언어 멀티모달 | 오픈소스 |
| 2025년 9월 19일 | MiMo-Audio-7B | 7B | 오디오 이해·생성 | 오픈소스 |
| 2025년 11월 21일 | MiMo-Embodied-7B | 7B | 자율주행·로보틱스 | 오픈소스 |
| 2025년 12월 16일 | MiMo-V2-Flash | 309B 전체 / 15B 활성 | 추론·코딩·에이전트 | 오픈소스 (MIT) |
| 2025년 12월 19일 | MiMo-VL-Miloco | 7B (VLM) | 가정 환경 이해 | 오픈소스 |
| 2026년 3월 18일 | MiMo-V2-Pro | 1T+ 전체 / 42B 활성 | 에이전트 플래그십 | 비공개 (API만 제공) |
| 2026년 3월 18일 | MiMo-V2-Omni | 비공개 | 옴니모달 (이미지·영상·오디오) | 비공개 (API만 제공) |
| 2026년 3월 18일 | MiMo-V2-TTS | 비공개 | 음성 합성 | 비공개 (API만 제공) |
핵심 포인트: 샤오미는 1년이 채 되지 않는 기간 동안 텍스트 추론 → 비전 → 오디오 → 로보틱스 → MoE 대형 모델 → 옴니모달·TTS까지 빠르게 라인업을 확장했다. 초기 7B 소형 모델로 기술을 검증한 뒤, V2 세대에서 MoE 아키텍처로 스케일업하는 전략이 뚜렷하다.
2. 세대 MiMo-7B 시리즈 (2025년 상반기)
2.1 MiMo-7B — 추론에 특화된 첫 번째 모델
- MiMo-7B는 샤오미가 처음부터(from scratch) 학습시킨 70억 파라미터 언어 모델이다. '추론을 위해 태어난 모델(Born for Reasoning)'이라는 슬로건처럼 수학 문제 풀이와 코드 생성에 집중 최적화되었다.
- 학습 데이터 규모는 약 25조(25T) 토큰이며 3단계 데이터 혼합 전략을 적용했다. 1단계에서 대규모 웹·텍스트 코퍼스, 2단계에서 수학·코드 집중, 3단계에서 고품질 추론 데이터를 순차적으로 투입하는 방식이다.
- 핵심 기술 중 하나가 Multi-Token Prediction(MTP)이다. DeepSeek-V3에서 영감을 받은 이 기법은 한 번의 순전파에서 여러 미래 토큰을 동시에 예측하도록 모델을 훈련시켜, 추론 품질과 생성 속도를 모두 끌어올린다.
- 강화학습(RL) 단계에서는 13만 개 이상의 검증 가능한 수학·프로그래밍 과제를 활용했으며, RL만으로도 베이스 모델에서 대폭 성능이 향상되는 결과를 보여 주었다.
- 벤치마크 결과 MiMo-7B-RL은 OpenAI o1-mini, DeepSeek-R1 등 훨씬 큰 모델에 필적하거나 일부 수학·코딩 지표에서 이를 능가했다. 7B라는 소형 모델 기준으로 이례적인 성과였다.
2.2 MiMo-VL-7B — 비전을 더한 멀티모달 확장
- 2025년 6월 공개된 MiMo-VL-7B는 MiMo-7B의 언어 모델 위에 네이티브 해상도 ViT(Vision Transformer) 인코더와 MLP 프로젝터를 결합한 비전-언어 모델이다.
- 이미지의 원본 해상도를 유지하는 ViT 인코더 덕분에 세밀한 시각적 디테일을 보존하면서도, MLP 프로젝터가 시각·텍스트 표현을 효율적으로 정렬한다.
- SFT(Supervised Fine-Tuning)와 RL 두 가지 체크포인트가 함께 오픈소스 공개되었으며, 일반 시각 이해와 멀티모달 추론 양쪽에서 7B급 최고 수준 성능을 기록했다.
- 이후 2025년 12월에는 MiMo-VL-Miloco 변형이 추가 공개되어 가정 환경(home-scenario) 이해에 특화된 성능을 보여 주었다.
2.3 MiMo-Audio-7B — 1억 시간 오디오로 학습한 음성 모델
- 2025년 9월 공개된 MiMo-Audio-7B는 1억 시간 이상의 오디오 데이터로 학습된 음성 언어 모델이다. 이 규모의 음성 사전학습은 공개 모델 중 전례가 거의 없다.
- 패치 인코더, LLM, 패치 디코더를 결합해 고속 오디오 시퀀스의 모델링 효율을 높이고 음성과 텍스트 간 길이 불일치를 해소하는 아키텍처를 사용한다.
- 가장 큰 차별점은 퓨샷(few-shot) 학습 능력이다. 소량의 예시만으로 새로운 오디오 태스크에 적응할 수 있어 범용성이 높다.
- 음성 이해 벤치마크, 음성 대화 벤치마크, Instruct-TTS 평가에서 모두 오픈소스 SOTA(State-of-the-Art)를 달성했다.
2.4 MiMo-Embodied-7B — 자율주행과 로보틱스를 통합한 체화 모델
- 2025년 11월 공개된 MiMo-Embodied-7B는 자율주행과 로봇 지능을 하나의 모델로 통합한 체화(embodied) 파운데이션 모델이다. 샤오미의 전기차(SU7)와 휴머노이드 로봇 개발 경험이 직접 반영된 프로젝트다.
- 과제 계획(Task Planning), 어포던스 예측(Affordance Prediction), 공간 이해(Spatial Understanding) 등 체화 AI의 세 가지 핵심 역량에서 17개 벤치마크 신기록을 수립했다.
- 완전 오픈소스로 공개되어, 로봇·자율주행 연구자들이 자유롭게 모델을 활용하고 확장할 수 있다.
3. 세대 MiMo-V2 시리즈의 기술적 전환
3.1 MiMo-V2-Flash — MoE 아키텍처로의 도약
- 2025년 12월 16일 공개된 MiMo-V2-Flash는 309B 전체 파라미터 / 15B 활성 파라미터의 MoE 모델이다. 1세대 7B 모델에서 40배 이상 규모가 커졌지만, 활성 파라미터는 15B로 제한해 추론 비용을 크게 낮췄다.
- 핵심 아키텍처인 하이브리드 어텐션(Hybrid Attention)은 슬라이딩 윈도우 어텐션(SWA)과 글로벌 어텐션(GA)을 5:1 비율로 교차 배치한다. 128토큰 슬라이딩 윈도우를 가진 5개 레이어 뒤에 글로벌 어텐션 1개 레이어가 오는 구조다.
- 여기에 MTP(Multi-Token Prediction) 레이어가 결합되어 초당 약 150토큰의 생성 속도를 달성한다. 256K 토큰 컨텍스트 윈도우를 지원하며 하이브리드 씽킹(hybrid-thinking) 토글 기능도 탑재했다.
- SWE-bench Verified에서 73.4%를 기록해 오픈소스 모델 중 글로벌 1위를 차지했으며, SWE-bench Multilingual에서도 1위를 달성했다. 이 수치는 Claude Sonnet 4.5와 비슷한 수준이면서 비용은 약 3.5% 수준에 불과하다.
- MIT 라이선스로 완전 오픈소스 공개되어 누구나 가중치를 내려받아 사용할 수 있다.
아래 표는 MiMo-V2-Flash의 핵심 스펙을 1세대 MiMo-7B와 비교한 것이다.
| 항목 | MiMo-7B | MiMo-V2-Flash |
|---|---|---|
| 전체 파라미터 | 7B | 309B |
| 활성 파라미터 | 7B (Dense) | 15B (MoE) |
| 학습 데이터 | 약 25T 토큰 | 비공개 (대폭 확대) |
| 컨텍스트 윈도우 | 32K | 256K |
| 어텐션 방식 | 표준 트랜스포머 | 하이브리드 SWA+GA (5:1) |
| MTP | 학습 보조 목적 | 추론 가속 탑재 |
| SWE-bench Verified | - | 73.4% (오픈소스 1위) |
| 라이선스 | 오픈소스 | MIT 오픈소스 |
핵심 포인트: MiMo-V2-Flash는 1세대 7B 모델의 MTP 기술과 추론 최적화 노하우를 대규모 MoE 아키텍처로 확장한 결과물이다. 비용 대비 성능이 핵심 강점으로, SWE-bench 기준 Claude Sonnet 4.5급 성능을 3.5% 비용으로 제공한다.
3.2 MiMo-V2-Pro — 1조 파라미터 에이전트 플래그십
- 2026년 3월 18일 공개된 MiMo-V2-Pro는 샤오미의 플래그십 파운데이션 모델이다. 전체 파라미터 1조(1T) 이상, 활성 파라미터 42B로, V2-Flash 대비 활성 규모가 약 3배 늘었다.
- 하이브리드 어텐션 비율이 7:1로 상향되었다. Flash의 5:1에서 글로벌 어텐션 비중을 더 높인 것으로, 100만(1M) 토큰 컨텍스트 윈도우를 안정적으로 처리하기 위한 설계다.
- 공식 출시 약 1주일 전, OpenRouter에 'Hunter Alpha'라는 익명 코드네임으로 등록되어 사전 테스트가 진행되었다. 아무런 홍보 없이 일간 사용량 차트 1위를 기록하고 누적 1조 토큰 이상이 소비되면서 커뮤니티의 주목을 받았다.
- Artificial Analysis Intelligence Index에서 49점을 기록해 글로벌 8위, 중국 모델 중 2위에 올랐다. GPT-5.2 Codex(49점)와 동일 티어이며, Grok 4.20 Beta(48점)보다 높다.
- 에이전트 특화 벤치마크인 GDPval-AA에서 Elo 1426으로 중국 모델 중 최고를 기록했고, ClawEval에서는 61.5점으로 Claude Opus 4.6(66.3점)에 근접했다.
- 환각(hallucination) 비율이 30%로, Flash 모델(48%)에서 크게 개선되었다. AA-Omniscience 지수 +5를 기록해 GLM-5(+2), Kimi K2.5(-8)를 앞선다.
- 토큰 효율도 높다. Intelligence Index 전체를 실행하는 데 77M 출력 토큰만 사용했는데, 이는 GLM-5(109M)나 Kimi K2.5(89M)보다 적어 같은 추론을 더 간결하게 수행한다.
3.3 MiMo-V2-Omni — 옴니모달 인식 엔진
- MiMo-V2-Pro와 동시에 공개된 MiMo-V2-Omni는 이미지·영상·오디오·텍스트를 하나의 통합 아키텍처 안에서 네이티브로 처리하는 옴니모달 모델이다. OpenRouter에서는 'Healer Alpha' 코드네임으로 사전 테스트되었다.
- 컨텍스트 윈도우는 262K 토큰이며, 최대 출력은 32,000 토큰이다. API 가격은 입력 $0.40/1M 토큰, 출력 $2.00/1M 토큰으로 같은 성능 대비 매우 저렴한 편이다.
- PinchBench 리더보드에서 오디오·영상·비전 분야를 두루 상위권에 올렸다. BigBench Audio(음성 추론)에서 94.0, MMAU-Pro(오디오 이해)에서 69.4, FutureOmni(영상 미래 이벤트 예측)에서 66.7을 기록했다.
- 10시간 이상의 연속 오디오 이해, 다중 화자 분리, 오디오-비주얼 결합 추론 등 단순 전사를 넘어선 깊은 이해 능력을 갖췄다.
- 에이전트적 역량도 갖추고 있어 시각적 그라운딩(visual grounding), 다단계 계획 수립, 도구 호출, 코드 실행을 결합한 복합 현실 과제에 대응할 수 있다.
3.4 MiMo-V2-TTS — 에이전트에 감정을 입히는 음성 합성
- 세 번째로 동시 공개된 MiMo-V2-TTS는 샤오미 자체 개발 Audio Tokenizer와 멀티 코드북 음성-텍스트 결합 모델링 아키텍처를 기반으로 한 음성 합성 모델이다.
- 수억 시간의 오디오 데이터로 학습되었으며, 다차원 강화학습을 통해 음질과 표현력을 세밀하게 조율했다.
- 가장 큰 강점은 다층 감정 제어다. 문장 중간에 중립에서 흥분으로, 전문적 톤에서 공감적 톤으로 자연스럽게 전환할 수 있다.
- 노래 생성 기능도 갖추고 있어 정확한 음정 제어가 가능하다. 대부분의 TTS 시스템이 로봇 같은 노래 음성을 생성하는 것과 대비된다.
- 쓰촨어, 허난 방언, 광둥어, 대만 악센트 등 중국어 방언 합성을 네이티브로 지원해 중화권 사용자층에 대한 높은 적응도를 보여 준다.
4. V2 시리즈 버전별 성능·가격 비교
아래 표는 현재 API로 이용 가능한 MiMo-V2 3종의 주요 스펙과 가격을 비교한 것이다.
| 항목 | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni |
|---|---|---|---|
| 전체 파라미터 | 309B | 1T+ | 비공개 |
| 활성 파라미터 | 15B | 42B | 비공개 |
| 컨텍스트 윈도우 | 256K | 1M | 262K |
| 최대 출력 | 32K | 32K | 32K |
| 입력 모달리티 | 텍스트 | 텍스트 | 텍스트·이미지·영상·오디오 |
| 하이브리드 어텐션 비율 | 5:1 | 7:1 | 비공개 |
| AI Intelligence Index | 41 | 49 | - |
| SWE-bench Verified | 73.4% | 비공개 | - |
| 오픈소스 | MIT | 비공개 | 비공개 |
| 입력 가격 (1M 토큰) | 무료~$0.10 | $1.00 (256K 이하) | $0.40 |
| 출력 가격 (1M 토큰) | 무료~$0.30 | $3.00 (256K 이하) | $2.00 |
가격 면에서 MiMo-V2-Pro는 Claude Opus 4.6(입력 $5.00/출력 $25.00) 대비 약 1/7 수준이다. Artificial Analysis Intelligence Index 전체 실행 비용이 MiMo-V2-Pro는 $348인 반면, Claude Opus 4.6는 $2,486, GPT-5.2는 $2,304에 달한다.
핵심 포인트: MiMo-V2-Pro는 글로벌 상위 10위권 지능 지수를 서구 프리미엄 모델의 1/5~1/7 가격에 제공한다. 에이전트 워크플로나 대규모 코드베이스 분석처럼 토큰 소비가 큰 시나리오에서 비용 절감 효과가 극대화된다.
5. 샤오미 MiMo의 기술 전략과 생태계
5.1 에이전트 시대를 위한 설계 철학
- 샤오미는 MiMo-V2 시리즈를 '에이전트 시대(Agent Era)'를 위한 기반 기술로 포지셔닝한다. Pro가 두뇌(추론·계획), Omni가 감각(인식), TTS가 목소리(소통)를 담당하는 구조다.
- MiMo-V2-Pro는 OpenClaw, OpenCode, KiloCode, Blackbox, Cline 등 5개 주요 에이전트 프레임워크와 공식 파트너십을 맺고 출시 첫 주 무료 API 접근을 제공한다.
- 샤오미 내부 생태계에도 깊이 통합되어, Xiaomi MiClaw(자체 에이전트 플랫폼), MiMo Studio, 킹소프트 WebOffice(Word·Excel·PPT·PDF), 샤오미 브라우저 등에서 이미 실서비스 중이다.
5.2 오픈소스에서 클로즈드까지 투트랙 전략
- 샤오미는 1세대 7B 시리즈와 V2-Flash를 모두 오픈소스로 공개해 연구 커뮤니티와 개발자 생태계를 구축했다. Hugging Face의 XiaomiMiMo 조직에는 현재 18개 이상의 모델 체크포인트가 등록되어 있다.
- 반면 V2-Pro, V2-Omni, V2-TTS는 현재 API 전용 비공개 모델이다. 루오 푸리는 X(트위터)에서 '모델이 충분히 안정되면 오픈소스할 것'이라고 밝혀, 향후 공개 가능성을 시사했다.
- 이 투트랙 접근은 오픈소스로 기술 신뢰를 확보하고, 플래그십은 API 수익 모델로 운영하는 전형적인 하이브리드 전략이다.
5.3 하드웨어와의 수직 통합
- 샤오미는 세계 3위 스마트폰 제조사이자 전기차(SU7, YU7) 제조사다. 물리 세계 엔지니어링 경험이 MiMo-Embodied나 MiMo-V2-Omni의 체화·멀티모달 역량에 직접 반영된다.
- 자체 하드웨어 생태계(스마트폰·IoT·자동차)에 MiMo 모델을 탑재하면 온디바이스 AI부터 클라우드 에이전트까지 수직 통합 시나리오를 구현할 수 있다. 이는 순수 소프트웨어 AI 기업이 갖기 어려운 차별화 요소다.
6. 마무리
위에서 살펴본 샤오미 MiMo 모델 시리즈의 핵심 내용을 정리하면 다음과 같습니다.
핵심 요약:
- 2025년 4월 MiMo-7B 첫 공개 이후 약 11개월 만에 1조 파라미터급 V2-Pro까지 진화하며, 샤오미는 글로벌 AI 모델 경쟁의 주요 플레이어로 부상했다.
- 1세대 7B 시리즈(언어·비전·오디오·로보틱스)로 기술을 검증한 뒤, V2 세대에서 MoE 아키텍처와 하이브리드 어텐션으로 스케일업하는 단계적 전략을 밟았다.
- MiMo-V2-Pro는 Artificial Analysis 글로벌 8위, 중국 2위이며 Claude Opus 4.6 대비 약 1/7 가격으로 근접한 에이전트 성능을 제공한다.
- MiMo-V2-Flash는 오픈소스 SWE-bench 1위 모델로, 3.5% 비용에 Claude Sonnet 4.5급 코딩 성능을 낸다.
- MiMo-V2-Omni는 옴니모달 인식에서 BigBench Audio 94.0, MMAU-Pro 69.4 등 주요 지표를 선도한다.
- DeepSeek 출신 루오 푸리의 합류, 하드웨어·소프트웨어 수직 통합, 오픈소스 투트랙 전략이 MiMo 성장의 핵심 동력이다.
실제 도입을 검토한다면 비용 민감형 에이전트 워크플로에는 V2-Pro, 오픈소스 자체 호스팅이 필요한 코딩·추론에는 V2-Flash, 멀티모달 인식이 필요한 시나리오에는 V2-Omni를 우선 평가 대상으로 놓는 것이 합리적이다. 1주일 무료 체험 기간을 활용해 실제 워크로드에서 성능과 안정성을 직접 확인하는 것을 권장한다.