2026년 3월 19일, Microsoft AI 초지능(Superintelligence) 팀이 차세대 이미지 생성 모델 MAI-Image-2를 공개했다. 발표 직후 Arena.ai 텍스트-투-이미지 리더보드에서 세계 3위에 올라, Google의 Gemini 3.1 Flash Image Preview와 OpenAI의 GPT-Image-1.5 High Fidelity 바로 뒤를 차지했다. 이전 모델인 MAI-Image-1이 2025년 10월 9위로 데뷔한 것과 비교하면, 약 5개월 만에 6단계를 뛰어오른 셈이다.
Microsoft가 자체 이미지 생성 모델을 이 정도 수준까지 끌어올린 것은 단순한 기술 성과를 넘어 전략적 의미가 크다. 그동안 Copilot과 Bing Image Creator에 OpenAI의 DALL-E를 라이선스해서 사용하던 Microsoft가, 자체 모델로 같은 수준 이상의 결과물을 내놓기 시작했기 때문이다. 130억 달러 이상을 OpenAI에 투자하면서도 동시에 자체 AI 역량을 쌓아온 Microsoft의 행보가 MAI-Image-2에서 본격적으로 결실을 맺고 있다.
이 문서에서는 MAI-Image-2의 핵심 기능과 개선 사항, 실제 사용 방법과 접근 경로, 현재 제약 사항, 그리고 Microsoft가 자체 AI 모델을 구축해온 전체 역사를 다룬다.
1. MAI-Image-2의 핵심 기능과 MAI-Image-1 대비 개선점
MAI-Image-2는 Microsoft AI 초지능 팀이 사진작가, 디자이너, 비주얼 스토리텔러와 직접 대화하며 개발 방향을 잡은 모델이다. Microsoft 공식 발표와 외부 리뷰를 종합하면, 크게 세 가지 영역에서 뚜렷한 진전이 있다.
1.1 향상된 포토리얼리즘
- MAI-Image-2는 자연광, 피부톤, 표면 질감, 공간 관계를 이전 세대보다 훨씬 자연스럽게 처리한다. 사진작가들이 흔히 후보정에 시간을 쏟는 부분인 바운스 라이트, 반사광, 환경 분위기 등이 생성 단계에서 상당 부분 해결된다.
- Decrypt의 실제 테스트에서 MAI-Image-2는 GPT-Image보다 이미지 품질 면에서 우위를 보였다는 평가가 나왔다. 리더보드 순위상 GPT-Image가 위에 있지만, 실사용에서는 MAI-Image-2가 더 나은 결과를 내는 경우가 확인된 것이다.
- 비현실적인 장면(바다 한가운데에서 자전거를 타는 개 등)에서도 신체 비율, 사지 위치, 깊이감, 공간 배치가 정확하게 처리되었다는 테스트 결과가 보고되었다.
1.2 안정적인 인-이미지 텍스트 생성
- 기존 AI 이미지 생성에서 가장 큰 약점이었던 텍스트 렌더링이 대폭 개선되었다. 포스터, 간판, 인포그래픽, 슬라이드, 다이어그램 등에 포함된 텍스트가 뭉개지거나 왜곡되지 않고 정확하게 출력된다.
- 대형 텍스트 블록, 타이포그래피 레이아웃, 복잡한 포스터 디자인까지 일관성 있게 처리한다. 이 부분은 대부분의 경쟁 모델이 여전히 어려워하는 영역이다.
- 다국어 텍스트에도 일부 대응하며, 한자(漢字) 등의 문자를 생성하려는 시도에서 완벽하진 않지만 부분적으로 성공하는 수준까지 도달했다.
1.3 풍부한 장면 구성 능력
- 초현실적 개념, 정교한 구도, 시네마틱한 장면 등 상상력이 요구되는 복잡한 프롬프트에 대한 반응이 크게 향상되었다.
- 사진 스타일에서 그래픽 디자인, 일러스트레이션 스타일까지 전환이 매끄럽고, 스타일 관련 프롬프트 지시를 정밀하게 따른다.
- 프롬프트를 세밀하게 다듬을수록 결과물 품질이 눈에 띄게 올라간다는 점이 리뷰어들 사이에서 공통적으로 언급되었다.
핵심 포인트: MAI-Image-2는 포토리얼리즘, 텍스트 렌더링, 복잡한 장면 구성이라는 세 축에서 MAI-Image-1 대비 전면적으로 업그레이드되었다. Arena.ai 리더보드 9위에서 3위로의 도약은 이 세 영역의 동시 개선이 반영된 결과다.
2. Arena.ai 리더보드 순위와 경쟁 구도
2026년 3월 18일 기준 Arena.ai 텍스트-투-이미지 리더보드 상위 모델을 정리하면 다음과 같다.
| 순위 | 모델 | 개발사 | Elo 점수 |
|---|---|---|---|
| 1 | gemini-3.1-flash-image-preview (nano-banana-2) | 1,267 | |
| 2 | gpt-image-1.5-high-fidelity | OpenAI | 1,244 |
| 3 | gemini-3-pro-image-preview (nano-banana-pro) | 1,235 | |
| 4 | gemini-3-pro-image-preview 이전 버전 | 1,232 | |
| 5 | mai-image-2 | Microsoft AI | 1,189 |
| 6 | reve-v1.5 | - | 1,177 |
| 7 | grok-imagine-image | xAI | 1,173 |
| 8 | flux-2-max | Flux | 1,167 |
MAI-Image-2는 Elo 1,189점으로 5위에 위치해 있으며, Microsoft 공식 발표에서 언급한 모델 패밀리(Lab) 기준 3위라는 표현은 Google, OpenAI에 이어 세 번째 연구소라는 의미다. 개별 모델 순위로는 5위이지만, Google이 여러 변형을 동시에 등록하고 있어 Lab 기준 랭킹과 개별 모델 랭킹 사이에 차이가 있다.
이 결과가 주목받는 이유는 Microsoft가 불과 5개월 전만 해도 이미지 생성 분야에서 후발주자였기 때문이다. MAI-Image-1이 2025년 10월 LMArena 9위로 데뷔한 이후 빠르게 격차를 좁혔고, 2세대 모델에서 상위 3개 연구소에 진입했다. Mustafa Suleyman은 공식 X(트위터) 계정에서 직접 이 성과를 발표하며, 팀이 이 릴리스를 위해 강도 높게 작업했다고 밝혔다.
3. MAI-Image-2 사용 방법과 접근 경로
현재 MAI-Image-2를 사용할 수 있는 경로는 크게 세 가지이며, 각 경로별 접근성과 제약이 다르다.
3.1 MAI Playground(즉시 사용 가능)
- Microsoft AI 공식 사이트(microsoft.ai)의 MAI Playground에서 MAI-Image-2를 바로 시험해 볼 수 있다. 최신 MAI 모델들을 실험하고 피드백을 직접 팀에 전달할 수 있는 공간이다.
- 인터페이스는 최소한의 구성으로 되어 있으며, 프롬프트를 입력하면 이미지가 생성된다. 별도 계정 없이도 접근 가능하다.
- 현재 제약 사항으로, 이미지 생성 후 30초 쿨다운이 있고 24시간 내 15장 생성 제한이 걸려 있다. 출력 해상도는 1:1 비율만 지원하며, 가로형이나 세로형 비율은 아직 선택할 수 없다.
- 하지만 2026년 3월 20일 기준 MAI Playground 접속시 This region isn't supported yet. We're working to expand access as soon as possible. 메세지가 뜨며 접속 자체가 불가능하다. 특정 국가와 지역에서 한정적으로 테스트 하고 있으며 추후 확장될 여지가 대단히 높다. 접속 주소: https://playground.microsoft.ai/chat
3.2 Copilot과 Bing Image Creator(순차 배포 중)
- MAI-Image-2는 Copilot 무료 버전과 Bing Image Creator에 순차적으로 배포 중이다. 배포가 완료되면 무료로 MAI-Image-2를 사용할 수 있게 된다.
- Bing Image Creator는 bing.com/create에서 접근 가능하며, Bing 모바일 앱에서도 사용할 수 있다. 기존에 DALL-E 3, GPT-4o, MAI-Image-1을 선택할 수 있었던 것처럼, MAI-Image-2도 모델 선택 옵션에 추가될 전망이다. 접속 주소(현재는 MAI-Image-1 모델 사용가능) : https://www.bing.com/images/create
- 배포 완료 시점은 아직 명시되지 않았다. 발표일(2026년 3월 19일) 기준으로 Copilot에서는 아직 MAI-Image-2가 활성화되지 않은 상태라는 리뷰가 있다.
3.3 API 접근(개발자·기업용)
- WPP 같은 대형 광고 에이전시 등 선별된 기업 고객에게는 API가 이미 제공되고 있다. 대규모 이미지 생성이 필요한 기업을 대상으로 한다.
- 일반 개발자를 위한 API 접근은 Microsoft Foundry를 통해 곧 오픈될 예정이다. 상업적 용도로 관심이 있다면 Microsoft AI 사이트에서 신청서를 제출할 수 있다.
- 기존 Azure AI Foundry 생태계와 통합되어 있어, 이미 Microsoft 클라우드를 사용 중인 기업은 비교적 빠르게 도입할 수 있을 것으로 보인다.
핵심 포인트: 지금 당장 MAI-Image-2를 체험하고 싶다면 MAI Playground가 가장 빠른 경로다. Copilot 무료 사용자는 배포가 완료될 때까지 기다려야 하며, 기업용 API는 Microsoft Foundry를 통해 순차 개방된다.
4. 현재 알려진 제약 사항
MAI-Image-2의 기술적 완성도는 높지만, 프로덕션 환경에서의 활용성에는 몇 가지 제약이 존재한다.
4.1 콘텐츠 필터링과 출력 제한
- 콘텐츠 필터링이 경쟁 모델 대비 상당히 엄격하다. Decrypt 리뷰에 따르면, 만화 스타일의 거미가 여성을 쫓는 장면조차 생성이 거부되었다. 호러, 긴장감 있는 장면, 회색 영역의 크리에이티브 작업에서는 제약이 클 수 있다.
- 출력 비율은 1:1 정사각형만 지원한다. 16:9, 9:16, 4:3 등 소셜 미디어나 실무에서 자주 쓰이는 비율을 선택할 수 없다. 2026년 기준으로 이 점은 상당한 제한이다.
- 이미지 투 이미지, 인페인팅, 아웃페인팅, 참조 이미지 기능이 전혀 없다. 순수 텍스트-투-이미지 도구로만 작동하므로, Adobe Firefly나 Midjourney의 편집 기능과는 비교가 어렵다.
| 비교 항목 | MAI-Image-2 | GPT-Image-1.5 | Google Nano Banana |
|---|---|---|---|
| Arena.ai 순위(Lab 기준) | 3위 | 2위 | 1위 |
| 출력 비율 | 1:1만 | 다양 | 다양 |
| 이미지 편집 기능 | 없음 | 있음 | 있음 |
| 무료 접근성 | Copilot/Bing 배포 중 | ChatGPT 유료 | Google AI Studio |
| 텍스트 렌더링 | 매우 강함 | 강함 | 강함 |
| 콘텐츠 필터 강도 | 매우 엄격 | 보통 | 보통 |
5. Microsoft의 자체 AI 모델 개발 역사
MAI-Image-2는 갑자기 등장한 것이 아니다. Microsoft가 OpenAI에 대한 의존도를 줄이면서 자체 AI 역량을 쌓아온 여정의 최신 결과물이다. 이 흐름을 이해하려면 Microsoft의 AI 개발 역사를 시간순으로 살펴볼 필요가 있다.
5.1 연구소 시대에서 OpenAI 파트너십까지
- Microsoft Research는 1991년 설립 이래 AI 기초 연구를 꾸준히 수행해왔다. 2016년에는 음성 인식 분야에서 인간 수준의 정확도(human parity)를 달성하며 주목받았다.
- 2019년, Microsoft는 OpenAI에 첫 10억 달러 투자를 단행했다. 이후 누적 투자액은 130억 달러 이상에 달하며, Azure 클라우드 인프라를 OpenAI에 제공하는 대신 GPT 시리즈 모델의 독점적 상업화 권한을 확보했다.
- 2022년 10월, OpenAI의 DALL-E를 기반으로 Bing Image Creator를 출시했고, 2023년 3월에는 DALL-E 기반 이미지 생성 기능을 Bing에 본격 통합했다. 같은 해 10월 DALL-E 3로 업그레이드하면서 이미지 생성 품질이 크게 향상되었다.
5.2 소형 언어 모델과 자체 연구 성과
- 2023년, Microsoft Research는 Phi 시리즈 소형 언어 모델(SLM)을 발표했다. Phi-1(코드 특화, 13억 파라미터), Phi-1.5, Phi-2(27억 파라미터)로 이어지며, 자신보다 25배 큰 모델과 동등한 성능을 보여 업계에 충격을 줬다.
- 같은 시기에 Orca 모델을 발표했다. GPT-4의 추론 과정을 학습 데이터로 활용하는 방식으로, 소형 모델에서도 높은 수준의 추론 능력을 구현할 수 있음을 입증했다.
- 2024년에는 Phi-3 시리즈를 Azure에 출시하고, 2024년 12월에는 Phi-4까지 발전시켰다. STEM과 수학적 추론에서 특히 강점을 보이는 모델로, Microsoft가 OpenAI에 의존하지 않고도 경쟁력 있는 언어 모델을 만들 수 있다는 것을 보여줬다.
5.3 Inflection AI 인수와 Microsoft AI 조직 출범
- 2024년 3월, Microsoft는 Inflection AI의 공동 창립자 Mustafa Suleyman과 Karen Simonyan을 영입하고, 70명 규모의 팀 대부분을 흡수했다. 이를 위해 약 6억 5천만 달러를 Inflection에 지급했다. Suleyman은 Google DeepMind의 공동 창립자 출신으로, AI 분야에서 가장 영향력 있는 인물 중 하나다.
- 이 인수를 통해 Microsoft AI라는 새 조직이 출범했고, Suleyman이 CEO로 취임해 소비자용 Copilot과 자체 AI 모델 개발을 총괄하게 되었다.
- 2025년 11월, Suleyman은 MAI 초지능 팀(MAI Superintelligence Team)의 비전을 공개하며, 인간 중심의 초지능(Humanist Superintelligence) 개발을 선언했다. 차세대 GB200 클러스터가 가동 중이라고 밝히며, 독자적인 컴퓨트 인프라 확보에도 나섰다.
5.4 자체 모델 본격 출시: MAI 시리즈 타임라인
- 2025년 8월 — MAI-Voice-1과 MAI-1-preview를 동시에 발표했다. MAI-Voice-1은 단일 GPU에서 1분 분량의 오디오를 1초 미만에 생성할 수 있는 음성 모델이고, MAI-1-preview는 약 15,000대의 NVIDIA H100 GPU에서 사전 학습된 MoE(Mixture of Experts) 기반 범용 언어 모델이다.
- 2025년 10월 — MAI-Image-1 발표. 완전 자체 개발 첫 이미지 생성 모델로, LMArena 9위에 데뷔했다. 이후 11월에 Bing Image Creator와 Copilot에 순차 배포되었다.
- 2025년 6월 — MAI-DxO(MAI Diagnostic Orchestrator) 발표. 의료 진단 AI로, 복잡한 진단 사례에서 일반의 정확도 20%를 85.5%까지 끌어올리는 성과를 보였다. OpenAI의 o3 모델과 조합했을 때 최고 성능을 기록했다.
- 2026년 3월 17일 — Microsoft가 Copilot 리더십 개편을 발표했다. Suleyman은 Copilot 제품 총괄에서 물러나 자체 AI 모델 개발과 초지능 연구에 전념하게 되었고, 전 Snap 임원인 Jacob Andreou가 Copilot을 맡게 되었다.
- 2026년 3월 19일 — MAI-Image-2 발표. Arena.ai 리더보드 Lab 기준 세계 3위를 달성하며, Microsoft의 자체 이미지 생성 기술이 Google, OpenAI와 경쟁할 수 있는 수준에 도달했음을 입증했다.
핵심 포인트: Microsoft는 2024년 Inflection AI 인수 이후 약 2년 만에 음성(MAI-Voice-1), 언어(MAI-1-preview), 이미지(MAI-Image-1, 2), 의료(MAI-DxO)까지 아우르는 자체 AI 모델 포트폴리오를 구축했다. OpenAI 투자와 자체 개발이라는 양날의 전략이 동시에 진행 중이다.
6. 디자이너·포토그래퍼·마케터에게 미치는 실질적 영향
MAI-Image-2가 실무에 미치는 영향은 직군별로 다르게 나타난다.
포토그래퍼 입장에서는 후보정 시간 단축이 가장 큰 변화다. 자연광과 피부톤 처리가 이전 AI 이미지 모델들보다 현실에 가까워졌기 때문에, AI 생성 이미지를 시안이나 레퍼런스로 사용할 때 추가 보정 작업이 줄어든다. Microsoft 공식 발표에서도 이 점을 직접적으로 언급하며, 후보정보다 창작에 시간을 쓸 수 있도록 설계했다고 밝혔다.
디자이너에게는 텍스트 렌더링 안정성이 핵심이다. 포스터, 인포그래픽, 프레젠테이션 슬라이드에 들어가는 텍스트가 정확하게 생성되면, 이미지 위에 별도로 텍스트를 배치하는 추가 작업이 필요 없어진다. Adobe를 주로 사용하는 디자이너들 사이에서 반응이 폭발적이라는 보고가 나오고 있는 것도 이 때문이다.
마케터와 광고 업계에서는 대규모 광고 소재 자동 생성 가능성에 주목하고 있다. WPP 같은 글로벌 광고 에이전시가 이미 API를 사용하고 있다는 사실이 이를 뒷받침한다. 캠페인별로 수백 장의 변형 이미지가 필요한 퍼포먼스 마케팅 분야에서, API를 통한 자동화된 이미지 생성은 상당한 비용 절감 효과를 가져올 수 있다.
다만 현재의 제약(1:1 비율만 지원, 엄격한 콘텐츠 필터, 이미지 편집 기능 부재)이 해소되기 전까지는, 프로덕션 파이프라인의 보조 도구 수준에 머무를 가능성이 높다. Microsoft가 이 제약들을 얼마나 빠르게 해결하느냐가 실무 도입 속도를 결정할 핵심 변수다.
7. 마무리
위에서 살펴본 MAI-Image-2와 Microsoft 자체 AI 개발 역사의 핵심 내용을 정리하면 다음과 같습니다.
핵심 요약:
- MAI-Image-2는 Arena.ai 텍스트-투-이미지 리더보드에서 Lab 기준 세계 3위(개별 모델 5위, Elo 1,189점)를 달성했으며, Google과 OpenAI에 이어 세 번째 연구소로 자리매김했다.
- 포토리얼리즘, 텍스트 렌더링, 복잡한 장면 구성이라는 세 가지 핵심 영역에서 MAI-Image-1 대비 전면적인 개선이 이루어졌다.
- MAI Playground에서 즉시 체험 가능하며, Copilot과 Bing Image Creator에는 순차 배포 중이다. 일반 개발자용 API는 Microsoft Foundry를 통해 곧 개방된다.
- 현재 1:1 비율만 지원, 24시간 15장 생성 제한, 이미지 편집 기능 부재, 엄격한 콘텐츠 필터 등의 제약이 있다.
- Microsoft는 2024년 Inflection AI 인수 이후 MAI-Voice-1, MAI-1-preview, MAI-Image-1, MAI-DxO, MAI-Image-2로 이어지는 자체 AI 모델 포트폴리오를 빠르게 확장해왔다.
- Mustafa Suleyman이 2026년 3월 Copilot에서 모델 개발 전담으로 전환하면서, Microsoft의 자체 AI 연구 투자는 더욱 가속화될 전망이다.
MAI-Image-2를 당장 활용하려면 MAI Playground에서 먼저 프롬프트 스타일과 결과물 품질을 파악한 뒤, Copilot 배포가 완료되면 일상 워크플로에 통합하는 순서가 합리적이다. 기업 단위 도입을 고려한다면 Microsoft Foundry API 신청을 먼저 진행하는 것이 시간을 절약할 수 있는 방법이다.