Qwen3.5-Omni | 알리바바 차세대 옴니모달 AI의 핵심 기능과 성능 분석

1. 알리바바가 공개한 Qwen3.5-Omni, 무엇이 달라졌나

2026년 3월 30일, 알리바바 Qwen 팀이 차세대 풀 옴니모달 대규모 언어 모델 Qwen3.5-Omni를 공개했다. 이 모델은 텍스트, 이미지, 오디오, 비디오를 하나의 통합 아키텍처에서 처리하고 생성하는 것을 목표로 설계되었으며, 이전 세대인 Qwen3-Omni 대비 거의 모든 영역에서 기능이 대폭 확장되었다.

Qwen3.5-Omni는 Plus, Flash, Light 세 가지 사이즈의 Instruct 버전으로 제공되며, 최대 256K 토큰의 긴 컨텍스트 입력을 지원한다. 10시간 이상의 오디오 입력과 1FPS 기준 400초 이상의 720P 오디오-비주얼 입력을 한 번에 처리할 수 있어, 기존 모델들이 보여주던 입력 길이 제한을 크게 넘어섰다.

특히 주목할 점은 거대 빅테크의 전유물로 여겨지던 고성능 실시간 AI가 매우 저렴한 비용으로 시장에 풀리고 있다는 것이다. Flash 버전의 경우 100만 토큰당 0.1달러 수준의 입력 가격이 책정되어 있어, 동급 프리미엄 모델 대비 비용 효율이 매우 높다. 이 문서에서는 Qwen3.5-Omni의 아키텍처 특징, 주요 신기능, 벤치마크 성능, 그리고 실제 활용 시나리오까지 구체적으로 다룬다.

큐웬 공식 블로그: https://qwen.ai/blog?id=qwen3.5-omni https://youtu.be/zdAsDshsMmU

2. Thinker-Talker 아키텍처와 Hybrid-Attention MoE

Qwen3.5-Omni는 이전 세대와 마찬가지로 Thinker-Talker 아키텍처를 채택하고 있다. Thinker는 Vision Encoder와 Audio Transformer(AuT)를 통해 시각·청각 신호를 수신하고, TMRoPE(시간적 다중 로프 위치 인코딩)를 활용해 오디오-비주얼 신호를 인터리브 방식으로 인코딩한다. Thinker가 옴니모달 신호를 처리해 텍스트를 출력하면, Talker가 이 텍스트 출력과 멀티모달 입력을 받아 문맥에 맞는 음성을 생성하는 구조다.

2.1. 핵심 아키텍처 변경점

이전 세대 Qwen3-Omni의 일반 MoE(Mixture-of-Experts) 에서 Hybrid-Attention MoE로 백본이 변경되었다. Thinker와 Talker 모두 이 하이브리드 구조를 채택하고 있어, 추론 효율성과 성능 모두에서 이점을 가진다.
시퀀스 길이가 기존 32K에서 256K로 8배 확장되었다. 오디오 기준 최대 10시간, 오디오-비주얼(FPS=1) 기준 400초까지 한 번에 입력 가능하다.
Talker 입력 구조가 기존의 Dual-Track Autoregression에서 Interleave 방식으로 변경되었다. 새로 도입된 ARIA(Adaptive Rate Interleave Alignment) 기법이 텍스트와 음성 토큰의 인코딩 효율 차이를 동적으로 정렬하여, 숫자 오독이나 발화 누락 같은 스트리밍 음성 상호작용에서의 불안정성을 크게 줄였다.
음성 표현은 Qwen3-Omni에서 제안된 RVQ(Residual Vector Quantization) 방식을 이어받아 인코딩하며, 기존의 연산 부담이 큰 DiT 방식을 대체했다.

핵심 포인트: Qwen3.5-Omni의 Hybrid-Attention MoE 백본과 ARIA 기법은 스트리밍 환경에서 텍스트-음성 간 정렬 문제를 근본적으로 개선했다. 256K 컨텍스트 윈도와 결합되어, 장시간 오디오·비디오 분석이 단일 호출로 가능해졌다.

3. Qwen3-Omni 대비 Qwen3.5-Omni 변경 사항 비교

Qwen3-Omni에서 Qwen3.5-Omni로의 세대 교체에서 가장 두드러진 변화를 항목별로 정리하면 다음과 같다.

항목	Qwen3-Omni	Qwen3.5-Omni
백본 아키텍처	MoE	Hybrid-Attention MoE
시퀀스 길이	32K	256K
캡셔닝	오디오만	오디오-비주얼 통합
시맨틱 인터럽션	미지원	네이티브 지원
WebSearch / Tool	미지원	네이티브 지원
음성 제어	미지원	음량·속도·감정 제어 가능
음성 클로닝	미지원	지원
Talker 구조	Dual-Track Autoregression	Interleave (ARIA)
음성 인식 언어	11개 다국어 + 8개 중국 방언	74개 다국어 + 39개 중국 방언 (총 113개)
음성 합성 언어	제한적	29개 다국어 + 7개 중국 방언 (총 36개)

음성 인식에서 지원 언어가 19개에서 113개로, 음성 합성은 36개 언어/방언으로 대폭 늘어난 것이 눈에 띈다. 한국어는 음성 인식과 합성 모두 지원 대상에 포함되어 있다.

4. 주요 신기능 상세 분석

4.1. 오디오-비주얼 바이브 코딩(Audio-Visual Vibe Coding)

Qwen3.5-Omni-Plus에서 새롭게 등장한 기능으로, 화면과 소리를 통한 지시만으로 코딩을 수행할 수 있다. 사용자가 음성으로 코딩 지시를 내리면서 화면을 보여주면, 모델이 이를 종합적으로 해석해 코드를 생성한다.
알리바바 Qwen 팀은 이를 네이티브 멀티모달 스케일링 과정에서 자연 발생적으로 나타난 이머전트(emergent) 능력이라고 설명한다. 별도의 파인튜닝 없이 옴니모달 모델의 규모가 커지면서 자연스럽게 획득된 능력이라는 의미다.
이 기능은 Offline API를 통해 사용할 수 있으며, 복잡한 멀티스텝 코딩 지시에서도 오디오와 비주얼 맥락을 동시에 반영한 코드 생성이 가능하다.

4.2. 시맨틱 인터럽션(Semantic Interruption)

대화 중 상대방이 말을 끊어도 문맥을 잃지 않고 반응하는 기능이다. 핵심은 네이티브 턴테이킹 의도 인식으로, 단순 추임새(backchannel)나 배경 소음과 실제 발화 끼어들기를 구분한다.
기존 실시간 음성 AI에서 흔히 발생하던 가짜 인터럽트 문제(사용자가 '네'나 '아' 같은 추임새를 넣었을 때 AI가 말을 멈추는 현상)를 크게 줄였다.
이 기능은 Realtime API에서 네이티브로 지원되며, 별도 설정 없이 바로 사용 가능하다.

4.3. 음성 클로닝 및 음성 제어

사용자가 음성 샘플을 업로드하면 AI 어시스턴트의 목소리를 해당 음성으로 커스터마이징할 수 있다. Realtime API를 통해 제공된다.
엔드 투 엔드 음성 제어도 지원되어, 모델에게 사람처럼 말하는 음량, 속도, 감정을 자유롭게 지시할 수 있다.
시스템 프롬프트 수정을 통해 대화 스타일이나 정체성도 변경 가능하다.

4.4. WebSearch 및 FunctionCall

실시간 대화 중 모델이 자율적으로 웹 검색을 수행하여 최신 정보를 기반으로 응답할 수 있다.
복잡한 FunctionCall도 네이티브로 지원되어, 외부 도구와의 연동이 자연스럽다.
Qwen3-Omni에서는 이 기능이 없었기 때문에, 실시간 상호작용에서의 실용성이 크게 높아진 부분이다.

5. 벤치마크 성능: Gemini 3.1 Pro와의 비교

공식 발표 기준, Qwen3.5-Omni-Plus는 215개 오디오 및 오디오-비주얼 이해·추론·상호작용 서브태스크/벤치마크에서 SOTA(최고 성능)를 달성했다. 여기에는 3개 오디오-비주얼 벤치마크, 5개 오디오 벤치마크, 8개 ASR 벤치마크, 156개 언어별 S2TT 태스크, 43개 언어별 ASR 태스크가 포함된다.

5.1. 오디오-비주얼 벤치마크 핵심 수치

벤치마크	Gemini 3.1 Pro	Qwen3.5-Omni-Flash	Qwen3.5-Omni-Plus
DailyOmni	82.7	81.8	84.6
WorldSense	65.5	57.9	62.8
AVUT	85.6	81.4	85.0
VideoMME (오디오 포함)	89.0	79.3	83.7
QualcommInteractive	66.2	66.3	68.5
Omni-Cloze (캡션)	57.2	63.0	64.8
OmniGAIA (에이전트)	68.9	33.9	57.2

Plus 모델은 DailyOmni, AVUT, QualcommInteractive, Omni-Cloze 등에서 Gemini 3.1 Pro를 앞서고 있다. 다만 VideoMME(오디오 포함)나 OmniGAIA(에이전트 도구 사용) 같은 항목에서는 Gemini 3.1 Pro가 여전히 우위를 보인다.

5.2. 오디오 벤치마크 핵심 수치

벤치마크	Gemini 3.1 Pro	Qwen3.5-Omni-Plus
MMAU (오디오 이해)	81.1	82.2
MMSU	81.3	82.8
RUL-MuchoMusic	59.6	72.4
VoiceBench (대화)	88.9	93.1
Fleurs ASR (상위 60개 언어)	7.32 WER	6.55 WER
Librispeech (clean)	3.36 WER	1.11 WER

특히 VoiceBench 93.1점(Gemini 3.1 Pro 88.9점 대비 +4.2), RUL-MuchoMusic 72.4점(59.6점 대비 +12.8)에서 큰 격차를 보여, 오디오 이해 및 대화 영역에서의 강점이 두드러진다. ASR(음성 인식) 분야에서도 Fleurs 상위 60개 언어 WER 6.55로 Gemini 3.1 Pro의 7.32를 하회(낮을수록 좋음)한다.

5.3. 비주얼 및 텍스트 벤치마크

Qwen3.5-Omni-Plus의 비주얼·텍스트 성능은 동일 사이즈의 Qwen3.5 모델(Qwen3.5-Plus-NoThinking)과 거의 동등하다. MMMU 80.1, MMMU-Pro 73.9, MMLU-Pro 85.9, GPQA 83.9 등의 수치가 이를 뒷받침한다. 이는 옴니모달 통합 모델임에도 개별 모달리티의 성능 저하가 거의 없음을 의미한다.

핵심 포인트: Qwen3.5-Omni-Plus는 오디오 이해·대화·음성 인식 영역에서 Gemini 3.1 Pro를 넘어서는 성능을 보이며, 비주얼과 텍스트 능력도 전문 단일 모달 모델 수준을 유지한다. 다만 에이전트 도구 사용(OmniGAIA) 분야에서는 아직 격차가 존재한다.

6. 음성 생성 품질과 ARIA 기법의 효과

Qwen3.5-Omni-Plus의 음성 생성 품질은 ElevenLabs, Gemini 2.5 Pro, GPT-Audio, MiniMax 등 주요 경쟁 서비스와 비교 평가되었다. 안정성(WER, 낮을수록 좋음) 기준에서 주요 수치를 비교하면 다음과 같다.

테스트셋	ElevenLabs	Gemini 2.5 Pro	GPT-Audio	MiniMax	Qwen3.5-Omni-Plus
Seed-zh	13.08	2.42	1.11	1.19	1.07
Seed-hard	27.70	11.57	8.19	8.62	6.24
Public-Multilingual (20개 언어)	12.62	2.72	2.65	2.16	2.06
Inhouse-Multilingual (9개 언어)	20.63	6.61	6.72	11.71	5.82

특히 난도가 높은 Seed-hard 세트에서 WER 6.24를 기록하며, GPT-Audio(8.19)와 MiniMax(8.62)를 상당한 차이로 앞섰다. 음성 클로닝 분야에서도 Public-Multilingual 20개 언어 평균 WER 1.87, 유사도(코사인 유사도) 0.79를 달성하여 MiniMax(유사도 0.76)보다 높은 클론 정확도를 보였다.

이러한 안정성 향상의 핵심에는 ARIA(Adaptive Rate Interleave Alignment) 기법이 있다. 텍스트 토큰과 음성 토큰은 인코딩 효율이 서로 다르기 때문에, 스트리밍 환경에서 텍스트-음성 간 동기화가 어긋나면 숫자 오독, 발화 누락, 불명확한 발음이 발생한다. ARIA는 이 두 유닛을 동적으로 정렬하고 인터리브하여, 실시간 성능을 유지하면서도 음성 합성의 자연스러움과 견고함을 대폭 개선했다.

7. API 제공 방식과 가격 구조

Qwen3.5-Omni는 Offline API와 Realtime API 두 가지 방식으로 제공된다.

7.1. Offline API vs Realtime API 기능 구분

Offline API: 오디오-비주얼 바이브 코딩, 상세 캡셔닝(타임스탬프 포함), 시나리오 수준 세밀 묘사 등 고급 분석 기능을 제공한다.
Realtime API: 시맨틱 인터럽션, WebSearch, FunctionCall, 음성 제어, 음성 클로닝, 시스템 프롬프트 기반 행동 변경 등 실시간 상호작용 기능을 제공한다.

가격 면에서, Qwen3.5 시리즈의 텍스트 모델 기준 Qwen3.5-Flash는 알리바바 클라우드 기준 100만 토큰당 입력 $0.10, 출력 $0.40이다. 글로벌 배포 모드에서는 입력 $0.029, 출력 $0.287까지 낮아진다. Qwen3-Omni-Flash의 이전 가격(입력 1위안/100만 토큰, 출력 3위안/100만 토큰)과 비교해도 공격적인 가격 정책이다.

Qwen3.5-Omni 전용 API 가격은 공식 블로그에서 별도 안내를 확인할 필요가 있으나, Qwen 시리즈 전체의 가격 추세를 감안하면 Plus 모델이 입력 기준 100만 토큰당 $0.4~$1.2, Flash가 $0.1 수준에서 형성될 것으로 예상된다.

8. 오디오-비주얼 캡셔닝과 실전 활용 시나리오

Qwen3.5-Omni-Plus의 가장 차별화된 기능 중 하나는 구조화된 오디오-비주얼 캡셔닝이다. 단순한 비디오 자막 생성이 아니라, 자동 세그먼트 분할, 타임스탬프 주석, 등장인물 식별, 오디오와 화면 간 관계 기술을 포함하는 시나리오 수준(screenplay-level)의 세밀한 묘사가 가능하다.

공식 블로그에 공개된 데모에서는 자연 다큐멘터리 분석 사례가 소개되었다. 모델이 3분 분량의 사자 다큐멘터리를 입력받아, 각 장면의 시각적 요소(카메라 앵글, 색감, 동물 행동), 오디오 요소(배경 음악 구성, 동물 울음소리, 내레이션), 화면 텍스트(OCR), 화자 식별 및 트랜스크립트, 오디오 디자인 분석, 그리고 주제적·문화적 맥락까지 하나의 구조화된 보고서로 출력했다.

이 기능은 실전에서 영상 콘텐츠 제작, 미디어 모니터링, 콘텐츠 검수, 접근성 서비스(배리어프리 자막·음성 해설 생성), 보안 감시 영상 분석 등에 직접 활용 가능하다.

9. 경쟁 모델 대비 포지셔닝

현재 풀 옴니모달 AI 시장은 구글 Gemini 3.1 Pro, OpenAI GPT-5.1, 그리고 알리바바 Qwen3.5-Omni가 삼각 구도를 형성하고 있다. 각 모델의 특성을 요약하면 다음과 같다.

기준	Gemini 3.1 Pro	GPT-5.1	Qwen3.5-Omni-Plus
오디오-비주얼 통합 이해	강점	제한적	Gemini에 근접
오디오 이해·대화	상위권	상위권	SOTA 다수 달성
음성 인식(다국어)	우수	우수	113개 언어 최다
실시간 상호작용	지원	지원	시맨틱 인터럽션 특화
에이전트·도구 사용	최상위	최상위	상위권 (격차 존재)
비용 (입력 기준)	$2.50/1M	$5~$10/1M	$0.10~$0.40/1M
오픈소스 여부	비공개	비공개	일부 오픈소스 전통

Qwen3.5-Omni의 가장 강력한 무기는 성능 대비 가격이다. Gemini 3.1 Pro의 입력 가격($2.50/1M 토큰)과 비교하면 최대 25배 이상 저렴하면서도, 오디오 관련 벤치마크에서는 동등하거나 더 높은 성능을 보인다.

10. 마무리

위에서 살펴본 Qwen3.5-Omni의 핵심 내용을 정리하면 다음과 같습니다.

핵심 요약:

Qwen3.5-Omni는 Hybrid-Attention MoE 기반의 풀 옴니모달 LLM으로, Plus·Flash·Light 3개 사이즈 제공
256K 컨텍스트 윈도, 10시간 오디오 입력, 113개 언어 음성 인식, 36개 언어 음성 합성 지원
오디오-비주얼 바이브 코딩이라는 이머전트 능력이 등장해, 화면과 음성 지시만으로 코딩이 가능
ARIA 기법으로 스트리밍 음성 합성의 안정성이 크게 향상되어 숫자 오독·발화 누락 문제를 해결
215개 오디오·오디오-비주얼 서브태스크에서 SOTA를 기록하며, 대부분의 오디오 벤치마크에서 Gemini 3.1 Pro를 상회
Flash 버전 기준 100만 토큰당 $0.10 수준의 압도적 가격 경쟁력으로, 실시간 AI 서비스의 진입 장벽을 크게 낮춤

실제 도입을 고려한다면, 정밀한 오디오-비주얼 분석이나 장시간 영상 처리가 필요한 경우 Plus 모델 + Offline API 조합이 적합하고, 실시간 음성 대화·고객 서비스·음성 클로닝이 핵심인 경우 Flash 또는 Light 모델 + Realtime API 조합이 비용 대비 효율이 높다. 에이전트 도구 사용이 핵심인 워크플로에서는 Gemini 3.1 Pro와의 성능 차이를 충분히 테스트한 뒤 결정하는 것이 바람직하다.

자주 묻는 질문

Qwen3.5-Omni와 Qwen3-Omni의 가장 큰 차이점은 무엇인가요?
가장 큰 차이점은 아키텍처(MoE에서 Hybrid-Attention MoE로 변경), 컨텍스트 길이(32K에서 256K로 확장), 그리고 시맨틱 인터럽션·WebSearch·음성 클로닝·음성 제어 등 이전에 없던 실시간 기능들이 네이티브로 추가된 점입니다. 음성 인식 지원 언어도 19개에서 113개로, 음성 합성은 36개 언어로 크게 확대되었습니다.
오디오-비주얼 바이브 코딩(Audio-Visual Vibe Coding)이란 무엇인가요?
사용자가 화면을 보여주면서 음성으로 코딩 지시를 내리면, 모델이 시각 정보와 음성 명령을 동시에 해석해 코드를 생성하는 기능입니다. 알리바바는 이를 옴니모달 스케일링 과정에서 자연스럽게 발현된 이머전트 능력으로 설명하며, Offline API를 통해 사용할 수 있습니다.
Qwen3.5-Omni의 API 가격은 얼마인가요?
Qwen3.5 시리즈 Flash 모델 기준, 알리바바 클라우드 인터내셔널 배포에서 100만 토큰당 입력 $0.10, 출력 $0.40입니다. 글로벌 배포 모드에서는 입력 $0.029, 출력 $0.287까지 낮아집니다. Qwen3.5-Omni 전용 가격은 공식 API 플랫폼에서 최신 정보를 확인하는 것이 좋습니다.
시맨틱 인터럽션은 기존 음성 AI와 어떻게 다른가요?
기존 실시간 음성 AI는 사용자의 추임새(예: '네', '음')나 배경 소음에도 반응하여 발화를 중단하는 경우가 많았습니다. Qwen3.5-Omni의 시맨틱 인터럽션은 네이티브 턴테이킹 의도 인식을 기반으로, 실제 끼어들기 의도가 있는 발화와 단순 추임새·배경 소음을 구분하여 불필요한 중단을 방지합니다.
Qwen3.5-Omni는 한국어를 지원하나요?
네, Qwen3.5-Omni는 음성 인식과 음성 합성 모두에서 한국어를 지원합니다. 음성 인식은 74개 다국어(한국어 포함)와 39개 중국 방언을 커버하며, 음성 합성은 29개 다국어(한국어 포함)와 7개 중국 방언에서 가능합니다.
Qwen3.5-Omni-Plus와 Flash 중 어떤 모델을 선택해야 하나요?
고정밀 오디오-비주얼 분석, 장시간 영상 캡셔닝, 오디오-비주얼 바이브 코딩 등 복잡한 태스크에는 Plus 모델이 적합합니다. 실시간 음성 대화, 고객 서비스, 빠른 응답이 중요한 경우에는 Flash 모델이 비용 대비 효율이 높습니다. Light 모델은 경량 환경에 최적화된 선택입니다.