xAI가 2026년 4월 공개한 Grok 4.3는 직전 버전인 Grok 4.20 0309 v2 대비 가격을 큰 폭으로 낮추면서 동시에 에이전트 작업 성능을 끌어올린 모델입니다. 단순히 새 버전 번호를 붙인 마이너 업데이트가 아니라, 가격·지능 지표·실세계 작업 능력이라는 세 축을 동시에 움직였다는 점에서 의미가 있습니다.
특히 Artificial Analysis Intelligence Index에서 53점을 기록해 직전 Grok 4.20 0309 v2 대비 4점 상승했고, Muse Spark·Claude Sonnet 4.6와 비슷한 구간에 자리 잡았습니다. 동시에 입력 토큰 단가는 약 37.5%, 출력 토큰 단가는 약 58.3% 인하되어 지능당 비용 측면에서 Pareto 프론티어 위에 위치하게 되었습니다.
이 문서에서는 SNS상에 떠도는 요약을 그대로 옮기지 않고, xAI 공식 문서와 Artificial Analysis 공식 발표, GDPval-AA 리더보드 등 1차 자료를 교차 검증해 Grok 4.3의 실제 변화점을 정리합니다. API를 직접 도입하려는 개발팀과, 모델 선택 기준을 잡으려는 실무자 모두에게 도움이 되는 수준의 디테일을 다룹니다.
1. 가격 구조의 파격적 변화
Grok 4.3의 가장 눈에 띄는 변화는 토큰 단가 인하입니다. xAI는 신규 모델을 출시하면서 동시에 직전 세대 대비 두 자릿수 비율의 가격 인하를 단행했습니다.
1.1 토큰 단가 비교
| 항목 | Grok 4.20 0309 v2 | Grok 4.3 | 변화율 |
|---|---|---|---|
| 입력 토큰 (1M당) | 약 $2.00 | $1.25 | -37.5% |
| 출력 토큰 (1M당) | 약 $6.00 | $2.50 | -58.3% |
| 캐시된 입력 토큰 (1M당) | - | $0.20 수준 | 신규 인하 |
Artificial Analysis가 자체 Intelligence Index 평가 스위트를 한 번 돌리는 데 드는 비용도 약 $395로, 직전 버전 대비 약 20% 감소했습니다. 이는 Grok 4.3가 응답 시 사용하는 출력 토큰 수 자체는 약 44% 더 많아졌음에도 단가 인하 폭이 더 커서 총비용이 오히려 줄어든 결과입니다.
1.2 실무 도입 관점의 의미
- 동일한 트래픽을 가정하면 출력 비용은 절반 이하로 떨어진다.
- 캐시된 입력 토큰을 적극 활용할 경우 RAG·반복 질의 비용이 한층 낮아진다.
- 동급 지능을 제공하는 다른 프런티어 모델과 비교하면 가격·지능 균형 측면에서 가장 매력적인 선택지 중 하나가 된다.
핵심 포인트: Grok 4.3는 단가 인하와 성능 향상을 동시에 달성했습니다. 출력 토큰 단가가 절반 이하로 떨어진 것이 운영 비용에 가장 큰 영향을 줍니다. 단, 응답이 더 길어졌으므로 총 토큰 사용량 모니터링은 여전히 필수입니다.
2. 벤치마크로 확인한 성능 변화
Artificial Analysis가 공개한 벤치마크 결과를 살펴보면, Grok 4.3의 강점이 어디에 집중되어 있는지 명확하게 드러납니다.
2.1 GDPval-AA 에이전트 벤치마크
GDPval-AA는 실제 경제활동에 등장하는 작업을 모델에 시키고, 그 결과물을 블라인드 페어와이즈 비교로 ELO 점수화한 벤치마크입니다. Grok 4.3는 여기서 1500 ELO를 기록해 직전 버전 1179점에서 321점 상승했습니다.
| 모델 | GDPval-AA ELO | 비고 |
|---|---|---|
| GPT-5.5 (xhigh) | 1771 | 1위 |
| GPT-5.5 (high) | 1754 | 2위 |
| Claude Opus 4.7 (Adaptive Reasoning, Max Effort) | 1753 | 3위 |
| Grok 4.3 | 1500 | 19위, +321 |
| GLM-5.1 (Non-reasoning) | 1497 | 20위 |
| Kimi K2.6 | 1482 | 22위 |
| Gemini 3.1 Pro Preview | 1314 | 52위 |
| Grok 4.20 0309 v2 (Reasoning) | 1175 | 78위 |
주목할 점은 Grok 4.3가 Gemini 3.1 Pro Preview, GPT-5.4 mini(xhigh), Kimi K2.5, Muse Spark를 모두 추월했다는 사실입니다. 다만 1위 GPT-5.5(xhigh)와는 276 ELO 차이가 남아 있어 표준 ELO 공식상 예상 승률은 약 17% 수준에 머무릅니다.
2.2 그 외 핵심 벤치마크
- τ²-Bench Telecom에서 5점 상승한 98%를 기록해 GLM-5.1과 동급의 지시 수행 능력을 보였다.
- IFBench는 81%로 직전 버전과 동일하게 유지됐다.
- AA-Omniscience Accuracy는 8점 상승했지만, 같은 평가의 Non-Hallucination Rate는 8점 하락해 환각 억제 측면에서는 Grok 4.20 0309 v2가 여전히 우위를 점한다.
- Artificial Analysis Intelligence Index는 종합 점수 기준 53점으로, 직전 버전보다 4점 향상됐다.
환각 억제 항목의 후퇴는 실제 운영 환경에서 신중히 봐야 할 부분입니다. 사실 정확도는 올랐지만, 그 대가로 자신 있게 틀리는 빈도가 늘어났을 가능성이 있다는 뜻이기 때문입니다.
3. 경쟁 모델과의 위치 비교
Grok 4.3가 시장에서 차지하는 위치는, 단순히 "전 버전보다 좋다"가 아니라 "GPT-5.5·Claude Opus 4.7과 같은 최상위 티어를 따라잡는 두 번째 그룹"으로 정리됩니다.
3.1 주요 프런티어 모델과의 GDPval-AA 비교
| 모델 | 출시 시점 | GDPval-AA ELO | 입력가 ($/1M) | 출력가 ($/1M) |
|---|---|---|---|---|
| GPT-5.5 (xhigh) | 2026년 4월 | 1771 | 상위가 | 상위가 |
| Claude Opus 4.7 (Max Effort) | 2026년 4월 | 1753 | 상위가 | 상위가 |
| Grok 4.3 | 2026년 4월 | 1500 | $1.25 | $2.50 |
| Gemini 3.1 Pro Preview | 2026년 2월 | 1314 | 중간 | 중간 |
| Grok 4.20 0309 v2 | 2026년 4월 | 1175 | $2.00 | $6.00 |
3.2 선택 기준
- 최고 성능이 절대적으로 필요한 경우라면 GPT-5.5(xhigh)나 Claude Opus 4.7이 우선 후보가 된다.
- 비용 효율과 성능의 균형을 원한다면 Grok 4.3가 매우 강한 선택지로 떠오른다.
- 환각률을 가장 보수적으로 관리해야 하는 워크로드(법률·의료 보조, 사실 인용 위주)에서는 오히려 Grok 4.20 0309 v2가 여전히 유리하다.
- 컨텍스트 길이와 도구 호출이 핵심이라면, Grok 시리즈는 함수 호출과 구조화 출력, 추론 모드 토글을 표준 지원하므로 에이전트 파이프라인에 자연스럽게 들어맞는다.
4. 코딩과 디자인 구현 능력
Grok 4.3는 사용자 사이에서 단일 프롬프트로 완성도 높은 프런트엔드 결과물을 만들어내는 사례가 다수 공유되고 있습니다. 일부 사용자가 단순한 자연어 지시만으로 다크 모드와 부드러운 인터랙션, 캐릭터 카드, 시뮬레이터 컴포넌트를 포함한 SPA 형태의 결과물을 얻었다는 보고가 있습니다.
이는 GDPval-AA 점수 상승과 결이 같은 변화입니다. 해당 벤치마크는 실제 경제활동에 가까운 멀티스텝 작업을 평가하는데, 코딩·디자인 구현은 여기에 직접적으로 포함되는 영역이기 때문입니다. 다만 벤치마크 점수와 개별 사용 후기는 분리해서 봐야 하며, 동일 프롬프트로 GPT-5.5나 Claude Opus 4.7을 돌리면 더 높은 품질이 나오는 경우도 흔합니다.
실무 도입 시 점검할 항목은 다음과 같습니다.
- 단일 프롬프트가 아니라 반복 수정·디버깅이 포함된 시나리오에서 어떤 모델이 더 빠르게 안정화되는지 비교한다.
- 함수 호출, 구조화 출력, JSON 스키마 강제 등 도구 친화적 기능이 자기 파이프라인에서 잘 동작하는지 본다.
- 환각률 변화로 인해 테스트 코드·검증 단계를 자동화 워크플로에 더 강하게 끼워 넣을지 결정한다.
5. 컨텍스트 윈도우와 도구 비용
xAI 공식 문서에 따르면 Grok 4.3는 xAI가 "가장 지능적이고 빠른 모델"이라고 부르는 플래그십이며, 일반 텍스트 워크로드에서는 grok-4.3 모델 식별자를 그대로 쓸 것을 권장합니다.
5.1 서버사이드 도구 가격 (xAI 공식 기준)
| 도구 | 호출 1,000건당 비용 | 용도 |
|---|---|---|
웹 검색 (web_search) |
$5 | 인터넷 검색·웹페이지 탐색 |
X 검색 (x_search) |
$5 | X 게시물·프로필·스레드 검색 |
코드 실행 (code_execution) |
$5 | 샌드박스 파이썬 실행 |
파일 첨부 검색 (attachment_search) |
$10 | 메시지 첨부 파일 검색 |
컬렉션 검색 (collections_search) |
$2.50 | 업로드 문서 RAG |
이 비용은 토큰 사용료와 별도로 부과됩니다. 즉 에이전트가 도구를 자율적으로 많이 호출하는 워크로드일수록 토큰가 인하 효과가 일부 상쇄될 수 있습니다. Batch API를 이용하면 표준 토큰가 대비 20%~50% 할인이 적용되며, 이 할인은 입력·출력·캐시·추론 토큰 모두에 동일하게 들어갑니다.
또한 Grok 시리즈는 위반 처리 정책에 따라 Responses API에서 사전 차단된 요청에 대해 건당 $0.05의 사용 가이드라인 위반 수수료가 부과될 수 있다는 점도 운영 단계에서 점검해야 합니다.
6. 도입 전 체크리스트
Grok 4.3로 옮길지 결정하려면 다음 항목을 차례로 확인하는 것이 안전합니다.
- 우리 서비스의 출력 비중이 입력보다 큰가? 그렇다면 가격 인하 효과가 평균 이상으로 크게 체감된다.
- 환각률에 민감한 도메인인가? 사실성·인용 정확도가 핵심이라면 4.20 라인을 일정 기간 병행 운영하는 것이 안전하다.
- 에이전트형 워크로드 비중이 높은가? GDPval-AA 점수 향상은 멀티스텝 작업과 연관도가 높으므로, 실제 자체 평가셋에서 A/B 테스트를 거쳐야 한다.
- OpenRouter, AWS Bedrock 등 외부 라우팅 환경을 함께 쓰는가? 모델 별칭과 버전 고정 정책을 이번 기회에 점검해 두면 좋다.
- 요청량 한도와 도구 호출 비용까지 합한 총 운영비를 시뮬레이션했는가? 토큰가만 보고 도입했다가 도구 비용에서 예상치를 초과하는 사례가 자주 보고된다.
7. 마무리
위에서 살펴본 Grok 4.3의 핵심 내용을 정리하면 다음과 같습니다.
핵심 요약:
- Grok 4.3는 2026년 4월 출시되어 Artificial Analysis Intelligence Index 53점을 기록했다.
- 입력 토큰 단가가 약 37.5%, 출력 토큰 단가가 약 58.3% 인하되어 가격 경쟁력이 크게 강화됐다.
- GDPval-AA 에이전트 벤치마크에서 1500 ELO를 기록해 전 버전 대비 321점 상승했다.
- τ²-Bench Telecom 98%, IFBench 81%로 지시 수행과 에이전트 작업에서 상위권에 위치한다.
- 다만 AA-Omniscience Non-Hallucination Rate는 8점 하락해 환각 억제 측면에서는 Grok 4.20 0309 v2가 여전히 우위다.
- GPT-5.5(xhigh)와는 276 ELO 차이로 예상 승률 약 17% 수준이며, 가격·지능 균형에서 가장 강한 차상위 후보다.
실제 도입을 결정한다면, 비용에 민감한 대량 트래픽 워크로드와 에이전트형 코딩·문서 생성 파이프라인부터 우선 옮기고, 사실 인용·법률·의료 같은 환각 민감 영역은 자체 평가셋으로 충분히 비교한 뒤 단계적으로 전환하는 것이 가장 안전합니다.