Grok 4.3 | xAI 신규 API 가격·성능·벤치마크 핵심 정리

Q: Grok 4.3와 Grok 4.20의 가장 큰 차이는 무엇인가요?

토큰 단가 인하와 에이전트 작업 성능 상승이 핵심입니다. 입력 단가는 약 37.5%, 출력 단가는 약 58.3% 인하됐고, GDPval-AA 점수가 1179에서 1500 ELO로 321점 상승했습니다. 다만 환각 억제 지표인 AA-Omniscience Non-Hallucination Rate는 8점 하락해, 사실성에 민감한 워크로드에서는 4.20 라인이 여전히 우위를 보입니다.

Q: Grok 4.3는 GPT-5.5나 Claude Opus 4.7보다 성능이 좋은가요?

GDPval-AA 기준으로 보면 GPT-5.5(xhigh)가 1771, Claude Opus 4.7(Max Effort)이 1753으로 Grok 4.3의 1500보다 위에 있습니다. 표준 ELO 공식으로 환산한 Grok 4.3의 GPT-5.5(xhigh) 대비 예상 승률은 약 17% 수준입니다. 절대 성능은 GPT-5.5와 Claude Opus 4.7이 위지만, 가격 대비 성능 균형에서는 Grok 4.3가 매우 강한 선택지입니다.

Q: Grok 4.3의 정확한 토큰 가격은 얼마인가요?

공개된 단가 기준으로 입력 토큰은 1백만 토큰당 1.25달러, 출력 토큰은 2백만 토큰당이 아니라 1백만 토큰당 2.50달러 수준이며, 캐시된 입력 토큰은 0.20달러대까지 떨어집니다. Batch API를 사용하면 모든 토큰 종류에 20%~50% 추가 할인이 적용됩니다. 단, 웹 검색·코드 실행 같은 서버사이드 도구 호출 비용은 별도로 부과됩니다.

Q: 환각률이 더 높아졌다는 건 실제 운영에 어떤 영향을 주나요?

AA-Omniscience 평가에서 Accuracy가 8점 오르고 Non-Hallucination Rate는 8점 떨어졌다는 것은, 정답을 더 잘 맞히지만 자신 있게 틀리는 빈도도 함께 늘었다는 의미로 해석할 수 있습니다. 법률·의료·재무 같은 사실성 민감 도메인에서는 Grok 4.20 0309 v2를 병행 사용하거나, 검증 단계와 인용 강제 프롬프트를 강화하는 식의 보완이 필요합니다.

Q: 기존 Grok 4.20을 쓰던 시스템에서 Grok 4.3로 전환할 때 주의할 점은요?

출력 토큰 사용량이 약 44% 늘어날 수 있으므로 단가 인하만 보고 비용을 계산하면 어긋날 수 있습니다. 또한 환각률 변화로 인해 자동 검증 로직과 테스트 케이스를 함께 점검해야 합니다. xAI 권장에 따라 grok-4.3 또는 grok-4.3-latest 별칭을 사용하면 후속 패치를 자동으로 받을 수 있고, 워크플로 안정성이 중요하다면 날짜 고정 식별자를 쓰는 편이 안전합니다.

Q: Grok 4.3는 어떤 워크로드에 가장 적합한가요?

비용 민감도가 높고 출력 비중이 큰 챗봇, 코드 생성, 디자인 구현, 멀티스텝 에이전트 워크플로에 잘 맞습니다. GDPval-AA 점수 향상은 실제 경제활동에 가까운 작업에서의 품질 개선과 직결되므로, 단일 프롬프트로 결과물을 빠르게 만드는 시나리오에서 특히 강합니다. 반대로 환각 통제가 가장 우선되는 사실 인용 시스템에서는 다른 모델과의 병행을 검토하는 것이 좋습니다.

최초 발행: 2026년 5월 1일 PM 02:16|최종 수정: 2026년 5월 1일 PM 02:16

xAI가 2026년 4월 공개한 Grok 4.3는 직전 버전인 Grok 4.20 0309 v2 대비 가격을 큰 폭으로 낮추면서 동시에 에이전트 작업 성능을 끌어올린 모델입니다. 단순히 새 버전 번호를 붙인 마이너 업데이트가 아니라, 가격·지능 지표·실세계 작업 능력이라는 세 축을 동시에 움직였다는 점에서 의미가 있습니다.

특히 Artificial Analysis Intelligence Index에서 53점을 기록해 직전 Grok 4.20 0309 v2 대비 4점 상승했고, Muse Spark·Claude Sonnet 4.6와 비슷한 구간에 자리 잡았습니다. 동시에 입력 토큰 단가는 약 37.5%, 출력 토큰 단가는 약 58.3% 인하되어 지능당 비용 측면에서 Pareto 프론티어 위에 위치하게 되었습니다.

이 문서에서는 SNS상에 떠도는 요약을 그대로 옮기지 않고, xAI 공식 문서와 Artificial Analysis 공식 발표, GDPval-AA 리더보드 등 1차 자료를 교차 검증해 Grok 4.3의 실제 변화점을 정리합니다. API를 직접 도입하려는 개발팀과, 모델 선택 기준을 잡으려는 실무자 모두에게 도움이 되는 수준의 디테일을 다룹니다.

1. 가격 구조의 파격적 변화

Grok 4.3의 가장 눈에 띄는 변화는 토큰 단가 인하입니다. xAI는 신규 모델을 출시하면서 동시에 직전 세대 대비 두 자릿수 비율의 가격 인하를 단행했습니다.

1.1 토큰 단가 비교

항목	Grok 4.20 0309 v2	Grok 4.3	변화율
입력 토큰 (1M당)	약 $2.00	$1.25	-37.5%
출력 토큰 (1M당)	약 $6.00	$2.50	-58.3%
캐시된 입력 토큰 (1M당)	-	$0.20 수준	신규 인하

Artificial Analysis가 자체 Intelligence Index 평가 스위트를 한 번 돌리는 데 드는 비용도 약 $395로, 직전 버전 대비 약 20% 감소했습니다. 이는 Grok 4.3가 응답 시 사용하는 출력 토큰 수 자체는 약 44% 더 많아졌음에도 단가 인하 폭이 더 커서 총비용이 오히려 줄어든 결과입니다.

1.2 실무 도입 관점의 의미

동일한 트래픽을 가정하면 출력 비용은 절반 이하로 떨어진다.
캐시된 입력 토큰을 적극 활용할 경우 RAG·반복 질의 비용이 한층 낮아진다.
동급 지능을 제공하는 다른 프런티어 모델과 비교하면 가격·지능 균형 측면에서 가장 매력적인 선택지 중 하나가 된다.

핵심 포인트: Grok 4.3는 단가 인하와 성능 향상을 동시에 달성했습니다. 출력 토큰 단가가 절반 이하로 떨어진 것이 운영 비용에 가장 큰 영향을 줍니다. 단, 응답이 더 길어졌으므로 총 토큰 사용량 모니터링은 여전히 필수입니다.

2. 벤치마크로 확인한 성능 변화

Artificial Analysis가 공개한 벤치마크 결과를 살펴보면, Grok 4.3의 강점이 어디에 집중되어 있는지 명확하게 드러납니다.

2.1 GDPval-AA 에이전트 벤치마크

GDPval-AA는 실제 경제활동에 등장하는 작업을 모델에 시키고, 그 결과물을 블라인드 페어와이즈 비교로 ELO 점수화한 벤치마크입니다. Grok 4.3는 여기서 1500 ELO를 기록해 직전 버전 1179점에서 321점 상승했습니다.

모델	GDPval-AA ELO	비고
GPT-5.5 (xhigh)	1771	1위
GPT-5.5 (high)	1754	2위
Claude Opus 4.7 (Adaptive Reasoning, Max Effort)	1753	3위
Grok 4.3	1500	19위, +321
GLM-5.1 (Non-reasoning)	1497	20위
Kimi K2.6	1482	22위
Gemini 3.1 Pro Preview	1314	52위
Grok 4.20 0309 v2 (Reasoning)	1175	78위

주목할 점은 Grok 4.3가 Gemini 3.1 Pro Preview, GPT-5.4 mini(xhigh), Kimi K2.5, Muse Spark를 모두 추월했다는 사실입니다. 다만 1위 GPT-5.5(xhigh)와는 276 ELO 차이가 남아 있어 표준 ELO 공식상 예상 승률은 약 17% 수준에 머무릅니다.

2.2 그 외 핵심 벤치마크

τ²-Bench Telecom에서 5점 상승한 98%를 기록해 GLM-5.1과 동급의 지시 수행 능력을 보였다.
IFBench는 81%로 직전 버전과 동일하게 유지됐다.
AA-Omniscience Accuracy는 8점 상승했지만, 같은 평가의 Non-Hallucination Rate는 8점 하락해 환각 억제 측면에서는 Grok 4.20 0309 v2가 여전히 우위를 점한다.
Artificial Analysis Intelligence Index는 종합 점수 기준 53점으로, 직전 버전보다 4점 향상됐다.

환각 억제 항목의 후퇴는 실제 운영 환경에서 신중히 봐야 할 부분입니다. 사실 정확도는 올랐지만, 그 대가로 자신 있게 틀리는 빈도가 늘어났을 가능성이 있다는 뜻이기 때문입니다.

3. 경쟁 모델과의 위치 비교

Grok 4.3가 시장에서 차지하는 위치는, 단순히 "전 버전보다 좋다"가 아니라 "GPT-5.5·Claude Opus 4.7과 같은 최상위 티어를 따라잡는 두 번째 그룹"으로 정리됩니다.

3.1 주요 프런티어 모델과의 GDPval-AA 비교

모델	출시 시점	GDPval-AA ELO	입력가 ($/1M)	출력가 ($/1M)
GPT-5.5 (xhigh)	2026년 4월	1771	상위가	상위가
Claude Opus 4.7 (Max Effort)	2026년 4월	1753	상위가	상위가
Grok 4.3	2026년 4월	1500	$1.25	$2.50
Gemini 3.1 Pro Preview	2026년 2월	1314	중간	중간
Grok 4.20 0309 v2	2026년 4월	1175	$2.00	$6.00

3.2 선택 기준

최고 성능이 절대적으로 필요한 경우라면 GPT-5.5(xhigh)나 Claude Opus 4.7이 우선 후보가 된다.
비용 효율과 성능의 균형을 원한다면 Grok 4.3가 매우 강한 선택지로 떠오른다.
환각률을 가장 보수적으로 관리해야 하는 워크로드(법률·의료 보조, 사실 인용 위주)에서는 오히려 Grok 4.20 0309 v2가 여전히 유리하다.
컨텍스트 길이와 도구 호출이 핵심이라면, Grok 시리즈는 함수 호출과 구조화 출력, 추론 모드 토글을 표준 지원하므로 에이전트 파이프라인에 자연스럽게 들어맞는다.

4. 코딩과 디자인 구현 능력

Grok 4.3는 사용자 사이에서 단일 프롬프트로 완성도 높은 프런트엔드 결과물을 만들어내는 사례가 다수 공유되고 있습니다. 일부 사용자가 단순한 자연어 지시만으로 다크 모드와 부드러운 인터랙션, 캐릭터 카드, 시뮬레이터 컴포넌트를 포함한 SPA 형태의 결과물을 얻었다는 보고가 있습니다.

이는 GDPval-AA 점수 상승과 결이 같은 변화입니다. 해당 벤치마크는 실제 경제활동에 가까운 멀티스텝 작업을 평가하는데, 코딩·디자인 구현은 여기에 직접적으로 포함되는 영역이기 때문입니다. 다만 벤치마크 점수와 개별 사용 후기는 분리해서 봐야 하며, 동일 프롬프트로 GPT-5.5나 Claude Opus 4.7을 돌리면 더 높은 품질이 나오는 경우도 흔합니다.

실무 도입 시 점검할 항목은 다음과 같습니다.

단일 프롬프트가 아니라 반복 수정·디버깅이 포함된 시나리오에서 어떤 모델이 더 빠르게 안정화되는지 비교한다.
함수 호출, 구조화 출력, JSON 스키마 강제 등 도구 친화적 기능이 자기 파이프라인에서 잘 동작하는지 본다.
환각률 변화로 인해 테스트 코드·검증 단계를 자동화 워크플로에 더 강하게 끼워 넣을지 결정한다.

5. 컨텍스트 윈도우와 도구 비용

xAI 공식 문서에 따르면 Grok 4.3는 xAI가 "가장 지능적이고 빠른 모델"이라고 부르는 플래그십이며, 일반 텍스트 워크로드에서는 grok-4.3 모델 식별자를 그대로 쓸 것을 권장합니다.

5.1 서버사이드 도구 가격 (xAI 공식 기준)

도구	호출 1,000건당 비용	용도
웹 검색 (`web_search`)	$5	인터넷 검색·웹페이지 탐색
X 검색 (`x_search`)	$5	X 게시물·프로필·스레드 검색
코드 실행 (`code_execution`)	$5	샌드박스 파이썬 실행
파일 첨부 검색 (`attachment_search`)	$10	메시지 첨부 파일 검색
컬렉션 검색 (`collections_search`)	$2.50	업로드 문서 RAG

이 비용은 토큰 사용료와 별도로 부과됩니다. 즉 에이전트가 도구를 자율적으로 많이 호출하는 워크로드일수록 토큰가 인하 효과가 일부 상쇄될 수 있습니다. Batch API를 이용하면 표준 토큰가 대비 20%~50% 할인이 적용되며, 이 할인은 입력·출력·캐시·추론 토큰 모두에 동일하게 들어갑니다.

또한 Grok 시리즈는 위반 처리 정책에 따라 Responses API에서 사전 차단된 요청에 대해 건당 $0.05의 사용 가이드라인 위반 수수료가 부과될 수 있다는 점도 운영 단계에서 점검해야 합니다.

6. 도입 전 체크리스트

Grok 4.3로 옮길지 결정하려면 다음 항목을 차례로 확인하는 것이 안전합니다.

우리 서비스의 출력 비중이 입력보다 큰가? 그렇다면 가격 인하 효과가 평균 이상으로 크게 체감된다.
환각률에 민감한 도메인인가? 사실성·인용 정확도가 핵심이라면 4.20 라인을 일정 기간 병행 운영하는 것이 안전하다.
에이전트형 워크로드 비중이 높은가? GDPval-AA 점수 향상은 멀티스텝 작업과 연관도가 높으므로, 실제 자체 평가셋에서 A/B 테스트를 거쳐야 한다.
OpenRouter, AWS Bedrock 등 외부 라우팅 환경을 함께 쓰는가? 모델 별칭과 버전 고정 정책을 이번 기회에 점검해 두면 좋다.
요청량 한도와 도구 호출 비용까지 합한 총 운영비를 시뮬레이션했는가? 토큰가만 보고 도입했다가 도구 비용에서 예상치를 초과하는 사례가 자주 보고된다.

7. 마무리

위에서 살펴본 Grok 4.3의 핵심 내용을 정리하면 다음과 같습니다.

핵심 요약:

Grok 4.3는 2026년 4월 출시되어 Artificial Analysis Intelligence Index 53점을 기록했다.
입력 토큰 단가가 약 37.5%, 출력 토큰 단가가 약 58.3% 인하되어 가격 경쟁력이 크게 강화됐다.
GDPval-AA 에이전트 벤치마크에서 1500 ELO를 기록해 전 버전 대비 321점 상승했다.
τ²-Bench Telecom 98%, IFBench 81%로 지시 수행과 에이전트 작업에서 상위권에 위치한다.
다만 AA-Omniscience Non-Hallucination Rate는 8점 하락해 환각 억제 측면에서는 Grok 4.20 0309 v2가 여전히 우위다.
GPT-5.5(xhigh)와는 276 ELO 차이로 예상 승률 약 17% 수준이며, 가격·지능 균형에서 가장 강한 차상위 후보다.

실제 도입을 결정한다면, 비용에 민감한 대량 트래픽 워크로드와 에이전트형 코딩·문서 생성 파이프라인부터 우선 옮기고, 사실 인용·법률·의료 같은 환각 민감 영역은 자체 평가셋으로 충분히 비교한 뒤 단계적으로 전환하는 것이 가장 안전합니다.

Grok 4.3 | xAI 신규 API 가격·성능·벤치마크 핵심 정리

자주 묻는 질문

Grok 4.3와 Grok 4.20의 가장 큰 차이는 무엇인가요?

Grok 4.3는 GPT-5.5나 Claude Opus 4.7보다 성능이 좋은가요?

Grok 4.3의 정확한 토큰 가격은 얼마인가요?

환각률이 더 높아졌다는 건 실제 운영에 어떤 영향을 주나요?

기존 Grok 4.20을 쓰던 시스템에서 Grok 4.3로 전환할 때 주의할 점은요?

Grok 4.3는 어떤 워크로드에 가장 적합한가요?

목차

1. 가격 구조의 파격적 변화

1.1 토큰 단가 비교

1.2 실무 도입 관점의 의미

2. 벤치마크로 확인한 성능 변화

2.1 GDPval-AA 에이전트 벤치마크

2.2 그 외 핵심 벤치마크

3. 경쟁 모델과의 위치 비교

3.1 주요 프런티어 모델과의 GDPval-AA 비교

3.2 선택 기준

4. 코딩과 디자인 구현 능력

5. 컨텍스트 윈도우와 도구 비용

5.1 서버사이드 도구 가격 (xAI 공식 기준)

6. 도입 전 체크리스트

7. 마무리

같은 카테고리 문서

관련 문서

Proton Pass 2026 로드맵 | 폴더 공유·SSH Agent·iFrame 자동입력 등 신규 기능 총정리

카나나 인 카카오톡 | 온디바이스 AI 선톡 비서의 주요 기능과 사용법

어반어스 UB-PA10ST23W | PD 22.5W 3포트 보조배터리 + 빌트인 C to C 케이블 세트 상세 분석

앱인토스(Apps in Toss) | 개발·등록·수익·운영 구조 총정리

DJI Lito X1 | O5 전송 시스템·50분 비행시간·핵심 기술 완전 분석