OpenAI Codex는 단순한 코드 자동완성 도구가 아니라, 코드베이스를 읽고 수정하고 테스트를 실행하며 작업 단위를 병렬로 처리하는 소프트웨어 엔지니어링 에이전트로 이해하는 편이 더 정확하다. OpenAI가 2025년 5월 Codex를 연구 프리뷰로 공개했을 때부터 핵심 메시지는 코드 생성 자체보다 실제 개발 작업을 끝까지 밀어 주는 능력에 있었다. 이후 2026년 2월 Codex 앱 출시, GPT-5.3-Codex(2026년 2월 5일), GPT-5.4(2026년 3월 5일) 공개까지 이어지면서 이 방향은 더 분명해졌다.
공식 소개 페이지에서 OpenAI는 Codex를 ChatGPT로 구동되는 AI coding partner라고 설명한다. routine PR부터 복잡한 리팩터링과 마이그레이션, 병렬 작업, 배경 자동화, 팀 표준 반영까지 모두 포함하는 형태다. 즉, Codex는 IDE 안에서 한 줄씩 보조하는 수준을 넘어 에이전트형 개발 워크플로의 중심 도구로 자리 잡으려는 제품이다.
이 주제를 이해할 때 중요한 점은 Codex를 두 층으로 봐야 한다는 것이다. 첫째는 사용자가 ChatGPT 안이나 Codex 앱에서 접하는 제품 경험이고, 둘째는 그 뒤에서 작동하는 모델과 인증, 실행 방식이다. 제품 표면에서는 작업 지시, 코드 수정, 테스트 로그, 병렬 태스크, 커밋과 PR 생성이 보이지만, 실제로는 코딩 특화 모델, 격리된 실행 환경, 장문 컨텍스트, 도구 사용, 사용자 계정 인증 체계가 결합돼 있다.
또 하나 주목할 지점은 OpenAI Codex를 Hermes 같은 범용 에이전트 프레임워크와 연결해서 사용할 수 있느냐는 문제다. Nous Research가 만든 Hermes Agent의 공개 문서와 코드를 보면, OpenAI Codex는 단순 API 키 기반 공급자가 아니라 외부 OAuth 인증을 통해 연결되는 provider로 등록돼 있다. 게다가 OpenClaw 사용자는 hermes claw migrate를 통해 Hermes로 마이그레이션할 수 있고, 마이그레이션 과정에서 모델·자격 증명·인증 관련 설정을 함께 옮길 수 있다.
1. OpenAI Codex의 정체와 핵심 기능
OpenAI가 2025년 5월 16일 Codex 연구 프리뷰 출시 글에서 밝힌 내용과 이후 공식 소개 페이지를 종합하면 Codex는 클라우드 기반 소프트웨어 엔지니어링 에이전트다. 초기 안내에서는 각 작업이 독립된 클라우드 샌드박스 환경에서 실행되고, 저장소가 미리 로드된 상태로 기능 추가, 버그 수정, 코드베이스 질의응답, PR 제안 등을 수행한다고 설명했다.
1.1 에이전트로서의 Codex가 기존 코드 보조와 다른 점
- Codex는 단순 코드 생성기가 아니라 작업 단위 전체를 맡는 에이전트다. 파일 수정뿐 아니라 테스트 실행, 린터 검사, 로그 확인, 반복 수정, 커밋 단위 결과 정리까지 한 묶음으로 처리한다.
- 각 작업은 독립된 클라우드 샌드박스에서 돌아간다. 초기 연구 프리뷰에서는 작업 실행 중 인터넷 접근이 차단됐고, GitHub 저장소와 사전 설치된 의존성만 사용하도록 격리됐다.
- 작업 완료 후 Codex는 터미널 로그, 테스트 결과에 대한 인용(citation)을 제공해 사용자가 각 단계를 추적하고 검증할 수 있도록 한다. 불확실하거나 테스트 실패 시에는 명시적으로 문제를 알려 사용자가 판단하도록 돕는다.
- 결과물은 패치, 테스트 로그, 커밋 형태로 정리돼 사람이 검토하고 머지하기 쉬운 구조다. GitHub PR로 직접 올리거나 로컬 환경에 바로 통합할 수 있다.
1.2 초기 연구 프리뷰의 주요 설계 원칙
- 보안과 투명성 우선: 격리된 컨테이너에서 실행되며 외부 웹사이트, API, 서비스에 접근할 수 없다. 사용자는 인용과 로그를 통해 에이전트 행동을 감사할 수 있다.
- 사람 스타일에 가까운 코드 출력: codex-1은 실제 코딩 작업에 대한 강화학습으로 훈련돼 사람이 작성한 것 같은 깔끔한 패치를 만들어 낸다. OpenAI는 o3 대비 codex-1이 즉시 리뷰 가능한 수준의 패치를 더 일관되게 생성한다고 밝혔다.
- 악용 방지와 정당한 사용 구분: 악성 소프트웨어 개발 요청은 정밀하게 거부하면서도, 커널 엔지니어링 같은 정당한 저수준 작업은 지원하도록 균형을 잡았다.
- 사용자 검증 필수: 연구 프리뷰 단계에서 OpenAI는 에이전트가 생성한 모든 코드를 통합 전 수동 검토하라고 반복해서 권고했다.
1.3 Codex의 사용 표면과 접근 방식
- Codex 앱(macOS 데스크톱, 2026년 2월 출시): 병렬 에이전트 관리, worktree, automations, skills, 내장 터미널, 인앱 브라우저, diff 패널, PR 생성을 한곳에서 다루는 command center.
- ChatGPT 사이드바: ChatGPT 안에서 Codex 작업을 시작하고 모니터링할 수 있다. 초기에는 Pro, Business, Enterprise 사용자에게 먼저 제공됐고, 이후 Plus, Edu까지 확장됐다.
- Codex CLI: 터미널에서 직접 실행하는 경량 오픈소스 코딩 에이전트. o3, o4-mini 같은 모델을 로컬 워크플로에 끌어와 빠르게 페어링할 수 있다.
- Codex IDE 확장: 에디터 안에서 Codex 스레드를 직접 사용하며, Codex 앱과 자동으로 동기화된다.
- 모든 표면은 동일한 ChatGPT 계정으로 연결되므로 앱에서 시작한 작업을 에디터에서 이어가거나 터미널에서 확인하는 흐름이 자연스럽다.
| 항목 | OpenAI 공개 설명 | 실무적 의미 |
|---|---|---|
| 제품 성격 | AI coding partner, software engineering agent | 코드 작성보다 작업 완료 중심 |
| 실행 방식 | 클라우드 샌드박스, 병렬 태스크 | 여러 작업을 동시에 돌리기 쉬움 |
| 입력 자산 | 저장소, AGENTS.md, Skills | 코드베이스 규칙 반영 가능 |
| 산출물 | 패치, 테스트 로그, 커밋, PR 제안 | 사람이 검토·머지하기 쉬운 형태 |
| 사용 표면 | Codex 앱, ChatGPT, CLI, IDE 확장 | 한 계정으로 작업 흐름 연결 |
| 외부 테스터 | Cisco, Temporal, Superhuman, Kodiak | 실제 대규모 코드베이스에서 검증 |
핵심 포인트: OpenAI Codex의 본질은 코드 생성보다 개발 작업 흐름 자동화에 있다. 저장소를 이해하고, 필요한 명령을 실행하고, 결과를 검증한 뒤, 다시 수정하는 루프를 독립 작업 단위로 맡는다는 점이 핵심 차별점이다. 사용자는 터미널 로그와 인용을 통해 각 단계를 추적할 수 있고, 결과물은 PR 형태로 검토에 바로 투입할 수 있다.
2. 성능과 모델 진화: codex-1에서 GPT-5.3-Codex, GPT-5.4까지
OpenAI가 2025년 5월 Codex를 연구 프리뷰로 소개할 당시에는 codex-1을 OpenAI o3 기반의 소프트웨어 엔지니어링 최적화 버전으로 설명했다. codex-1은 실제 코딩 작업에 대한 강화학습으로 훈련돼 사람 스타일에 가까운 코드와 PR을 만들어 내고, 테스트가 통과할 때까지 반복 실행하도록 설계됐다.
2.1 codex-1: Codex 제품의 출발점
- codex-1은 o3를 기반으로 소프트웨어 엔지니어링 작업에 특화된 강화학습을 거친 모델이다. 다양한 환경에서 실제 코딩 작업을 수행하면서 사람의 코딩 스타일과 PR 선호도에 가깝게 맞추는 훈련을 받았다.
- 공개 당시 벤치마크에서 codex-1은 SWE-Bench Verified에서 약 80~85% 수준을 기록했고, OpenAI 내부 SWE 태스크 벤치마크에서는 o3 high(70%)보다 높은 75%를 달성했다고 보고됐다.
- codex-1은 최대 192k 토큰 컨텍스트, medium 추론 수준으로 제품에 투입됐다. AGENTS.md 파일이나 별도 설정 없이도 강한 성능을 보였지만, 프로젝트 맥락을 제공하면 더 좋은 결과를 냈다.
- 동시에 Codex CLI용으로 codex-mini(o4-mini 기반)도 공개됐다. 입력 $1.50/M, 출력 $6/M으로 가격이 책정돼 저지연 코드 Q&A와 편집에 최적화됐다.
2.2 GPT-5.3-Codex: 범용 에이전트로의 확장
- 2026년 2월 5일 공개된 GPT-5.3-Codex는 코딩, 장기 실행, 도구 사용, 실제 업무형 작업을 더 강하게 통합한 모델이다. OpenAI는 이 모델이 자기 자신의 훈련 디버깅, 배포 관리, 테스트 결과 진단에 활용됐다고 밝히며 자기 자신을 만드는 데 기여한 최초의 모델이라고 강조했다.
- GPT-5.3-Codex는 GPT-5.2-Codex의 코딩 프론티어 성능과 GPT-5.2의 추론·전문 지식 역량을 하나로 합치면서도 25% 더 빠르다. 장기 작업에서 연구, 도구 사용, 복잡한 실행을 수행하며, 작업 도중 사용자가 방향을 바꾸거나 질문해도 컨텍스트를 잃지 않는다.
- 벤치마크 성능은 SWE-Bench Pro 56.8%, Terminal-Bench 2.0 77.3%, OSWorld-Verified 74.0%(보정 후), GDPval 70.9%, 사이버보안 CTF 77.6%, SWE-Lancer IC Diamond 81.4%로, 전 세대 대비 여러 영역에서 큰 폭의 개선을 보였다.
- 프론트엔드 제작 품질도 향상됐다. 간단하거나 불명확한 프롬프트에도 GPT-5.3-Codex는 더 많은 기능과 합리적인 기본값을 갖춘 결과물을 만들어 냈다. OpenAI가 예시로 든 랜딩 페이지 비교에서 GPT-5.3-Codex는 연간 요금을 할인된 월 가격으로 자동 표시하고, 자동 전환 후기 캐러셀을 포함하는 등 더 완성도 높은 기본 출력을 보였다.
- GPT-5.3-Codex는 OpenAI가 사이버보안 태스크에서 High capability로 분류한 최초의 모델이다. 소프트웨어 취약점을 직접 식별하도록 훈련됐으며, 그에 따라 가장 포괄적인 사이버보안 안전 체계가 함께 배치됐다.
2.3 GPT-5.4: 메인라인 모델과 코딩 역량의 통합
- 2026년 3월 5일 공개된 GPT-5.4는 GPT-5.3-Codex의 코딩 역량을 메인라인 추론 모델에 흡수했다고 명시됐다. ChatGPT, API, Codex 전체에 걸쳐 롤아웃되는 최초의 메인라인 추론 모델로 설명됐다.
- SWE-Bench Pro 57.7%, OSWorld-Verified 75.0%(인간 기준 72.4% 초과), GDPval 83.0%, BrowseComp 82.7%를 달성했다. 특히 GDPval은 44개 직종의 실무 작업을 측정하는 벤치마크로, GPT-5.2의 70.9%에서 12%p 이상 점프했다.
- 1M 토큰 컨텍스트 지원이 실험적으로 추가됐다. Codex에서
model_context_window와model_auto_compact_token_limit을 설정해 활성화할 수 있으며, 기본 272K을 넘는 요청은 사용량이 2배로 계산된다. - 네이티브 컴퓨터 사용 능력이 탑재됐다. Playwright 같은 라이브러리로 코드를 작성해 컴퓨터를 조작하거나, 스크린샷에 반응해 마우스와 키보드 명령을 내리는 두 가지 방식 모두 지원한다.
- Tool search: 기존에는 모든 도구 정의가 프롬프트에 포함돼 수천~수만 토큰을 소비했지만, GPT-5.4는 가벼운 도구 목록만 받고 필요할 때 정의를 검색한다. MCP Atlas 벤치마크에서 36개 MCP 서버를 모두 활성화했을 때 토큰 사용량을 47% 줄이면서 동일한 정확도를 유지했다.
- API 가격은 입력 $2.50/M, 캐시 입력 $0.25/M, 출력 $15/M이다. GPT-5.2보다 토큰 단가는 높지만 토큰 효율성이 향상돼 많은 작업에서 총 비용이 줄어드는 구조다.
| 세대 | 공개일 | 핵심 성능 지표 | 핵심 변화 |
|---|---|---|---|
| codex-1 | 2025.05 | SWE-Bench Verified ~80-85% | o3 기반 SWE 에이전트, 초기 제품 핵심 |
| GPT-5.3-Codex | 2026.02.05 | SWE-Bench Pro 56.8%, Terminal-Bench 77.3%, OSWorld 74.0% | 25% 속도 향상, 자기 훈련 참여, 컴퓨터 사용 |
| GPT-5.4 | 2026.03.05 | SWE-Bench Pro 57.7%, OSWorld 75.0%, GDPval 83.0% | 메인라인 통합, 1M 컨텍스트, tool search |
핵심 포인트: codex-1에서 GPT-5.3-Codex, GPT-5.4로 이어지는 흐름은 코딩 전용 모델과 범용 추론 모델의 분리를 줄이고, 코딩·도구 사용·컴퓨터 조작·전문 업무를 하나의 모델군 안에서 처리하도록 가는 방향이다. GPT-5.4는 GPT-5.3-Codex의 코딩 역량을 흡수하면서 1M 컨텍스트, 네이티브 컴퓨터 사용, tool search를 더해 에이전트 워크플로의 범위를 크게 넓혔다.
3. Codex 앱: 멀티 에이전트 워크플로와 팀 개발 가속
2026년 2월 2일 OpenAI는 macOS용 Codex 데스크톱 앱을 출시하면서 Codex를 command center for agentic coding으로 포지셔닝했다. Harvey에서는 Codex 도입 후 초기 반복 작업 시간을 30~50% 단축했다고 밝혔고, Sierra에서는 이전에 분기 단위로 걸리던 작업을 주말에 완료할 수 있게 됐다고 말했다.
3.1 Worktree와 병렬 작업 구조
- Codex 앱에서 새 스레드를 시작할 때 Local, Worktree, Cloud 세 가지 모드를 선택할 수 있다. Local은 현재 프로젝트 디렉터리에서 직접 작업하고, Worktree는 Git worktree를 생성해 변경 사항을 격리하며, Cloud는 원격 환경에서 실행한다.
- Worktree 모드를 쓰면 여러 에이전트가 같은 저장소에서 독립적으로 작업할 수 있어 브랜치 충돌이 줄어든다. 각 에이전트의 diff, 커밋, PR이 별도 worktree에서 관리되므로 진행 중인 로컬 작업에 영향을 주지 않는다.
- 하나의 Codex 앱 창에서 여러 프로젝트를 동시에 운용할 수 있다. 프로젝트별로 코드베이스를 추가하고 필요할 때 전환하는 구조다.
- diff 패널에서 변경 사항을 확인하고, 인라인 코멘트로 Codex에게 수정 지시를 내리고, 특정 청크나 파일 단위로 스테이징하거나 되돌릴 수 있다. 커밋, 푸시, PR 생성도 앱 안에서 바로 가능하다.
3.2 Skills 시스템: 팀 표준을 에이전트에 심기
- Skills는 SKILL.md 파일과 선택적 스크립트, 참조 문서, 에셋으로 구성된 재사용 가능한 워크플로 패키지다.
name과description이 필수 메타데이터이며, 에이전트가 언제 해당 스킬을 쓸지 결정하는 기준이 된다. - Progressive disclosure 방식으로 컨텍스트를 관리한다. Codex는 처음에 각 스킬의 이름과 설명만 읽고, 실제로 사용하기로 결정한 스킬의 전체
SKILL.md만 로드한다. 수십 개 스킬을 등록해도 매 작업의 컨텍스트 부담이 늘지 않는다. - 스킬은 명시적 호출(
$skill-name으로 프롬프트에 직접 언급)과 암시적 호출(작업 내용이 스킬 description과 매칭될 때 자동 선택) 두 방식을 지원한다.agents/openai.yaml에서allow_implicit_invocation: false로 설정하면 암시적 호출을 막을 수 있다. - 스킬 저장 위치는 REPO(프로젝트 내
.agents/skills/, 상위 디렉터리, 저장소 루트), USER($HOME/.agents/skills/), ADMIN(/etc/codex/skills), SYSTEM(OpenAI 내장) 네 수준으로 나뉜다. 팀 전체 규칙은 저장소 루트에, 개인 선호는 홈 디렉터리에 두면 된다. - 내장
$skill-creator로 대화형으로 스킬을 만들 수 있고,$skill-installer로 외부 스킬을 설치할 수 있다. 더 넓은 배포가 필요하면 plugin 형태로 패키징해 여러 스킬과 MCP 서버 설정을 묶어 배포한다.
3.3 Automations: 항상 켜진 배경 작업
- Automations는 프롬프트를 작성하고 실행 주기를 지정하면 Codex가 해당 작업을 자동으로 반복 실행하는 기능이다. 매 아침, 3시간마다, 커스텀 cron 문법 등 자유롭게 스케줄을 설정할 수 있다.
- Standalone automation은 매 실행이 독립적이고, 결과가 Triage 인박스에 쌓인다. 발견 사항이 있으면 표시되고, 없으면 자동 보관된다. 하나의 automation을 여러 프로젝트에 걸쳐 실행할 수도 있다.
- Thread automation은 기존 대화 스레드에 붙는 반복 깨우기(heartbeat) 방식이다. 장기 실행 명령 완료 대기, Slack/GitHub 폴링, PR 리뷰 루프 유지 같은 컨텍스트가 유지돼야 하는 반복 작업에 적합하다. 분 단위부터 일/주 단위까지 설정 가능하다.
- Git 저장소에서 automation은 전용 배경 worktree에서 실행되므로 진행 중인 로컬 작업과 분리된다. 버전 관리가 없는 프로젝트에서는 프로젝트 디렉터리에서 직접 실행된다.
- 실제 활용 사례: 최근 24시간 커밋에 대한 일일 브리핑 자동 생성, 세션 로그를 스캔해 스킬 자동 개선, 자기 커밋에서 발생한 버그 자동 탐색 및 수정(스킬과 결합), PR 상태를 주기적으로 확인해 리뷰 피드백 자동 반영 등이 공식 문서에 예시로 나와 있다.
3.4 AGENTS.md와 프로젝트 맥락 관리
- AGENTS.md는 저장소에 배치하는 텍스트 파일로, Codex에게 코드베이스 탐색 방식, 테스트 명령, 프로젝트 관행을 알려 준다. README.md와 비슷하지만 에이전트가 읽는 것이 주 목적이다.
- Codex는 작업을 시작하기 전에 AGENTS.md를 먼저 읽는다. 글로벌 안내와 프로젝트별 오버라이드를 계층화할 수 있어, 모든 작업에 적용되는 기본 규칙 위에 특정 프로젝트만의 규칙을 덮어쓸 수 있다.
- 사용자 수준 AGENTS.md(
~/.codex/AGENTS.md)를 만들면 어디서 Codex를 실행하든 재사용 가능한 선호도가 적용된다. - OpenAI의 모범 사례 문서는 어려운 작업에는 먼저 계획을 세우게 하고, 안내를 AGENTS.md로 재사용 가능하게 만들고, 일관성을 위해 Codex 환경을 구성하라고 권고한다.
| 기능 | 설명 | 개발팀 효과 |
|---|---|---|
| Worktrees | 에이전트별 독립 브랜치에서 병렬 작업 | 동시 진행 용이, 충돌 감소 |
| Skills | progressive disclosure, 4단계 저장 위치 | 컨텍스트 효율적 관리, 팀 표준 일관성 |
| Automations | 스케줄 기반 반복 실행, triage 인박스 | 반복 업무 절감, 사람 개입 최소화 |
| AGENTS.md | 작업 전 자동 로드, 계층형 구성 | 에이전트 품질 안정화 |
| 인앱 브라우저 | 로컬 개발 서버 미리보기, 코멘트 | 프론트엔드 반복 작업 가속 |
| Computer use | macOS 앱 조작(보기, 클릭, 타이핑) | 데스크톱 앱 테스트, GUI 버그 재현 |
핵심 포인트: Codex 앱은 단일 요청 응답 인터페이스가 아니라 팀 차원의 작업 배분기 역할을 지향한다. Worktree로 에이전트를 격리하고, Skills로 팀 표준을 심고, Automations로 반복 업무를 배경에 넘기고, AGENTS.md로 프로젝트 맥락을 구조화하면 에이전트가 사람의 개발 환경과 거의 비슷한 조건에서 병렬로 일하게 된다.
4. Hermes에서 OpenAI Codex를 OAuth 인증으로 쓰는 방법
실무적으로 가장 주목할 부분이 Hermes Agent가 OpenAI Codex를 OAuth 방식 provider로 직접 지원한다는 점이다. Nous Research가 만든 Hermes Agent의 공식 문서(hermes-agent.nousresearch.com)에 따르면, hermes model 명령에서 OpenAI Codex가 ChatGPT OAuth를 통해 인증하는 공급자로 명확히 등록돼 있다.
4.1 OAuth device code flow 인증 구조
- Hermes의 providers 문서는 OpenAI Codex를 ChatGPT OAuth, uses Codex models로 정의한다. 즉, 일반
OPENAI_API_KEY를.env에 넣는 방식이 아니라 외부 OAuth 인증 플로우를 거친다. - 인증 방식은 device code flow다. 사용자가 URL을 열고 코드를 입력하면 Hermes가 자격 증명을
~/.hermes/auth.json에 저장한다. 브라우저에서 로그인하고 코드를 확인하는 것만으로 설정이 끝난다. - 기존에 Codex CLI를 사용해
~/.codex/auth.json에 자격 증명이 남아 있다면 Hermes가 이를 자동으로 감지하고 가져온다. Codex CLI를 별도로 설치할 필요가 없다. hermes model명령에서 OpenAI Codex를 선택하면 위 과정이 대화형으로 안내된다. 한번 인증하면config.yaml에 provider와 model이 저장돼 세션을 재시작해도 유지된다.
4.2 Hermes 내부에서 Codex 요청이 처리되는 흐름
- Hermes 내부 클라이언트는
openai-codexprovider로 요청이 들어오면 저장된 Codex OAuth 토큰을 읽어 Codex 모델에 연결한다. Responses API 경로를 사용하며, GPT-5.x 계열 모델(GPT-5.3-Codex, GPT-5.4 등)이 자동으로 Responses API로 라우팅된다. - Codex 사용 시에도 비전, 웹 요약, MoA(Mixture of Agents) 같은 일부 보조 도구는 별도 auxiliary 모델을 사용한다. 기본값은 OpenRouter의 Gemini Flash이므로
OPENROUTER_API_KEY가 있으면 이 기능이 자동 활성화된다. - GitHub Issues(#1167)에서 확인되듯 Hermes의 Codex 트래픽은 ChatGPT Codex 사용량 대시보드에서 Other 카테고리로 표시된다. CLI, Extension, GitHub Code Review와 별도로 분류되는 점은 알아 둘 필요가 있다.
- Hermes는 credential pool 기능을 지원해 같은 provider에 대해 여러 API 키나 OAuth 토큰을 등록하고, 하나가 rate limit에 걸리면 자동으로 다음 건강한 키로 전환할 수 있다. Codex OAuth 토큰도 이 풀에 포함될 수 있다.
4.3 실사용 시 유의할 점
- Reddit(r/hermesagent)과 GitHub Issues에서 Hermes 0.7 업그레이드 후 Codex OAuth가 깨지는 문제가 리포트됐다. 버전 업데이트 시에는 항상
hermes status로 인증 상태를 확인하는 것이 안전하다. - Codex OAuth를 통한 사용 범위는 OpenAI 계정 상태, 플랜(Pro, Plus 등), Codex 접근 권한에 따라 달라진다. 유료 ChatGPT 플랜이 아닌 경우 Codex 모델 접근이 제한될 수 있다.
/model명령(세션 내 모델 전환)과hermes model명령(터미널에서 전체 provider 설정)의 차이를 이해해야 한다. 새 provider를 추가하려면 반드시 세션을 종료하고hermes model을 실행해야 한다.
| Hermes 측 근거 | 확인 내용 | 의미 |
|---|---|---|
| providers 문서 테이블 | OpenAI Codex = ChatGPT OAuth, Codex models | 키 입력 없이 계정 인증 가능 |
| Codex Note 섹션 | device code flow, ~/.hermes/auth.json 저장 |
Codex CLI 설치 불필요, 기존 자격 증명 재사용 |
| credential pools 문서 | 같은 provider 복수 토큰 등록, 자동 전환 | rate limit 대응 가능 |
| GitHub Issues #1167 | Hermes Codex 트래픽 = Other 카테고리 | 사용량 추적 시 참고 |
| Reddit 0.7 이슈 | 업그레이드 후 OAuth 깨짐 보고 | 버전 호환성 점검 필요 |
핵심 포인트: Hermes에서 OpenAI Codex는 ChatGPT OAuth 기반 외부 인증형 provider다. device code flow로 로그인하면 Codex 모델을 Hermes 환경 안에서 사용할 수 있고, credential pool로 여러 토큰을 관리해 rate limit에도 대응할 수 있다. 다만 버전 업데이트 시 호환성 점검은 필수다.
5. OpenClaw 사용자가 Hermes로 넘어올 때 같이 봐야 할 점
Hermes는 hermes claw migrate를 통해 OpenClaw 설정, 메모리, 스킬, 모델 설정, 자격 증명, auth profile, 메시징 플랫폼 토큰을 가져올 수 있다. 마이그레이션 문서는 매우 상세하게 구성돼 있으며, 레거시 Clawdbot이나 Moldbot 디렉터리도 자동 감지한다.
5.1 마이그레이션 대상과 범위
- 페르소나와 메모리:
workspace/SOUL.md는~/.hermes/SOUL.md로 직접 복사되고,MEMORY.md와USER.md는 엔트리 단위로 파싱돼 기존 Hermes 메모리와 병합·중복 제거된다. 일별 메모리 파일(workspace/memory/*.md)도 메인 메모리에 합쳐진다. - 스킬: OpenClaw 스킬은 workspace skills, managed/shared skills, personal cross-project skills, project-level shared skills 네 소스에서 수집돼
~/.hermes/skills/openclaw-imports/에 저장된다. 충돌 처리는--skill-conflict옵션으로 skip, overwrite, rename 중 선택한다. - 모델과 provider 설정:
agents.defaults.model이config.yaml의 model로 매핑되고,models.providers.*의 baseUrl과 apiType이 custom_providers로 변환된다. 짧은 형식(openai, anthropic)과 하이픈 형식(openai-completions, anthropic-messages) 모두 처리된다. - API 키:
--migrate-secrets활성화 시 config 값,~/.openclaw/.env, config env 하위 객체,auth-profiles.json네 소스에서 우선순위에 따라 수집된다. 대상은OPENROUTER_API_KEY,OPENAI_API_KEY,ANTHROPIC_API_KEY,DEEPSEEK_API_KEY,GEMINI_API_KEY등 명시된 허용 목록 내 키만 복사된다. - 메시징 플랫폼: Telegram, Discord, Slack, WhatsApp, Signal, Matrix, Mattermost 토큰과 allowFrom 목록이 각 플랫폼별 Hermes 환경변수로 매핑된다. WhatsApp은 Baileys QR 페어링을 사용하므로 마이그레이션 후 재페어링이 필요하다.
5.2 에이전트 행동과 세션 정책 매핑
- 최대 턴 수: OpenClaw의
timeoutSeconds를 10으로 나눠agent.max_turns에 매핑하고, 200을 상한으로 둔다. - 추론 수준: OpenClaw의 always/high/xhigh는 Hermes의 high로, auto/medium/adaptive는 medium으로, off/low/none/minimal은 low로 변환된다.
- 압축: OpenClaw의 compaction mode가 off면 Hermes에서 비활성화, 그 외에는 활성화된다. 압축 모델도 함께 이전된다.
- 세션 리셋: daily/idle 모드와 시간/분 설정이 그대로 매핑된다. 구조화된 설정이 없으면
resetTriggers배열에서 추론한다. - MCP 서버: command, args, env, cwd(stdio), url(HTTP/SSE), tools include/exclude가 1:1로 대응된다.
5.3 마이그레이션 후 점검 절차
- 이전 보고서 확인: 완료 시 migrated, skipped, conflicting 항목 수가 출력된다.
- 아카이브 검토: Hermes에 직접 대응하는 항목이 없는 설정(IDENTITY.md, HEARTBEAT.md, cron 작업, 플러그인, hooks, 멀티 에이전트 목록 등)은
~/.hermes/migration/openclaw/<timestamp>/archive/에 보관되므로 수동 대응이 필요하다. - 새 세션 시작: 가져온 스킬과 메모리는 새 세션에서 반영된다.
- API 키 검증:
hermes status로 provider 인증 상태를 확인한다. - 메시징 테스트: 플랫폼 토큰을 이전했다면
systemctl --user restart hermes-gateway로 게이트웨이를 재시작하고 테스트한다. - WhatsApp 재페어링:
hermes whatsapp명령으로 QR 코드 페어링을 다시 진행한다. - 정리: 모든 확인 후
hermes claw cleanup으로 OpenClaw 디렉터리를.pre-migration/으로 이름 변경해 상태 혼란을 방지한다.
| 마이그레이션 대상 | OpenClaw 소스 | Hermes 목적지 |
|---|---|---|
| 페르소나 | workspace/SOUL.md |
~/.hermes/SOUL.md |
| 장기 메모리 | workspace/MEMORY.md, 일별 파일 |
~/.hermes/memories/MEMORY.md |
| 스킬 | 4가지 소스 | ~/.hermes/skills/openclaw-imports/ |
| 모델·프로바이더 | models.providers.* |
config.yaml |
| API 키 | config, .env, env sub-object, auth-profiles | ~/.hermes/.env |
| MCP 서버 | mcp.servers.* |
mcp_servers.* |
| 메시징 플랫폼 | channels.* |
각 플랫폼별 환경변수 |
| 에이전트 행동 | timeoutSeconds, thinkingDefault 등 | agent.max_turns, reasoning_effort 등 |
| 세션 리셋 | session.reset.* | session_reset.* |
핵심 포인트: Hermes는 OpenClaw 사용자를 위한 상세한 마이그레이션 경로를 제공하면서, 동시에 OpenAI Codex OAuth provider를 직접 지원한다. 페르소나, 메모리, 스킬, API 키, 메시징 토큰, MCP 서버, 에이전트 행동 설정까지 체계적으로 옮길 수 있으므로, 기존 자산을 유지하면서 Codex를 Hermes 환경에 연결하는 것이 가장 현실적인 전환 경로다.
6. 어떤 사용자에게 Codex와 Hermes 조합이 맞는가
OpenAI Codex만으로도 강력한 코딩 에이전트 경험을 얻을 수 있다. Codex 앱의 Skills, Automations, Worktree, AGENTS.md 시스템은 팀 단위 개발 가속에 이미 충분한 기능을 제공한다. 하지만 Hermes 같은 프레임워크와 결합하면 사용 범위가 한 단계 더 넓어진다.
6.1 Codex 단독 사용이 적합한 경우
- 코딩 작업 자동화가 핵심 목적이고, OpenAI 생태계 안에서 모든 것을 해결하고 싶을 때. Codex 앱·CLI·IDE 확장·ChatGPT 사이드바만으로도 풍부한 워크플로를 구성할 수 있다.
- AGENTS.md와 Skills로 팀 표준을 관리하고, Automations로 반복 업무를 배경에 넘기는 것만으로 충분한 생산성 향상을 얻을 수 있을 때.
- GitHub 연동, PR 생성, 코드 리뷰, 인앱 브라우저, computer use 같은 Codex 고유 기능이 개발 흐름의 중심일 때.
6.2 Hermes + Codex 조합이 필요한 경우
- Codex의 강한 코딩 능력을 쓰면서도 Telegram, Discord, Slack, WhatsApp, Signal, Matrix 같은 메시징 플랫폼까지 한 프레임워크에서 다루고 싶을 때. Hermes는 이들 플랫폼에 대한 게이트웨이를 내장하고 있다.
- 20개 이상의 provider(Nous Portal, GitHub Copilot, Anthropic, OpenRouter, Google Gemini OAuth, DeepSeek, Hugging Face, z.ai, Kimi, MiniMax, Alibaba, Xiaomi 등)를 상황에 따라 전환하며 쓰고 싶을 때. Hermes는
/model명령 하나로 세션 중 모델을 바꿀 수 있다. - 장기적으로 축적되는 파일 기반 영구 메모리와 자체 스킬 학습 루프를 활용해 에이전트가 경험에서 배우도록 하고 싶을 때. Hermes의 핵심 차별점은 self-improving agent라는 설계 철학이다.
- OpenClaw 또는 다른 에이전트 환경에서 넘어오며, 기존 자산(페르소나, 메모리, 스킬, API 키, 플랫폼 토큰)을 최대한 유지하고 싶을 때.
- credential pool을 활용해 여러 계정의 토큰을 등록하고, rate limit 시 자동 전환되는 고가용성 설정이 필요할 때.
6.3 상황별 비교
| 상황 | Codex 단독 | Hermes + Codex |
|---|---|---|
| 코드 작업 자동화 | 매우 강함(앱·CLI·확장) | 매우 강함(Codex 모델 활용) |
| 멀티 플랫폼 메시징 | 미지원 | Telegram, Discord, Slack 등 내장 |
| 장기 메모리 | 세션·Memories(제한적) | 파일 기반 영구 메모리, 자동 학습 |
| 반복 절차 스킬화 | Skills + Automations | Hermes 자체 스킬 + Codex 스킬 |
| OpenClaw 자산 이전 | 해당 없음 | hermes claw migrate로 체계적 이전 |
| 모델 전환 유연성 | OpenAI 모델 중심 | 20+ provider 실시간 전환 |
| OAuth 기반 Codex 연결 | 제품 내부 중심 | 외부 프레임워크에서도 OAuth 연결 |
| credential pool | 해당 없음 | 복수 토큰 등록, rate limit 자동 전환 |
| computer use | macOS 앱 내 지원 | Codex 모델 기능으로 간접 활용 |
핵심 포인트: Codex 단독으로도 코딩 자동화는 매우 강력하다. 하지만 멀티 플랫폼 메시징·장기 메모리·20개 이상 provider 전환·OpenClaw 자산 이전·credential pool까지 고려하면 Hermes와의 조합이 활용 범위를 크게 넓혀 준다. Codex는 코딩 작업을 끝까지 밀어 주는 엔진이고, Hermes는 그 엔진을 더 넓은 운영 환경에 배치하는 프레임워크다.
7. 마무리
위에서 살펴본 OpenAI Codex와 Hermes 연동의 핵심 내용을 정리하면 다음과 같습니다.
핵심 요약:
- OpenAI Codex는 단순 코드 생성기가 아니라 저장소를 읽고 수정하고 테스트하며 작업을 끝까지 수행하는 소프트웨어 엔지니어링 에이전트입니다. 2025년 5월 연구 프리뷰부터 격리된 클라우드 샌드박스, 터미널 로그 인용, 반복 테스트 루프를 핵심 구조로 갖추고 있었습니다.
- 모델 계보는 codex-1(2025.05, SWE-Bench Verified ~80-85%)에서 GPT-5.3-Codex(2026.02, SWE-Bench Pro 56.8%, Terminal-Bench 77.3%), GPT-5.4(2026.03, SWE-Bench Pro 57.7%, OSWorld 75.0%, GDPval 83.0%)로 이어지며, 코딩 전용과 범용 추론의 경계가 줄어드는 흐름입니다.
- Codex 앱(2026.02 출시)은 Worktree 기반 병렬 에이전트, Skills(progressive disclosure), Automations(standalone + thread), AGENTS.md를 결합한 팀 단위 command center입니다.
- Hermes Agent는 OpenAI Codex를 ChatGPT OAuth device code flow 기반 provider로 직접 지원하며,
~/.hermes/auth.json에 자격 증명을 저장하고, 기존~/.codex/auth.json도 자동 감지합니다. - OpenClaw 사용자는
hermes claw migrate로 페르소나, 메모리, 스킬(4소스), API 키(4소스), 메시징 토큰(7플랫폼), MCP 서버, 에이전트 행동 설정을 체계적으로 가져올 수 있습니다. - Codex 단독으로도 코딩 자동화는 강력하지만, 멀티 플랫폼·장기 메모리·20+ provider 전환·credential pool·OpenClaw 자산 이전까지 원한다면 Hermes와의 조합이 훨씬 넓은 활용도를 만들어 줍니다.
코딩 작업 자동화가 주 목적이라면 OpenAI Codex 자체만으로도 충분히 강력한 선택지이고, 그 위에 운영 환경 전반의 자동화까지 확장하고 싶다면 Hermes를 연결 지점으로 삼는 구조가 현실적인 출발점이 됩니다.