2026년 2월 26일, AI 연구소 Nous Research가 MIT 라이선스로 Hermes Agent를 공개했다. 출시 한 달 만에 GitHub 스타 10,000개를 돌파했고, OpenClaw(30만 스타급)와 나란히 비교되는 유일한 오픈소스 에이전트로 자리잡았다. Hermes Agent가 이렇게 빠르게 주목받은 이유는 단순하다. 기존 에이전트 대부분이 '한 번 쓰고 잊히는' 구조인 반면, Hermes는 쓸수록 똑똑해지는 폐쇄형 학습 루프(Closed Learning Loop)를 내장했기 때문이다.
기존 AI 에이전트 도구들, 이를테면 OpenClaw나 Claude Code는 각각 강력한 코딩 보조와 터미널 제어 능력을 갖추고 있지만, 세션 간 기억이 단절되거나 특정 IDE에 묶여 있다는 한계가 있었다. Hermes Agent는 이 공백을 정면으로 겨냥한다. 에이전트가 복잡한 작업을 수행한 뒤 그 과정을 스킬(Skill)로 저장하고, 다음에 비슷한 작업이 들어오면 자동으로 해당 스킬을 로드해 더 효율적으로 처리한다. 사용자의 프로젝트 구조, 선호하는 코딩 스타일, 서버 환경 정보까지 기억하며, Telegram이나 Discord를 통해 언제 어디서든 대화할 수 있다.
이 문서에서는 Hermes Agent의 설치 과정, 핵심 아키텍처, 메모리와 스킬 시스템, 메시징 게이트웨이, 보이스 모드, 크론 스케줄링, 그리고 OpenClaw·Claude Code와의 실질적 차이점을 하나하나 짚어본다.
- Hermes Agent 깃헙: https://github.com/NousResearch/hermes-agent
- Hermes 관련 문서: https://hermes-agent.nousresearch.com/docs/
1. Nous Research와 Hermes Agent의 배경
Nous Research는 Hermes, Nomos, Psyche 등의 오픈소스 대형 언어 모델(LLM)을 개발해 온 AI 연구소이자 탈중앙화 AI 스타트업이다. 특히 Hermes 시리즈 LLM은 로컬 LLM 커뮤니티에서 높은 평가를 받아 왔으며, 2026년 초에는 Psyche 분산 훈련 네트워크로 후처리한 Hermes 4.3 모델까지 공개했다.
Hermes Agent는 이러한 모델 훈련 역량을 바탕으로 탄생한 에이전트 프레임워크다. 단순한 챗봇 래퍼가 아니라, 모델 훈련 파이프라인까지 내장한 연구용 플랫폼이기도 하다. Atropos RL 환경, 궤적(Trajectory) 압축과 내보내기 기능을 통해 다음 세대 도구 호출 모델의 훈련 데이터를 생산할 수 있다. 모델을 만드는 연구소가 에이전트도 만든다는 점에서 다른 에이전트 프로젝트와 근본적으로 출발점이 다르다.
이전에 Nous Research가 내부적으로 사용하던 OpenClaw 에이전트 도구에서 출발한 것으로 알려져 있으며, Hermes Agent에는 hermes claw migrate 명령어로 OpenClaw 설정·메모리·스킬·API 키를 자동으로 가져오는 마이그레이션 기능이 내장되어 있다.
2. 설치 방법과 초기 설정
2.1 원라인 설치
- Linux, macOS, WSL2 환경에서
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash한 줄이면 설치가 끝난다 - 설치 스크립트는 uv(빠른 Python 패키지 매니저), Python 3.11, Node.js v22, ripgrep, ffmpeg까지 자동으로 감지하고 없으면 설치한다
- 유일한 사전 조건은 git이 설치되어 있는 것뿐이다
- 설치 완료 후
source ~/.bashrc(또는source ~/.zshrc)로 셸을 리로드하고hermes를 입력하면 바로 대화가 시작된다
핵심 포인트: Windows는 네이티브 지원하지 않는다. 반드시 WSL2를 설치한 뒤 그 안에서 실행해야 한다.
2.2 수동 설치
git clone --recurse-submodules https://github.com/NousResearch/hermes-agent.git로 저장소를 클론한다uv venv venv --python 3.11로 가상 환경을 만든 뒤uv pip install -e '.[all]'로 모든 의존성을 설치한다~/.hermes/디렉터리에config.yaml,.env파일을 구성하고,.env에 LLM 프로바이더 API 키를 넣는다mkdir -p ~/.local/bin && ln -sf $(pwd)/venv/bin/hermes ~/.local/bin/hermes로 전역 명령어를 등록한다
2.3 LLM 프로바이더 설정
hermes model 명령을 실행하면 대화형 위자드가 프로바이더를 안내한다. 지원 프로바이더 목록은 다음과 같다.
| 프로바이더 | 특징 |
|---|---|
| Nous Portal | 구독형, 제로 설정, OAuth 로그인 |
| OpenRouter | 200개 이상 모델 라우팅, API 키 입력 |
| Anthropic | Claude 모델 직접 연결 (Pro/Max 또는 API 키) |
| OpenAI Codex | ChatGPT OAuth, Codex 모델 사용 |
| Z.AI / Kimi / MiniMax | 중국 기반 모델 지원 |
| Alibaba Cloud | Qwen 모델(DashScope) |
| Hugging Face | 20개 이상 오픈 모델 통합 라우터 |
| Custom Endpoint | VLLM, SGLang, Ollama 등 OpenAI 호환 API |
hermes model 한 번이면 프로바이더를 변경할 수 있고, 코드 수정이나 벤더 종속이 전혀 없다.
3. 핵심 차별점: 폐쇄형 학습 루프
Hermes Agent를 다른 에이전트와 구분짓는 가장 핵심적인 특성은 5계층 메모리 아키텍처와 자기 개선 스킬 시스템이다.
3.1 5계층 메모리 구조
- MEMORY.md — 에이전트의 개인 노트. OS 환경, 프로젝트 구조, 작업 이력, 발견한 해결법 등을 최대 2,200자(약 800토큰) 범위에서 관리한다
- USER.md — 사용자 프로필. 이름, 역할, 커뮤니케이션 스타일, 선호도를 최대 1,375자(약 500토큰)로 기록한다
- FTS5 세션 검색 — 모든 CLI·메시징 세션이 SQLite에 저장되며, 전문 검색(Full-Text Search)으로 과거 대화를 검색하고 LLM 요약까지 붙인다
- Honcho 변증법적 사용자 모델링 — Plastic Labs의 Honcho를 통합해 세션과 플랫폼을 넘나드는 AI 기반 사용자 이해 레이어를 추가한다
- 스킬(Procedural Memory) — 복잡한 작업을 마친 뒤 절차를 SKILL.md 파일로 저장하고, 이후 같은 작업에서 자동으로 불러온다
에이전트는 사용자가 명시적으로 요청하지 않아도 유용한 정보를 자동으로 메모리에 저장하고, 용량이 80%를 넘으면 기존 항목을 통합하거나 교체한다. 메모리 내용은 세션 시작 시 시스템 프롬프트에 고정 스냅샷으로 주입되어, LLM의 프리픽스 캐시를 보존하면서도 맥락을 유지한다.
3.2 스킬 시스템
- 에이전트가 5회 이상의 도구 호출을 수반하는 복잡한 작업을 성공적으로 마치면, 해당 과정을 SKILL.md 형태로 자동 저장한다
- 스킬은
~/.hermes/skills/디렉터리에 카테고리별로 정리되며, 참조 문서·템플릿·스크립트를 함께 보관할 수 있다 - 프로그레시브 디스클로저 패턴을 사용해 토큰을 절약한다. Level 0(이름·설명 목록, 약 3,000토큰)에서 시작해 필요할 때만 Level 1(전체 내용), Level 2(특정 참조 파일)를 로드한다
- 모든 스킬은 슬래시 명령어(
/skill-name)로 바로 호출할 수 있다 - agentskills.io 오픈 표준과 호환되어, 커뮤니티 스킬 허브에서 검색·설치·공유가 가능하다
스킬 허브는 다양한 소스를 통합한다. Hermes 공식 선택적 스킬(official), Vercel의 skills.sh 디렉터리(skills-sh), 웹사이트의 /.well-known/skills/index.json 엔드포인트(well-known), GitHub 직접 설치, ClawHub, LobeHub, Claude Marketplace 등 7개 이상의 레지스트리에서 스킬을 검색하고 보안 스캔 후 설치할 수 있다.
4. OpenClaw·Claude Code와의 비교
| 비교 항목 | Hermes Agent | OpenClaw | Claude Code |
|---|---|---|---|
| 개발사 | Nous Research (오픈소스 LLM 연구소) | Anthropic 커뮤니티 | Anthropic |
| 라이선스 | MIT | Apache 2.0 | 상용 |
| LLM 종속 | 없음 (200+ 모델, 자유 전환) | Claude 중심 | Claude 전용 |
| 메모리 | 5계층 (MEMORY/USER/FTS5/Honcho/Skills) | 세션 기반, 제한적 지속성 | 세션 내 컨텍스트 |
| 자기 학습 | 스킬 자동 생성·자기 개선·메모리 넛지 | 제한적 | 없음 |
| 플랫폼 | CLI + Telegram/Discord/Slack/WhatsApp/Signal/SMS/Email/Matrix/DingTalk/Home Assistant | 주로 CLI | CLI + IDE 통합 |
| 원격 실행 | Docker/SSH/Daytona/Modal/Singularity 6종 백엔드 | Docker | 로컬 중심 |
| 크론 스케줄링 | 자연어 크론, 멀티 플랫폼 전달 | 없음 | 없음 |
| 보이스 모드 | CLI 마이크 + 메시징 음성 답변 + Discord 보이스 채널 | 없음 | 없음 |
| 서버리스 절전 | Daytona, Modal (유휴 시 거의 비용 0) | 없음 | 해당 없음 |
| RL/훈련 통합 | Atropos RL, 궤적 내보내기, 배치 생성 | 없음 | 없음 |
핵심 포인트: Hermes Agent의 가장 큰 차별점은 LLM 비종속 + 자기 학습 루프 + 멀티 플랫폼 자율 운영이라는 세 축이 동시에 작동한다는 것이다. OpenClaw는 강력하지만 Claude 생태계에 깊이 묶여 있고, Claude Code는 IDE 보조 도구에 가깝다. Hermes는 사용자의 서버에 살면서 스스로 성장하는 자율 에이전트를 지향한다.
5. 개 이상의 내장 도구와 툴셋
Hermes Agent에는 출시 시점 기준 40개 이상의 도구가 카테고리별로 묶여 있다.
| 카테고리 | 대표 도구 | 용도 |
|---|---|---|
| Web | web_search, web_extract |
웹 검색, 페이지 콘텐츠 추출 |
| Terminal & Files | terminal, read_file, patch |
명령어 실행, 파일 편집 |
| Browser | browser_navigate, browser_vision |
브라우저 자동화 (Browserbase) |
| Media | vision_analyze, image_generate, text_to_speech |
이미지 분석·생성, TTS |
| Agent | delegate_task, execute_code, todo |
서브에이전트 위임, 코드 실행, 계획 |
| Memory | memory, session_search, honcho_* |
메모리 관리, 세션 검색 |
| Automation | cronjob, send_message |
크론 스케줄링, 메시지 전달 |
| Integrations | ha_*, MCP 서버 도구, rl_* |
Home Assistant, MCP, RL 훈련 |
hermes tools 명령으로 플랫폼별 도구 활성화를 관리할 수 있고, --toolsets 플래그로 특정 도구셋만 로드할 수도 있다.
6. 메시징 게이트웨이: 어디서든 대화
6.1 지원 플랫폼
- Telegram — 보이스 메모 전사, 음성 버블 답변 지원
- Discord — 텍스트 채널 + 보이스 채널(VC) 실시간 음성 대화
- Slack — Slack 워크스페이스 통합
- WhatsApp — Node.js 브릿지 기반
- Signal — 보안 메시징 지원
- SMS (Twilio) — 문자 기반 에이전트 접근
- Email — 이메일 기반 명령
- Home Assistant — 스마트홈 제어 (ha_list_entities, ha_call_service 등)
- Mattermost, Matrix, DingTalk — 기업 메시징 플랫폼
- Open WebUI + API Server, Webhooks — 커스텀 통합
hermes gateway setup을 실행하면 대화형 위자드가 각 플랫폼 설정을 안내한다. hermes gateway install로 시스템 서비스(Linux systemd / macOS launchd)로 등록하면, 서버 재부팅 후에도 자동으로 게이트웨이가 실행된다.
6.2 보안 모델
게이트웨이는 기본적으로 모든 미등록 사용자를 차단한다. 허용 목록(TELEGRAM_ALLOWED_USERS 등)을 설정하거나, DM 페어링 방식으로 일회용 코드를 발급해 사용자를 승인할 수 있다. 페어링 코드는 1시간 후 만료되며 암호학적 난수를 사용한다.
7. 종 터미널 백엔드
| 백엔드 | 용도 | 특징 |
|---|---|---|
| local | 개발, 신뢰 작업 | 기본값 |
| docker | 격리, 재현성 | 읽기 전용 루트, 캡 드롭, PID 제한 |
| ssh | 원격 서버 샌드박싱 | 에이전트가 자체 코드 수정 불가 |
| daytona | 서버리스 원격 개발 환경 | 유휴 시 동면, 요청 시 기상 |
| modal | 서버리스 클라우드 실행 | GPU 스케일 가능 |
| singularity | HPC 컨테이너 | 클러스터 컴퓨팅, 루트리스 |
container_persistent: true 설정을 켜면 설치한 패키지, 파일, 설정이 세션 간에 유지된다. Docker 백엔드는 모든 리눅스 캡빌리티를 드롭하고, 권한 상승을 차단하며, 네임스페이스를 완전히 격리한다.
8. 보이스 모드
Hermes Agent는 CLI에서 마이크 입력, 메시징에서 음성 답변, Discord 보이스 채널 실시간 대화까지 지원한다.
8.1 STT(음성→텍스트)
| 프로바이더 | 비용 | 속도 |
|---|---|---|
| Local (faster-whisper) | 무료 | CPU/GPU 의존 |
| Groq Whisper | 무료 티어 | 약 0.5초 |
| OpenAI Whisper | 유료 | 약 1초 |
8.2 TTS(텍스트→음성)
| 프로바이더 | 비용 | 특징 |
|---|---|---|
| Edge TTS | 무료 | 322개 음성, 74개 언어 |
| NeuTTS | 무료 | 로컬 실행 |
| ElevenLabs | 유료 | 프리미엄 품질 |
| OpenAI TTS | 유료 | 6종 음성 |
CLI에서 Ctrl+B를 누르면 녹음이 시작되고, 3초 침묵 감지 후 자동 종료된다. Whisper 환각 필터가 26개 알려진 환각 문구를 여러 언어에 걸쳐 필터링한다.
9. 크론 스케줄링
자연어 또는 크론 표현식으로 자동화 작업을 예약할 수 있다. 예를 들어 대화 중 "매일 아침 9시에 해커 뉴스에서 AI 뉴스를 확인하고 텔레그램으로 요약 보내줘"라고 말하면, 에이전트가 자동으로 크론 작업을 생성한다.
9.1 스케줄 형식
- 상대 지연:
30m(30분 후 1회),2h(2시간 후 1회) - 반복 간격:
every 30m,every 2h,every 1d - 크론 표현식:
0 9 * * *(매일 오전 9시),0 9 * * 1-5(평일 오전 9시) - ISO 타임스탬프:
2026-03-15T09:00:00(특정 시각 1회)
9.2 전달 옵션
결과물은 원래 대화로 돌아가거나(origin), 로컬 파일로 저장하거나(local), 특정 Telegram·Discord 채널로 직접 전달할 수 있다. 크론 작업에 스킬을 첨부해 재사용 가능한 워크플로를 세션마다 자동 주입하는 것도 가능하다.
10. MCP 통합과 서브에이전트 위임
Hermes Agent는 Model Context Protocol(MCP) 서버에 연결해 외부 도구를 확장할 수 있다. ~/.hermes/config.yaml의 mcp_servers 섹션에 서버 이름, 실행 명령, 인자, 환경 변수를 지정하면 된다. GitHub MCP 서버, 데이터베이스 MCP 서버 등을 연결하면 에이전트의 도구 목록이 동적으로 확장된다.
delegate_task 도구를 통해 격리된 서브에이전트를 생성해 병렬 워크스트림을 처리할 수도 있다. execute_code로 Python 스크립트를 실행해 여러 단계의 파이프라인을 하나의 컨텍스트 비용 제로 턴으로 압축하는 프로그래매틱 도구 호출 패턴도 지원한다.
11. 아키텍처 개요
Hermes Agent의 코드베이스는 여러 서브시스템으로 구성된다.
| 서브시스템 | 핵심 파일/디렉터리 | 역할 |
|---|---|---|
| Agent Loop | run_agent.py (AIAgent) |
프로바이더 선택, 프롬프트 구성, 도구 실행, 재시도, 압축 |
| Prompt System | agent/prompt_builder.py, agent/context_compressor.py |
프롬프트 조립, 컨텍스트 압축, 캐싱 |
| Tool Runtime | tools/, model_tools.py, toolsets.py |
도구 레지스트리, 터미널 백엔드, 프로세스 관리 |
| Gateway | gateway/ |
메시징 어댑터, 세션 라우팅, DM 페어링, 크론 틱 |
| Session Storage | hermes_state.py |
SQLite 기반 세션 저장, 압축 분할 계보 보존 |
| ACP | acp_adapter/ |
VS Code, Zed, JetBrains 에디터 통합 (JSON-RPC over stdio) |
| RL/Environments | environments/, batch_runner.py |
평가, RL 훈련, SFT 데이터 생성 |
설계 원칙은 프롬프트 안정성, 도구 실행의 관찰 가능성과 중단 가능성, 세션 지속성, 하나의 에이전트 코어를 여러 프론트엔드가 공유, 선택적 서브시스템의 느슨한 결합이다.
12. 에디터 통합: ACP
Hermes Agent는 ACP(Agent Communication Protocol) 서버로도 동작할 수 있다. pip install -e '.[acp]' 후 hermes acp를 실행하면 VS Code, Zed, JetBrains 같은 ACP 호환 에디터에서 Hermes를 네이티브 에이전트로 사용할 수 있다. 이는 Claude Code가 IDE에 묶여 있는 것과 달리, 에디터는 선택적 인터페이스 중 하나일 뿐이라는 Hermes의 설계 철학을 보여준다.
13. 실제 사용 팁
13.1 빠른 시작 명령어
| 명령어 | 기능 |
|---|---|
hermes |
대화 시작 |
hermes model |
LLM 프로바이더·모델 변경 |
hermes tools |
도구 활성화 관리 |
hermes gateway setup |
메시징 플랫폼 설정 |
hermes --continue (또는 -c) |
마지막 세션 이어서 |
hermes doctor |
설치 진단 |
hermes update |
최신 버전 업데이트 |
hermes skills search <query> |
스킬 검색 |
13.2 슬래시 명령어 (CLI·메시징 공통)
| 명령어 | 기능 |
|---|---|
/new, /reset |
새 대화 시작 |
/model [provider:model] |
모델 변경 |
/personality [name] |
성격 변경 (예: pirate) |
/skills |
스킬 목록·관리 |
/compress |
컨텍스트 수동 압축 |
/voice on |
보이스 모드 활성화 |
/background <prompt> |
백그라운드 세션 실행 |
14. 마무리
위에서 살펴본 Hermes Agent의 핵심 내용을 정리하면 다음과 같습니다.
핵심 요약:
- Nous Research가 2026년 2월에 MIT 라이선스로 공개한 오픈소스 자율 에이전트로, 출시 한 달 만에 GitHub 스타 10,000개를 돌파했다
- 폐쇄형 학습 루프가 최대 차별점이다. 스킬 자동 생성, 자기 개선, 메모리 넛지, 세션 검색, Honcho 사용자 모델링이 하나로 묶여 작동한다
- LLM 벤더 종속 없이 200개 이상 모델을 자유롭게 전환할 수 있으며, Ollama 같은 로컬 모델도 커스텀 엔드포인트로 연결 가능하다
- Telegram, Discord, Slack, WhatsApp, Signal 등 12개 이상의 메시징 플랫폼에서 하나의 게이트웨이로 접근한다
- Docker, SSH, Daytona, Modal 등 6종 터미널 백엔드로 5달러 VPS부터 GPU 클러스터까지 어디서든 실행할 수 있다
- 자연어 크론 스케줄링, 보이스 모드(CLI + 메시징 + Discord VC), MCP 통합, ACP 에디터 통합까지 갖추고 있다
에이전트 도구를 선택할 때, 코딩 보조가 주 목적이고 Claude 생태계 안에서 작업한다면 Claude Code가 적합하다. OpenClaw의 확장성과 커뮤니티 생태계가 필요하다면 OpenClaw를 유지하되, 세션 간 학습, 멀티 플랫폼 자율 운영, 서버리스 절전, 모델 자유도를 중시한다면 Hermes Agent가 현재 가장 강력한 선택지다.