프롬프트에서 하네스까지 — 개발자 역할의 패러다임 전환
LLM의 한계를 극복하기 위해 '질문을 잘 구성하는 기술'에 집중한 시대
AI에게 전문가 페르소나를 부여하여 도메인 특화 답변을 유도
"단계별로 생각해 줘" — 추론 과정을 명시해 복잡한 문제 해결력 극대화
추론(Reasoning) + 행동(Acting) 교대 수행 → 현재 코딩 에이전트의 원형
입출력 예시를 프롬프트에 포함시켜 모델이 패턴을 학습하도록 유도
동일 질문에 여러 답변을 생성 후 다수결로 최종 답 도출 — 정확도 향상
CoT의 일직선 추론을 트리 탐색으로 확장 — 여러 경로를 동시 탐색하여 최적 해 도출 (Yao et al., 2023)
Reflection · Tool Use · Planning · Multi-Agent — Andrew Ng이 정의한 AI 에이전트 설계의 4가지 핵심 패턴 (2024)
자동완성(2022) → Chat(2023) → Agent Mode(2025.02) → Coding Agent(2025.05) — 단일 파일에서 완전 자율로
한계: 컨텍스트 윈도우 초과 시 이전 지시사항 망각 · 환각 현상 발생 · 성능 급격히 저하
단일 프롬프트를 넘어, 한정된 기억력 안에서 시스템 파이프라인 전체를 최적화
모델의 기본 행동 규칙과 역할을 사전 정의
채팅 히스토리 압축 및 장기 기억 관리로 컨텍스트 효율화
검색 증강 생성으로 외부 지식을 실시간 주입
외부 도구 연동 표준화로 에이전트 능력 확장
모델이 외부 함수를 직접 호출 — 검색·계산·API 연동으로 능력 확장
프로젝트별 규칙·컨벤션을 파일로 명문화하여 모델에 자동 주입
커널=추론엔진 · RAM=컨텍스트윈도우 · 파일시스템=RAG · 시스콜=Tool Call — OS 비유로 이해하는 LLM
Write(작성) · Select(선택) · Compress(압축) · Isolate(격리) — 컨텍스트 윈도우 최적화 4원칙
접두어 안정성 유지 시 캐시 히트 → 비용 1/10 절감. 프롬프트 '품질'보다 '안정성'이 프로덕션 핵심
Andrew Ng 제안 — 최신 API 문서 실시간 검색·주입 시스템으로 LLM의 '전향성 기억상실증' 해결
바이브 코딩의 쇠퇴: AI에 전적 의존한 코딩 방식은 개발자가 코드를 통제·이해하지 못하는 한계로 인기 하락
자율형 AI 에이전트의 폭주를 방지하는 안전장치이자 제약 환경 구축
에이전트가 안전하고 일관되게 동작하도록 하는 제약 환경 = 하네스
직접 코딩 → AI가 올바른 환경에서 작업하도록 환경 구축이 주된 업무
에이전트의 도구 사용 권한을 단계별로 제어 — 자율과 통제의 균형
전문 에이전트를 병렬 배치하여 복잡한 작업을 분할·정복하는 멀티 에이전트 체계
결정론/비결정론 × 피드포워드/피드백 — 가이드·린터·시스템프롬프트·LLM-Judge로 4분류
Anthropic: Planner(기획) → Generator(구현) → Evaluator(평가) — GAN 구조 차용 품질 루프
PRD 기반 자율 코딩 루프 — 상태를 git+파일에 저장, 클린 컨텍스트로 반복. GitHub ★ 12,000+
신뢰불가 입력 + 민감 데이터 + 상태 변경 = 보안 사고 필연. Meta의 Rule of Two로 방어
▸ Fowler/Böckeler의 하네스 2×2 분류체계
AGENTS.md, .cursorrules 등 규칙 파일. 비용 ≈ 0이나 강제성은 약함
컴파일러, 린터, 타입체커. 기계적 강제성 — 에이전트가 스스로 코드 수정
"공손하게", "확인 구하기" 등 뉘앙스 지침. 규칙이 아닌 방향 제시
LLM-as-a-Judge, 의미론적 코드 리뷰. 생성 품질을 다른 AI가 평가
작은 것부터 점진적으로 — 커맨드에서 훅까지
반복 프롬프트를 재사용 가능한 템플릿으로 단축
코딩 스타일·컨벤션·아키텍처를 .md로 명문화
코드 스크립트·예시 템플릿을 패키지로 묶어 제공
코드 레벨에서 조건 검사 및 행동을 강제 통제
운영 브랜치 직접 푸시 금지, 테스트 누락 시 커밋 거부 등 치명적 에러 차단
규칙 위반 감지 시 강제로 룰 재로드 · 커맨드 재호출로 워크플로우 교정
코드 변경 후 린트·타입체크·테스트를 자동 실행하여 품질 게이트 통과 강제
프롬프트 → 컨텍스트 → 하네스: 엄밀함은 사라지지 않고 더 높은 추상화로 이동
| 차원 | 프롬프트 엔지니어링 | 컨텍스트 엔지니어링 | 하네스 엔지니어링 |
|---|---|---|---|
| 시대 | 2022 – 2024 | 2025 | 2026+ |
| 핵심 질문 | 어떤 말을 해야? | 어떤 정보를 줄까? | 어떤 시스템을 만들까? |
| OS 비유 | 명령어 한 줄 | RAM 관리 | 운영체제 전체 설계 |
| 핵심 메트릭 | 응답 품질 (주관) | KV-cache 히트율 | 태스크 완료율 · 비용/태스크 |
| 실패 모드 | Blind Prompting | 컨텍스트 오염 | 오케스트레이션 버그 · 보안 |
| 필요 역량 | 언어 감각 + 도메인 | 정보 아키텍처 | 시스템 설계 + 보안 |
하네스 너머, AI 엔지니어링이 향하는 세 가지 방향
에이전트가 배포 시도 → 별도 에이전트가 규제·보안 준수 검증. 엄밀함이 '실행'에서 '감시'로 이동
벤치마크 점수 대신 행동 기반 평가 — LLM-as-a-judge의 편향 해결이 새로운 연구 분야로 부상
코드 그래프 + 커밋 히스토리 + 메모리 시스템 통합 — "왜 이 아키텍처를 선택했는가"까지 추론
엄밀함은 사라지지 않고, 더 높은 추상화로 이동한다. 코드 작성 → 컨텍스트 설계 → 시스템 아키텍처로. 처음부터 완벽한 시스템을 설계하지 말 것. 작은 커맨드 → 룰 → 스킬 → 훅 순서로 점진적으로 접근하라. 범용 플러그인에 의존하기보다 자신의 워크플로우에 맞는 커스텀 하네스를 직접 조합·구축하는 것이 핵심이다.
본 자료는 아래 원문 및 학술 자료를 기반으로 구성되었습니다