개발동생 · 2026

AI 엔지니어링
4년간의 진화

프롬프트에서 하네스까지 — 개발자 역할의 패러다임 전환

프롬프트 엔지니어링

"어떻게 질문할 것인가"

컨텍스트 엔지니어링

"무엇을 알게 할 것인가"

하네스 엔지니어링

"어떻게 통제할 것인가"

PHASE 1 · 2022~

프롬프트 엔지니어링

LLM의 한계를 극복하기 위해 '질문을 잘 구성하는 기술'에 집중한 시대

🎭

역할 부여 (Persona)

AI에게 전문가 페르소나를 부여하여 도메인 특화 답변을 유도

🔗

Chain of Thought

"단계별로 생각해 줘" — 추론 과정을 명시해 복잡한 문제 해결력 극대화

ReAct 패턴

추론(Reasoning) + 행동(Acting) 교대 수행 → 현재 코딩 에이전트의 원형

📝

Few-shot 프롬프팅

입출력 예시를 프롬프트에 포함시켜 모델이 패턴을 학습하도록 유도

🔀

Self-Consistency

동일 질문에 여러 답변을 생성 후 다수결로 최종 답 도출 — 정확도 향상

🌳

Tree-of-Thought

CoT의 일직선 추론을 트리 탐색으로 확장 — 여러 경로를 동시 탐색하여 최적 해 도출 (Yao et al., 2023)

🎯

Ng의 4대 에이전틱 패턴

Reflection · Tool Use · Planning · Multi-Agent — Andrew Ng이 정의한 AI 에이전트 설계의 4가지 핵심 패턴 (2024)

🚀

Copilot 진화 궤적

자동완성(2022) → Chat(2023) → Agent Mode(2025.02) → Coding Agent(2025.05) — 단일 파일에서 완전 자율로

⚠️

한계: 컨텍스트 윈도우 초과 시 이전 지시사항 망각 · 환각 현상 발생 · 성능 급격히 저하

PHASE 2 · 2024~

컨텍스트 엔지니어링

단일 프롬프트를 넘어, 한정된 기억력 안에서 시스템 파이프라인 전체를 최적화

🧠

시스템 프롬프트

모델의 기본 행동 규칙과 역할을 사전 정의

💾

장기 기억 / 히스토리

채팅 히스토리 압축 및 장기 기억 관리로 컨텍스트 효율화

🔍

RAG

검색 증강 생성으로 외부 지식을 실시간 주입

🔌

MCP 프로토콜

외부 도구 연동 표준화로 에이전트 능력 확장

🛠️

Tool Use / Function Calling

모델이 외부 함수를 직접 호출 — 검색·계산·API 연동으로 능력 확장

📋

CLAUDE.md / Rules

프로젝트별 규칙·컨벤션을 파일로 명문화하여 모델에 자동 주입

💻

LLM-as-OS 개념

커널=추론엔진 · RAM=컨텍스트윈도우 · 파일시스템=RAG · 시스콜=Tool Call — OS 비유로 이해하는 LLM

📐

WSCI 전략 (Anthropic)

Write(작성) · Select(선택) · Compress(압축) · Isolate(격리) — 컨텍스트 윈도우 최적화 4원칙

KV-cache 최적화

접두어 안정성 유지 시 캐시 히트 → 비용 1/10 절감. 프롬프트 '품질'보다 '안정성'이 프로덕션 핵심

📚

Context Hub

Andrew Ng 제안 — 최신 API 문서 실시간 검색·주입 시스템으로 LLM의 '전향성 기억상실증' 해결

📉

바이브 코딩의 쇠퇴: AI에 전적 의존한 코딩 방식은 개발자가 코드를 통제·이해하지 못하는 한계로 인기 하락

PHASE 3 · 2026~

하네스 엔지니어링

자율형 AI 에이전트의 폭주를 방지하는 안전장치이자 제약 환경 구축

🛡️

핵심 개념

에이전트가 안전하고 일관되게 동작하도록 하는 제약 환경 = 하네스

🔄

역할 전환

직접 코딩 → AI가 올바른 환경에서 작업하도록 환경 구축이 주된 업무

🔒

Permission Modes

에이전트의 도구 사용 권한을 단계별로 제어 — 자율과 통제의 균형

🤖

Sub-Agent 오케스트레이션

전문 에이전트를 병렬 배치하여 복잡한 작업을 분할·정복하는 멀티 에이전트 체계

📊

2×2 하네스 분류 (Fowler)

결정론/비결정론 × 피드포워드/피드백 — 가이드·린터·시스템프롬프트·LLM-Judge로 4분류

🏭

3-에이전트 아키텍처

Anthropic: Planner(기획) → Generator(구현) → Evaluator(평가) — GAN 구조 차용 품질 루프

🔁

Ralph 패턴

PRD 기반 자율 코딩 루프 — 상태를 git+파일에 저장, 클린 컨텍스트로 반복. GitHub ★ 12,000+

🚨

Lethal Trifecta

신뢰불가 입력 + 민감 데이터 + 상태 변경 = 보안 사고 필연. Meta의 Rule of Two로 방어

▸ Fowler/Böckeler의 하네스 2×2 분류체계

🟢 가이드 (결정론적 사전유도)

AGENTS.md, .cursorrules 등 규칙 파일. 비용 ≈ 0이나 강제성은 약함

🔴 연산적 (결정론적 사후교정)

컴파일러, 린터, 타입체커. 기계적 강제성 — 에이전트가 스스로 코드 수정

🔵 시스템 프롬프트 (비결정론적 사전유도)

"공손하게", "확인 구하기" 등 뉘앙스 지침. 규칙이 아닌 방향 제시

🟣 추론적 (비결정론적 사후교정)

LLM-as-a-Judge, 의미론적 코드 리뷰. 생성 품질을 다른 AI가 평가

실전 가이드 · 4단계

나만의 하네스 구축

작은 것부터 점진적으로 — 커맨드에서 훅까지

1
커맨드

반복 프롬프트를 재사용 가능한 템플릿으로 단축

2

코딩 스타일·컨벤션·아키텍처를 .md로 명문화

3
스킬

코드 스크립트·예시 템플릿을 패키지로 묶어 제공

4
훅 ★

코드 레벨에서 조건 검사 및 행동을 강제 통제

🛑

프로텍션

운영 브랜치 직접 푸시 금지, 테스트 누락 시 커밋 거부 등 치명적 에러 차단

🔔

리마인더

규칙 위반 감지 시 강제로 룰 재로드 · 커맨드 재호출로 워크플로우 교정

자동 검증

코드 변경 후 린트·타입체크·테스트를 자동 실행하여 품질 게이트 통과 강제

종합 비교

3단계 진화 비교표

프롬프트 → 컨텍스트 → 하네스: 엄밀함은 사라지지 않고 더 높은 추상화로 이동

차원프롬프트 엔지니어링컨텍스트 엔지니어링하네스 엔지니어링
시대2022 – 202420252026+
핵심 질문어떤 말을 해야?어떤 정보를 줄까?어떤 시스템을 만들까?
OS 비유명령어 한 줄RAM 관리운영체제 전체 설계
핵심 메트릭응답 품질 (주관)KV-cache 히트율태스크 완료율 · 비용/태스크
실패 모드Blind Prompting컨텍스트 오염오케스트레이션 버그 · 보안
필요 역량언어 감각 + 도메인정보 아키텍처시스템 설계 + 보안
"엄밀함은 사라지지 않았고, 더 높은 추상화 수준으로 이동했을 뿐이다. 프롬프트 엔지니어링은 '죽은 것'이 아니라 '승진한 것'이다 — 시스템의 서브모듈로."
— Chad Fowler, "Relocating Rigor"
NEXT · 미래 전망

엄밀함의 다음 이동

하네스 너머, AI 엔지니어링이 향하는 세 가지 방향

👁️

Guardian Agent

에이전트가 배포 시도 → 별도 에이전트가 규제·보안 준수 검증. 엄밀함이 '실행'에서 '감시'로 이동

📏

평가 엔지니어링

벤치마크 점수 대신 행동 기반 평가 — LLM-as-a-judge의 편향 해결이 새로운 연구 분야로 부상

🧬

지식 엔진

코드 그래프 + 커밋 히스토리 + 메모리 시스템 통합 — "왜 이 아키텍처를 선택했는가"까지 추론

💡 핵심 통찰

엄밀함은 사라지지 않고, 더 높은 추상화로 이동한다. 코드 작성 → 컨텍스트 설계 → 시스템 아키텍처로. 처음부터 완벽한 시스템을 설계하지 말 것. 작은 커맨드 → 룰 → 스킬 → 훅 순서로 점진적으로 접근하라. 범용 플러그인에 의존하기보다 자신의 워크플로우에 맞는 커스텀 하네스를 직접 조합·구축하는 것이 핵심이다.

📎 참고 자료

본 자료는 아래 원문 및 학술 자료를 기반으로 구성되었습니다

1 / 6
← → 방향키 또는 Space로 이동