챕터 8은 아래 두가지 주제를 다룹니다.
1. 수많은 AI모델을 선택하기 위해 AI모델을 평가하는 과정
2. 나의 회사에 상황에 맞는 AI agent를 만드는 과정

예제 1

예제 1은 AI 모델에 따라 프롬프트의 응답이 다르므로, 평가 지표를 만들어 모델을 평가하고 선택하라는 의미를 담고 있습니다.

예제 1 실습 과정은 같은 질문 3개를 3개 모델에 던지고, GPT-4o가 채점합니다.

예제의 평가 결과는 10.0 만점 기준이고 JSON으로 저장됩니다.

부록. Claude가 공개한 AI Agent 평가 시스템

2026년 1월 Claude 기술 블로그에서는 AI 에이전트 평가 시스템을 설명합니다. 평가 시스템이 왜 필요하고 어떻게 평가하는지 기술합니다.

그리고 예제처럼 AI의 결과를 AI가 평가하는 것을 LLM as a Judge라고 합니다. Claude 기술 블로그를 보면 AI 모델은 자기가 작성한 코드를 평가할 때 관대하다는 표현이 있습니다.

예제 2

예제 2는 AI Agent를 만드는 예제입니다. 책에서는 AI engine이라고 표현했으나 2026년 5월 기준으로는 AI agent가 더 맞는 표현인 것 같습니다.

책에서는 Agent 이름을 copilot이라고 부릅니다. copilot은 사용자의 질문의 의도를 이해하고 필요한 네트워크 장비 컨텍스트를 이해하는게 목적입니다. copilot은 사용자에게 요청을 받으면, 사용자 메시지를 분석하여 프롬프트를 만들어 AI 모델에 요청합니다.

copilot은 아래 구조로 프롬프트를 만듭니다.

사용자 프롬프트를 만드는 과정이 예제 2의 핵심입니다.

사용자 메시지를 분석하여 의도를 분류
사용자 메시지를 분석하여, 필요하면 회사 네트워크 정보가 담긴 파일 정보를 로드
AI 모델이 답변을 잘할 수 있도록 few-shot 예제 파일을 로드
사용자 메시지를 마지막에 추가

구현한 코드를 보면 조립한 프롬프트가 어떻게 구성되어 있는지 확인할 수 있습니다.

사용자 프롬프트를 만들기 위해 필요한 코드는 함수로 구현되어 있습니다.

아쉬운 점은 사용자 메시지 분석 로직이 if~else로 되어 있어서 정확도가 떨어진다는 것입니다. 아래는 의도를 분류하는 코드입니다.

회사 네트워크 컨텍스트는 아래처럼 JSON으로 설정되어 있습니다. 사용자 메시지를 if문으로 분석해서 회사 장비 이름이 있으면 사용자 프롬프트에 컨텍스트 정보를 추가합니다.

예제 의도와 전혀 상관없는 질문을 하더라도, AI 모델이 의도한 방향으로 답변하도록 유도합니다.

예제가 의도한 대로 잘 동작하면, AI 모델 답변과 함께 회사 정보(Working)도 출력합니다.

예제 3

예제 3은 예제 2에서 사용자 프롬프트가 더 늘었고 조건문도 함께 늘었습니다. 사용자 프롬프트에는 더 많은 네트워크 컨텍스트가 추가되었고, 설정 작업일 때 영향 범위를 분석해 줍니다.

프롬프트를 만드는 과정을 보면 enhanced_context와 Impact Analysis가 추가되었습니다.

참고자료

AI Networking Cookbook 코드: https://github.com/PacktPublishing/AI-Networking-Cookbook-First-Edition
https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

저작자표시 비영리 변경금지 (새창열림)

'전공영역 공부 기록' 카테고리의 다른 글

GenerativeAiOnKubernetes 스터디 - 챕터 4장 RAG, Lora 파인튜닝 (0)	2026.05.18
Kubernetes v1.36 업그레이드 전에 확인할 운영 영향과 핸즈온 (1)	2026.05.10
스터디 챕터 7 정리 - 프러덕션을 위해, Streamlit을 FastAPI로 마이그레이션 (0)	2026.05.04
AI 모델 사용 vs AI 에이전트 사용 — LangGraph 실습 (0)	2026.05.02
AI에게 youtube 영상을 내 관점으로 분석하게 시키는 방법 (0)	2026.04.26

최신글

스터디 챕터 8 정리 - LLM As Judge, AI Agent