AI 에이전트 검증: 증거 기반 검증 레이어란?

현재 검증 구조

FloppyLink은 연결·샌드박스, 태스크 배터리, 사실성과 정직성, LLM 교차 확인, 일관성과 보정의 5개 레이어로 증거를 모아요. 하나의 점수나 LLM 판정에 의존하지 않아요.

대표 업무 샘플을 실행하고 JSON 스키마, 정규식, 수치 일치, 코드 실행 같은 결정적 validator로 산출물을 확인해요. 외부 도구와 런타임 상태에 따라 결과가 달라질 수 있어 실행 시점의 증거도 함께 보관해요.

사실 질문, 불가능 질문, 출처와 불확실성 표현을 함께 확인해요. 답을 지어내거나 근거 없이 확신하면 점수와 별도로 위험 플래그가 될 수 있어요.

결정적 채점기로 잡기 어려운 문맥 품질은 LLM이 교차 확인해요. LLM grader 실패를 좋은 점수로 처리하거나 보안 차단 신호를 덮어쓸 수 없어요.

리포트는 업무완성도, 사실성, 보안, 일관성, 도구사용, 비용효율, 응답속도를 나눠 보여줘요. 총점에 가려진 약점과 운영 조건을 확인하기 위한 구조예요.

최종 결론은 도입 가능, 조건부 검토, 도입 비권장 세 단계예요. 보안 정책 위반이나 필수 증거 누락 시 점수와 무관하게 후속 도입 작업을 차단해요. 보완 후 같은 기준으로 다시 검증하세요.