AI 평가 – AI-Insight Hub

EVA-Bench Data 2.0, 음성 에이전트 평가는 이제 말귀보다 업무 완료다

ServiceNow-AI가 EVA-Bench Data 2.0을 공개했다. 항공 고객지원, 기업 ITSM, 헬스케어 HRSD 3개 도메인, 121개 도구, 213개 시나리오로 음성 에이전트가 인증, 정책, 도구 호출, 최종 DB 상태까지 제대로 처리하는지...

14분 읽기 · 2026.06.08

Microsoft가 Build 2026에서 Agent Control Specification과 ASSERT를 공개했다. 에이전트 도입의 다음 과제는 더 똑똑한 모델이 아니라, 도구 실행 전 정책 검사, 평가 회귀, 승인 루프를 하네스 안에 넣는...

15분 읽기 · 2026.06.03

OpenAI가 제안한 제3자 평가 플레이북을 바탕으로 AI 벤치마크를 읽는 법을 정리했다. 하네스, 툴 설정, 예산, 오염, 보상 해킹을 확인해야 모델 점수가 실제 도입 판단으로 이어진다.

14분 읽기 · 2026.05.31