'이 답변, 근거가 뭐죠?' GS 인증 시험이 AI에게 던진 질문

시험기관은 제품을 파고들며 발견한 문제를 결함리포트로 보냅니다. XGEN Agentic AI Platform은 세 차례 결함리포트를 받았고, 그 대부분은 기능 적합성과 사용성에 관한 것이었습니다. 그중 몇 가지는 AI 제품이기 때문에 받은 질문이었습니다.

시리즈 · GS 인증 여정 — 전 5부

문서만 잘 내면 될 줄 알았습니다

시험 첫날, 문서와 제품이 다른 말을 하고 있었습니다

"이 답변, 근거가 뭐죠?" — AI라서 받은 질문들 (지금 읽는 글)

고치고 나서가 진짜 시작이었습니다

아직 "획득했다"고 말하지 않는 이유

결함리포트는 지적이자 대화였습니다

시험기관은 발견한 문제를 정리해 결함리포트로 보내고, 저희는 각 항목에 수정 방향을 회신합니다. 되짚어 보면 이 과정은 일방적인 지적이라기보다, 제품을 함께 단단하게 만드는 대화에 가까웠습니다.

1차 결함리포트 — 5월 27일 접수, 6월 1일 수정 방향 회신
2차 결함리포트 — 6월 2일 접수, 6월 10일 회신
3차 결함리포트 — 6월 10일 접수, 6월 12일 회신

2차 시점을 기준으로 지적은 기능 적합성과 사용성에 집중됐습니다. 이 두 항목에 저희도 가장 많은 시간을 썼습니다.

AI 제품이라 받은 질문

일반 소프트웨어라면 무난히 지나갈 지점에서, AI 제품은 다른 무게의 질문을 받습니다.

"이 답변의 근거는 무엇입니까? 모델이 지어낸 것은 아닌가요?"

기능 적합성 검증의 핵심 질문이었습니다. 저희는 여기서 평소의 설계 원칙을 그대로 근거로 제출했습니다.

"근거가 없으면 '판단 불가'를 선언한다."

지어낸 답을 내지 않는 동작은, 처음엔 제품의 약점으로 보일까 우려했던 부분입니다. 그러나 시험 관점에서는 반대였습니다. 근거 있는 답만 내고 없으면 멈추는 설계는 기능 적합성과 신뢰성을 함께 지키는 근거가 됐습니다. 시험 과정에서는 답변의 출처 문서를 함께 표시하는 기능도 정비해 반영했습니다.

사용성은 감상이 아니라 재현으로

XGEN의 사용자는 개발자가 아니라 현업 담당자입니다. 그래서 "쓰기 쉽다"를 감상으로 말할 수는 없었습니다.

표준화된 절차와 지표를 기준으로, 비개발자가 설명서만 보고 단독으로 제품을 사용할 수 있는지를 재현 가능하게 보여야 했습니다. 이 과정에서 온보딩 흐름과 화면 안내를 다시 설계했고, 시험기관의 기능 확인 요청에는 재현 가능한 데이터와 설명으로 대응했습니다.

정리하며

세 차례의 결함리포트에 저희는 각각 수정 방향을 회신했고, 지적은 기능 적합성과 사용성에 모였습니다. AI 특유의 "근거" 질문에는 '판단 불가' 설계가 답이 됐습니다.

지적을 받으면 고쳐야 합니다. 그리고 고친 것이 다른 곳을 깨뜨리지 않았음을 다시 증명해야 하죠. 다음 편은 제품 패치와 회귀시험, 그리고 보안성입니다.

이전 편 → 시험 첫날, 문서와 제품이 다른 말을 하고 있었습니다 다음 편 → 고치고 나서가 진짜 시작이었습니다