GS 인증 준비기 — 우리가 '판단 불가'를 자랑한 이유

솔직히 처음엔 가볍게 봤습니다. "인증이야 문서 잘 정리하고, 되는 걸 보여주면 되겠지." 그런데 GS 인증 시험에 실제로 들어가 보니, 이건 서류 심사가 아니라 선언한 품질과 실제 동작이 일치하는지를 제3자가 끝까지 파고드는 과정이었습니다. 특히 AI 기반 소프트웨어에는, 기존 패키지 SW와는 완전히 다른 각도의 질문이 쏟아졌습니다.

그 과정에서 배운 것을 준비기처럼 남깁니다.

"문서 심사"가 아니었다

GS(Good Software) 인증은 「소프트웨어 진흥법」에 근거한 국가 공인 소프트웨어 품질인증입니다. 지정된 공인 시험기관이 ISO/IEC 25000 계열 국제표준을 기준으로 제품을 시험합니다. 그리고 이 인증이 까다로운 건, 세 가지를 동시에 맞춰야 하기 때문입니다.

제품 명세서 — 무엇을 만들었다고 문서로 선언했는가
사용자 설명서 — 그 설명만 보고 사용자가 실제로 쓸 수 있는가
실행 소프트웨어 — 선언한 대로 정말 동작하는가

셋 중 하나만 어긋나도 티가 납니다. 명세서에 "된다"고 적어놓고 시연에서 막히면, 그 순간 신뢰가 무너집니다. 그래서 준비의 본질은 "잘 써낸 문서"가 아니라 "문서와 코드가 같은 말을 하게 만드는 일" 이었습니다.

AI라서 무거웠던 질문들

전통적인 소프트웨어라면 무난히 지나갈 항목에서, AI 제품은 다른 무게의 질문을 받습니다.

"이 답변의 근거는 무엇인가? 모델이 그럴듯하게 지어낸 것은 아닌가?"

기능 적합성 검증에서 우리가 마주한 핵심 질문이었습니다. 일반 소프트웨어는 "입력 → 정해진 출력"이 명확하지만, AI는 같은 질문에도 다르게 답할 수 있으니까요. 그래서 우리는 평소 자랑처럼 이야기하던 설계 원칙 하나를 그대로 증거로 제출했습니다.

"근거가 없으면 '판단 불가'를 선언한다."

지어낸 답을 내지 않는 것 — 처음엔 이게 제품의 약점처럼 보일까 걱정했습니다. "모른다"고 답하는 AI라니. 그런데 시험 관점에서는 정반대였습니다. 근거 있는 답만 내고 없으면 멈추는 동작은, 기능 적합성과 신뢰성을 동시에 지키는 근거가 되었습니다. 우리가 '판단 불가'를 자랑하게 된 이유입니다.

가장 까다로웠던 것 — 신뢰성과 사용성

두 항목이 특히 손이 많이 갔습니다.

신뢰성. "정상 동작"은 누구나 보여줍니다. 어려운 건 예외 상황입니다. 외부 도구 호출이 실패하면? 모델 응답이 지연되면? 우리는 이런 실패 경로 하나하나에 대해 "안전하게 멈추고 복구되는가"를 스스로 증명해야 했습니다. 정상 케이스 시연보다 실패 케이스 설계에 훨씬 더 많은 시간이 들어갔습니다.

사용성. 우리 제품의 사용자는 개발자가 아니라 현업 담당자입니다. 그래서 "사용하기 쉽다"를 감상으로 말할 수 없었습니다. 표준화된 절차와 지표로, 비개발자가 설명서만 보고 단독으로 사용할 수 있는지를 재현 가능하게 남겨야 했습니다. 이 과정에서 제품의 온보딩 흐름을 여러 번 다시 설계했습니다.

'주장'이 아니라 '검증' — 우리가 지킨 원칙

준비하며 스스로에게 건 기준은 결과 수치가 아니라 방법이었습니다.

정량으로 기록한다. "쓰기 쉽다"는 주관을 표준 척도로, 정확성은 재현 가능한 벤치마크로 남깁니다.
AI 고유의 품질을 정의한다. 정확도·응답성, 그리고 근거율(환각 최소화)처럼 AI에만 존재하는 축을 품질 기준에 명시합니다.
재현 가능한 시험 환경을 만든다. 온프레미스·클라우드 등 실제 배포 환경에서 같은 결과가 나오는지 확인합니다. 데이터 주권이 필요한 금융·공공을 전제로 설계합니다.
테스트를 먼저 쌓는다. 품질은 문서가 아니라 테스트로 증명됩니다.

지금, 정직하게

XGEN Agentic AI Platform은 GS 인증 시험·평가를 완료하고 최종 인증 결과를 기다리는 단계입니다. 결과를 앞당겨 "획득"이라 말하지 않습니다. 인증은 목표가 아니라, 검증 가능한 품질을 만들어 가는 과정의 한 지점이니까요.

같은 길을 준비하는 팀에게

문서·테스트·정량 근거를 설계 초기부터 녹이세요. 나중에 붙이면 늘 부족합니다.
정상 케이스보다 실패 케이스에 시간을 쓰세요. 신뢰성은 거기서 갈립니다.
정확도·응답성·근거율 같은 AI 특화 메트릭을 먼저 정의하세요.
충분한 기간을 잡으세요. 서류와 시험은 늘 예상보다 깁니다.

품질은 한 장의 인증서가 아니라, 매 릴리스마다 반복해 증명하는 것이라고 믿습니다. 우리는 그 원칙 위에서 XGEN을 만들고 있습니다.