KSEL 심사 과정 가이드 — fingu-tips

2026-05-19 작성 (시험 D-1) · 한국아이티평가원(KSEL) 현장 시험 · 2026-05-20 (수) 13:30 @ 그린다에이아이 · 비개발자도 이해할 수 있도록 정리

TL;DR

KSEL 시험은 "우리가 자체 측정한 7개 AI 성능 점수를 공인기관이 직접 같은 데이터로 다시 측정해서 진짜인지 확인해 주는 자리"입니다. 시험관(윤여종 센터장)이 우리 사무실에 와서 약 3~4시간 동안 ① 서버 사양 확인 → ② 데이터셋 확인 → ③ 로그 확인 → ④ 코드 확인 → ⑤ 단건 시연 → ⑥ 본 측정 순으로 진행합니다. 결과서는 6월 2일 또는 4일에 도착하며, 이를 TIPS 최종보고에 첨부합니다. 우리가 사전에 자체 점수를 만들어 둔 상태이고 시험관은 이를 재현하는 것뿐이라 큰 사고만 없으면 통과 예상.

1. KSEL 심사가 뭔가요

한 줄 정의

KSEL (한국아이티평가원)은 정부가 인정한 공인 시험기관 중 하나로, "이 소프트웨어의 성능이 진짜로 광고대로 나오는가"를 객관적으로 확인해 주고 공인성적서를 발급합니다.

왜 받아야 하나요

우리는 정부 R&D 지원사업인 TIPS를 수행했고, 종료 보고할 때 "AI 성능 지표 7개가 목표치를 달성했다"는 점을 자체 주장이 아닌 공인기관 도장으로 증명해야 합니다. KSEL이 그 도장을 찍어 주는 곳입니다.

일반 검수와 뭐가 다른가요

구분	일반 검수	KSEL 공인 시험
주체	고객·발주처	국가 공인 기관
결과물	회의록·이메일 회신	공인성적서 (PDF, 도장)
법적 효력	당사자 간	대정부 제출 가능
측정 환경	고객 환경	우리 측 환경 (시험관 현장 방문)

핵심 포인트 — 시험관은 "우리가 자체 측정한 점수를 같은 데이터·같은 코드로 자기 눈앞에서 재현 가능한가"만 확인합니다. 새로운 알고리즘을 만들거나 우리 시스템을 평가하는 게 아닙니다.

2. 시험 일정·장소·인원

시험 일자: 2026년 5월 20일 (수) 13:30 시작
예상 소요: 약 3~4시간 (사양 확인 30분 + 데이터·코드 확인 1시간 + 시연·측정 1.5~2시간)
장소: 그린다에이아이 · 대전광역시 유성구 대학로 99, 대전 팁스타운 510호
시험 기관: 한국아이티평가원 (KSEL)
주요 시험관: 윤여종 센터장
녹화 의무: 시험 PC 화면 녹화 필수 (시험관 요청)
결과서 수령: 2026년 6월 2일(화) 또는 6월 4일(목)
TIPS 최종 마감: 당초 5월 20일이었으나 6월 5일까지로 연기 합의

3. 시험 6단계 흐름

아래 순서로 시험관이 우리 시스템을 확인합니다. 각 단계마다 우리가 무엇을 준비해 두었는지 함께 정리했습니다.

1사양 확인 — 시험 환경이 적정한가

무엇을 하나: 시험관이 우리 시험 PC(맥북)와 운영 서버(AWS 클라우드)의 사양이 측정에 적합한지 확인합니다. 예: "메모리가 충분한가, AI 모델이 실제로 떠 있는가."

우리가 보여줄 것:

시험 PC — MacBook Pro M2 Pro, 32GB 메모리, macOS 15.7
운영 서버 — AWS EC2 t4g.xlarge (4코어, 16GB 메모리, ARM칩), Amazon Linux 2023, 디스크 50GB
리버스 프록시(중계 서버) — nginx + Cloudflare 보안 인증서

준비 상태: 완료 — KSEL 검토자가 명령어 1줄(curl …/api/health)로 사양·배포 ID를 즉시 확인 가능. 별도 문서로 정리됨 (docs/10-test-environment-spec.md v1.1).

2데이터셋 확인 — 측정에 쓸 시험지가 진짜인가

무엇을 하나: KPI 7개를 평가할 데이터(질문·정답 쌍)가 정말 존재하는지, 사전에 임의로 조작되지 않았는지 시험관이 직접 엑셀을 열어 확인합니다.

우리가 보여줄 것: KPI별 데이터셋 7종 (총 15,050건) — 모두 엑셀(CSV) 형태로 제공.

KPI	건수	출처	정답 라벨
① 재무 QA	1,050	GPT-4o-mini 합성	있음
② 텍스트 분류	1,000	GPT-4o-mini 합성	있음
③ BLEU 번역	500	참고문서 기재	있음
④ 처리속도	10,000	Faker 생성	없음 (의도)
⑤ 개인화 추천	500	참고문서 기재	참고용만
⑥ 금융 검색	1,000	GPT-4o-mini 합성	있음
⑦ 상품추천	1,000	Faker 생성	있음

준비 상태: 완료 — 각 데이터셋 옆에 출처·라이선스·생성 명령이 적힌 메타 문서(_source.md) 동봉. 시험관이 직접 재생성도 가능.

주의 — KPI ⑤(개인화 추천)는 "정답"이 존재하지 않는 항목입니다. 대신 우리 모델의 4가지 추천 전략을 비교해 점수를 매기는 방식이라, 시험관에게 사전에 충분히 설명해야 합니다.

3실시간 로그 확인 — 시험 중 거짓말은 없는가

무엇을 하나: 시험관이 별도 노트북에서 우리 서버 로그를 실시간으로 보면서, 측정이 진짜로 일어나고 있는지 확인합니다. "측정 버튼을 눌렀는데 뒤에서 가짜 결과를 박는 게 아닌지" 검증.

우리가 보여줄 것:

/admin/logs 페이지 — 브라우저에서 실시간 로그가 흐르는 화면 (KSEL 검토자용 토큰으로 보호)
SSH 터미널 — docker logs -f 명령으로 같은 로그를 다른 각도로 확인
로그 다운로드 — 시험 후 CSV/JSONL로 받아갈 수 있음

준비 상태: 완료 — 로그에 자동으로 "어느 시점에 어떤 사용자 입력이 어떤 결과를 냈는지" 기록. 비밀번호 같은 민감정보는 자동 마스킹됨.

4소스코드 확인 — 진짜 AI 모델을 쓰는가

무엇을 하나: 측정 결과가 그럴듯해 보여도 실제로는 미리 답을 박아둔(stub) 게 아닌지, 진짜로 AI 모델 라이브러리가 호출되는지 코드에서 확인합니다.

우리가 보여줄 것: 컨테이너 안 라이브러리 버전 (pip freeze 명령)

라이브러리	버전	역할
torch	2.11.0+cpu	AI 모델 실행 엔진
transformers	5.8.0	HuggingFace 모델 로딩
sentence-transformers	5.4.1	검색·임베딩 (KPI ⑥)
anthropic	0.101.0	Claude 호출 (채팅)
openai	2.36.0	OpenAI 호출 (보조)

그리고 KPI별 사용 모델 매핑 표(docs/09-real-pipeline-models.md)도 함께 제시.

준비 상태: 완료 — 실제 운영 시점에 ENABLE_REAL_PIPELINE=true 로 설정되어 있어 stub 모드가 아닙니다 (실측 헬스체크에서 확인).

5단건 시연 — 한 번 눌러서 정상 동작하는가

무엇을 하나: 시험관이 우리 데모 사이트(fingu.grinda.ai)에 직접 접속해서, 채팅 한 줄을 입력하거나 추천 버튼을 한 번 눌러서 7개 KPI 각각이 정상적으로 점수를 내는지 1건씩 확인합니다.

우리가 보여줄 것:

/chat 페이지 — 채팅 한 줄 입력 → 우측 패널에 KPI ①②③⑤⑥ 점수 5개가 즉시 표시됨
/recommend 페이지 — 페르소나(가상 사용자) 선택 시 상품 Top-10 + KPI ⑦ F1 점수 표시
/analysis 페이지 — 처리속도(KPI ④) 1분짜리 측정 1회 진행

준비 상태: 완료 — 가상 사용자 6명(jiyu/eunyoung/minjae 등) 시연용 데이터가 미리 준비됨. 시험관 페르소나만 바꾸면 모든 화면이 자동 갱신.

6본 측정 — 준비된 데이터셋으로 KPI 7개 일괄 측정

무엇을 하나: 단건 시연이 끝나면, 준비된 데이터셋 전체(약 15,000건)로 7개 KPI를 한 번에 측정합니다. 시험관은 진행률 바를 보면서 결과가 누적되는 것을 실시간으로 관찰. 다 끝나면 최종 점수 7개가 화면에 표시됩니다.

측정 방식:

KPI ①②③⑤⑥ — 채팅 화면 우측 "성능 대량측정 모드"에서 CSV 업로드 → 자동 측정 (5건 병렬)
KPI ⑦ — 추천 화면 우측 "측정 모드"에서 CSV 업로드 → 사용자별 추천 정확도 누적
KPI ④ — 처리속도는 1분 × 5회 반복 측정 (변동성 확인용). App 레벨에서 진행되어 페이지를 옮겨도 백그라운드 유지

준비 상태: 완료 — 모든 KPI의 측정 결과가 자동으로 서버에 JSON 파일로 저장됨. 시험관이 시험 후 결과 파일을 받아갈 수 있음.

4. 7개 지표 의미 (비전공자용 설명)

① 재무 F1목표 71.07

뭘 측정: AI가 금융 시나리오 질문(예: "내 카드값이 갑자기 늘었는데 왜 그럴까")에 얼마나 정확히 답하는가

비유: 100문제 시험에서 정답률·놓친답률을 균형 있게 잰 점수 (높을수록 좋음, 최대 100)

② 텍스트 분류 정확도목표 99.0%

뭘 측정: 사용자 발화의 의도(내역조회 / 지출분석 / 추천 / 계획 등)를 얼마나 잘 분류하는가

비유: 손님이 한 말을 듣고 "이건 환불 요청이야"라고 정확히 분류하는 능력

③ BLEU (파인튜닝 LLM)목표 78

뭘 측정: 우리가 추가 학습시킨 LLM이 정답 답변과 얼마나 비슷하게 답하는가

비유: 모범답안과 학생답안의 단어 일치 정도를 자동 채점하는 점수

④ 처리속도 + 무결성목표 500건/분 + 99.9% 무결성

뭘 측정: 금융 데이터 파이프라인이 분당 몇 건을 처리할 수 있고, 처리 중 데이터가 손상되지 않는가

비유: 1분에 영수증 500장을 정리하면서 한 장도 빠뜨리거나 잘못 옮기지 않는가

⑤ 개인화 추천 (LLM-Rec)목표 0.31

뭘 측정: 사용자 프로필에 맞춘 답변이 정말 그 사람에게 잘 어울리는가

비유: 25살 사회초년생에게 "은퇴 대비 연금 추천"이 아니라 "비상금 만들기"를 제안하는 적절성

⑥ 금융 정보 검색 (NQ Recall@5)목표 64.06

뭘 측정: 금융 질문 1,000건에 대해 상위 5개 검색 결과 안에 정답이 얼마나 포함되는가

비유: 도서관에서 책을 찾을 때 추천 받은 책 5권 중에 정답 책이 있는 비율

⑦ 상품 추천 F1목표 86

뭘 측정: 추천한 Top-10 상품이 실제로 사용자가 가입할 만한 상품인가

비유: "당신께 추천드린 카드 10장" 중 사용자가 실제로 신청한 카드 비율

5. 통과·조건부·불통과

각 KPI마다 세 단계로 판정됩니다.

판정	의미	예시 (KPI ①: 목표 71.07)
PASS (통과)	목표값 이상 — 그대로 합격	71.07 이상
CONDITIONAL (조건부)	목표보다 약간 낮지만 허용 범위 — TIPS 평가 시 사유 설명 가능	65 ~ 71
FAIL (불통과)	허용 범위 미달 — 재시험 또는 사업 종료보고 영향	65 미만

판정 기준은 docs/07-pass-criteria.md 에 KPI별 수치로 명시되어 있습니다. KSEL 시험관은 이 기준을 그대로 적용해 성적서를 발급합니다.

6. 시험 당일 시간표 (예상)

13:00 — 시험관 도착 · 시험 PC 준비 · 녹화 시작 · 사무실 LAN 접속 점검

13:30 — 시험 공식 개시 · 사양 확인 30분 (1단계)

14:00 — 데이터셋 확인 30분 + 로그 확인 30분 (2~3단계)

15:00 — 소스코드 확인 30분 + 단건 시연 30분 (4~5단계)

16:00 — 본 측정 시작 (6단계) — 7개 KPI 일괄 측정, 약 1~1.5시간 소요 (KPI ④ 처리속도가 1분×5회 = 5분 소요로 가장 오래 걸림)

17:30 — 결과 종합 · 시험관 결과 캡처 · 녹화 종료 · 시험 종료

당일 준비물 — 녹화 가능한 시험용 PC, 모바일 핫스팟(LAN 장애 대비 백업), 별도 노트북 1대(로그 스트리밍용), 사업자등록증 사본

7. 결과 일정 · 다음 단계

2026-05-20 (수) — 시험 종료 직후 임시 결과값 7개 확보 (구두 확인)
2026-05-21 ~ 6-01 — KSEL 내부 검토 + 결과서 작성 (약 2주)
2026-06-02 (화) 또는 6-04 (목) — 공인성적서 PDF 수령
2026-06-05 (금) — TIPS 최종 종료보고에 공인성적서 첨부 제출

변경된 일정

당초 TIPS 마감은 5월 20일이었으나, KSEL 결과서 작성 기간을 감안해 6월 5일까지 연기가 합의되었습니다 (5월 11일 메시지 참조).

8. 자주 묻는 질문

Q. 시험관이 점수가 안 나오면 어떻게 되나요?: A. 해당 KPI만 "조건부" 또는 "불통과" 판정. 다른 KPI는 영향 없음. 조건부는 사유서로 TIPS 평가 통과 가능, 불통과는 재시험 옵션 있음.
Q. 시험 당일 서버가 다운되면?: A. 백업 — (1) 모바일 핫스팟으로 네트워크 복구, (2) Vercel 데모(fingu-tips-rnd-evaluation.vercel.app)로 임시 전환 (단, stub 모드라 점수 일관성 다름), (3) 부득이 시 시험 연기 협의.
Q. KPI ⑤ 개인화 추천에 정답이 없다는데, 어떻게 점수가 나오나요?: A. 우리 모델이 4가지 다른 추천 전략(Basic / Recommendation Driven / Engagement Guided / Rec+Engagement)으로 답을 내고, 그중 가장 높은 점수의 전략과 기본 전략을 비교하는 방식. 시험관에게 사전 설명 필요.
Q. KSEL과 KOLAS 둘 다 받아야 하나요?: A. 사업계획서에는 KOLAS도 언급되어 있지만, 우선 KSEL 한 곳으로 진행. 추후 KOLAS 추가 인증은 별도 검토.
Q. 시험 결과가 우리 자체 측정과 다르게 나올 수 있나요?: A. 우리는 모든 측정에 고정 시드(20260514)를 적용했고 데이터셋도 동일하므로 시험관 측정과 우리 측정이 같은 값이 나옵니다. AI 모델 호출에서 발생하는 미세한 변동은 1% 미만으로 합격선 영향 없음.
Q. 시험관이 영상 녹화는 왜 요청하나요?: A. 시험관 KSEL 내부 검토 시 화면 증거가 필요합니다. 영상은 KSEL이 보관하며, 우리도 사본을 받아 TIPS 종료보고에 함께 제출할 수 있습니다.
Q. 우리가 시험 결과를 미리 알 수 있나요?: A. 시험 종료 시점에 화면에서 7개 점수를 함께 봅니다. 공식 PDF는 2주 후 도착.