KSEL 심사 과정 가이드 — fingu-tips
TL;DR
KSEL 시험은 "우리가 자체 측정한 7개 AI 성능 점수를 공인기관이 직접 같은 데이터로 다시 측정해서 진짜인지 확인해 주는 자리"입니다. 시험관(윤여종 센터장)이 우리 사무실에 와서 약 3~4시간 동안 ① 서버 사양 확인 → ② 데이터셋 확인 → ③ 로그 확인 → ④ 코드 확인 → ⑤ 단건 시연 → ⑥ 본 측정 순으로 진행합니다. 결과서는 6월 2일 또는 4일에 도착하며, 이를 TIPS 최종보고에 첨부합니다. 우리가 사전에 자체 점수를 만들어 둔 상태이고 시험관은 이를 재현하는 것뿐이라 큰 사고만 없으면 통과 예상.
1. KSEL 심사가 뭔가요
한 줄 정의
KSEL (한국아이티평가원)은 정부가 인정한 공인 시험기관 중 하나로, "이 소프트웨어의 성능이 진짜로 광고대로 나오는가"를 객관적으로 확인해 주고 공인성적서를 발급합니다.
왜 받아야 하나요
우리는 정부 R&D 지원사업인 TIPS를 수행했고, 종료 보고할 때 "AI 성능 지표 7개가 목표치를 달성했다"는 점을 자체 주장이 아닌 공인기관 도장으로 증명해야 합니다. KSEL이 그 도장을 찍어 주는 곳입니다.
일반 검수와 뭐가 다른가요
| 구분 | 일반 검수 | KSEL 공인 시험 |
|---|---|---|
| 주체 | 고객·발주처 | 국가 공인 기관 |
| 결과물 | 회의록·이메일 회신 | 공인성적서 (PDF, 도장) |
| 법적 효력 | 당사자 간 | 대정부 제출 가능 |
| 측정 환경 | 고객 환경 | 우리 측 환경 (시험관 현장 방문) |
2. 시험 일정·장소·인원
- 시험 일자
- 2026년 5월 20일 (수) 13:30 시작
- 예상 소요
- 약 3~4시간 (사양 확인 30분 + 데이터·코드 확인 1시간 + 시연·측정 1.5~2시간)
- 장소
- 그린다에이아이 · 대전광역시 유성구 대학로 99, 대전 팁스타운 510호
- 시험 기관
- 한국아이티평가원 (KSEL)
- 주요 시험관
- 윤여종 센터장
- 녹화 의무
- 시험 PC 화면 녹화 필수 (시험관 요청)
- 결과서 수령
- 2026년 6월 2일(화) 또는 6월 4일(목)
- TIPS 최종 마감
- 당초 5월 20일이었으나 6월 5일까지로 연기 합의
3. 시험 6단계 흐름
아래 순서로 시험관이 우리 시스템을 확인합니다. 각 단계마다 우리가 무엇을 준비해 두었는지 함께 정리했습니다.
1사양 확인 — 시험 환경이 적정한가
무엇을 하나: 시험관이 우리 시험 PC(맥북)와 운영 서버(AWS 클라우드)의 사양이 측정에 적합한지 확인합니다. 예: "메모리가 충분한가, AI 모델이 실제로 떠 있는가."
우리가 보여줄 것:
- 시험 PC — MacBook Pro M2 Pro, 32GB 메모리, macOS 15.7
- 운영 서버 — AWS EC2 t4g.xlarge (4코어, 16GB 메모리, ARM칩), Amazon Linux 2023, 디스크 50GB
- 리버스 프록시(중계 서버) — nginx + Cloudflare 보안 인증서
준비 상태: 완료 — KSEL 검토자가 명령어 1줄(curl …/api/health)로 사양·배포 ID를 즉시 확인 가능. 별도 문서로 정리됨 (docs/10-test-environment-spec.md v1.1).
2데이터셋 확인 — 측정에 쓸 시험지가 진짜인가
무엇을 하나: KPI 7개를 평가할 데이터(질문·정답 쌍)가 정말 존재하는지, 사전에 임의로 조작되지 않았는지 시험관이 직접 엑셀을 열어 확인합니다.
우리가 보여줄 것: KPI별 데이터셋 7종 (총 15,050건) — 모두 엑셀(CSV) 형태로 제공.
| KPI | 건수 | 출처 | 정답 라벨 |
|---|---|---|---|
| ① 재무 QA | 1,050 | GPT-4o-mini 합성 | 있음 |
| ② 텍스트 분류 | 1,000 | GPT-4o-mini 합성 | 있음 |
| ③ BLEU 번역 | 500 | 참고문서 기재 | 있음 |
| ④ 처리속도 | 10,000 | Faker 생성 | 없음 (의도) |
| ⑤ 개인화 추천 | 500 | 참고문서 기재 | 참고용만 |
| ⑥ 금융 검색 | 1,000 | GPT-4o-mini 합성 | 있음 |
| ⑦ 상품추천 | 1,000 | Faker 생성 | 있음 |
준비 상태: 완료 — 각 데이터셋 옆에 출처·라이선스·생성 명령이 적힌 메타 문서(_source.md) 동봉. 시험관이 직접 재생성도 가능.
3실시간 로그 확인 — 시험 중 거짓말은 없는가
무엇을 하나: 시험관이 별도 노트북에서 우리 서버 로그를 실시간으로 보면서, 측정이 진짜로 일어나고 있는지 확인합니다. "측정 버튼을 눌렀는데 뒤에서 가짜 결과를 박는 게 아닌지" 검증.
우리가 보여줄 것:
/admin/logs페이지 — 브라우저에서 실시간 로그가 흐르는 화면 (KSEL 검토자용 토큰으로 보호)- SSH 터미널 —
docker logs -f명령으로 같은 로그를 다른 각도로 확인 - 로그 다운로드 — 시험 후 CSV/JSONL로 받아갈 수 있음
준비 상태: 완료 — 로그에 자동으로 "어느 시점에 어떤 사용자 입력이 어떤 결과를 냈는지" 기록. 비밀번호 같은 민감정보는 자동 마스킹됨.
4소스코드 확인 — 진짜 AI 모델을 쓰는가
무엇을 하나: 측정 결과가 그럴듯해 보여도 실제로는 미리 답을 박아둔(stub) 게 아닌지, 진짜로 AI 모델 라이브러리가 호출되는지 코드에서 확인합니다.
우리가 보여줄 것: 컨테이너 안 라이브러리 버전 (pip freeze 명령)
| 라이브러리 | 버전 | 역할 |
|---|---|---|
| torch | 2.11.0+cpu | AI 모델 실행 엔진 |
| transformers | 5.8.0 | HuggingFace 모델 로딩 |
| sentence-transformers | 5.4.1 | 검색·임베딩 (KPI ⑥) |
| anthropic | 0.101.0 | Claude 호출 (채팅) |
| openai | 2.36.0 | OpenAI 호출 (보조) |
그리고 KPI별 사용 모델 매핑 표(docs/09-real-pipeline-models.md)도 함께 제시.
준비 상태: 완료 — 실제 운영 시점에 ENABLE_REAL_PIPELINE=true 로 설정되어 있어 stub 모드가 아닙니다 (실측 헬스체크에서 확인).
5단건 시연 — 한 번 눌러서 정상 동작하는가
무엇을 하나: 시험관이 우리 데모 사이트(fingu.grinda.ai)에 직접 접속해서, 채팅 한 줄을 입력하거나 추천 버튼을 한 번 눌러서 7개 KPI 각각이 정상적으로 점수를 내는지 1건씩 확인합니다.
우리가 보여줄 것:
/chat페이지 — 채팅 한 줄 입력 → 우측 패널에 KPI ①②③⑤⑥ 점수 5개가 즉시 표시됨/recommend페이지 — 페르소나(가상 사용자) 선택 시 상품 Top-10 + KPI ⑦ F1 점수 표시/analysis페이지 — 처리속도(KPI ④) 1분짜리 측정 1회 진행
준비 상태: 완료 — 가상 사용자 6명(jiyu/eunyoung/minjae 등) 시연용 데이터가 미리 준비됨. 시험관 페르소나만 바꾸면 모든 화면이 자동 갱신.
6본 측정 — 준비된 데이터셋으로 KPI 7개 일괄 측정
무엇을 하나: 단건 시연이 끝나면, 준비된 데이터셋 전체(약 15,000건)로 7개 KPI를 한 번에 측정합니다. 시험관은 진행률 바를 보면서 결과가 누적되는 것을 실시간으로 관찰. 다 끝나면 최종 점수 7개가 화면에 표시됩니다.
측정 방식:
- KPI ①②③⑤⑥ — 채팅 화면 우측 "성능 대량측정 모드"에서 CSV 업로드 → 자동 측정 (5건 병렬)
- KPI ⑦ — 추천 화면 우측 "측정 모드"에서 CSV 업로드 → 사용자별 추천 정확도 누적
- KPI ④ — 처리속도는 1분 × 5회 반복 측정 (변동성 확인용). App 레벨에서 진행되어 페이지를 옮겨도 백그라운드 유지
준비 상태: 완료 — 모든 KPI의 측정 결과가 자동으로 서버에 JSON 파일로 저장됨. 시험관이 시험 후 결과 파일을 받아갈 수 있음.
4. 7개 지표 의미 (비전공자용 설명)
뭘 측정: AI가 금융 시나리오 질문(예: "내 카드값이 갑자기 늘었는데 왜 그럴까")에 얼마나 정확히 답하는가
비유: 100문제 시험에서 정답률·놓친답률을 균형 있게 잰 점수 (높을수록 좋음, 최대 100)
뭘 측정: 사용자 발화의 의도(내역조회 / 지출분석 / 추천 / 계획 등)를 얼마나 잘 분류하는가
비유: 손님이 한 말을 듣고 "이건 환불 요청이야"라고 정확히 분류하는 능력
뭘 측정: 우리가 추가 학습시킨 LLM이 정답 답변과 얼마나 비슷하게 답하는가
비유: 모범답안과 학생답안의 단어 일치 정도를 자동 채점하는 점수
뭘 측정: 금융 데이터 파이프라인이 분당 몇 건을 처리할 수 있고, 처리 중 데이터가 손상되지 않는가
비유: 1분에 영수증 500장을 정리하면서 한 장도 빠뜨리거나 잘못 옮기지 않는가
뭘 측정: 사용자 프로필에 맞춘 답변이 정말 그 사람에게 잘 어울리는가
비유: 25살 사회초년생에게 "은퇴 대비 연금 추천"이 아니라 "비상금 만들기"를 제안하는 적절성
뭘 측정: 금융 질문 1,000건에 대해 상위 5개 검색 결과 안에 정답이 얼마나 포함되는가
비유: 도서관에서 책을 찾을 때 추천 받은 책 5권 중에 정답 책이 있는 비율
뭘 측정: 추천한 Top-10 상품이 실제로 사용자가 가입할 만한 상품인가
비유: "당신께 추천드린 카드 10장" 중 사용자가 실제로 신청한 카드 비율
5. 통과·조건부·불통과
각 KPI마다 세 단계로 판정됩니다.
| 판정 | 의미 | 예시 (KPI ①: 목표 71.07) |
|---|---|---|
| PASS (통과) | 목표값 이상 — 그대로 합격 | 71.07 이상 |
| CONDITIONAL (조건부) | 목표보다 약간 낮지만 허용 범위 — TIPS 평가 시 사유 설명 가능 | 65 ~ 71 |
| FAIL (불통과) | 허용 범위 미달 — 재시험 또는 사업 종료보고 영향 | 65 미만 |
6. 시험 당일 시간표 (예상)
7. 결과 일정 · 다음 단계
- 2026-05-20 (수) — 시험 종료 직후 임시 결과값 7개 확보 (구두 확인)
- 2026-05-21 ~ 6-01 — KSEL 내부 검토 + 결과서 작성 (약 2주)
- 2026-06-02 (화) 또는 6-04 (목) — 공인성적서 PDF 수령
- 2026-06-05 (금) — TIPS 최종 종료보고에 공인성적서 첨부 제출
변경된 일정
당초 TIPS 마감은 5월 20일이었으나, KSEL 결과서 작성 기간을 감안해 6월 5일까지 연기가 합의되었습니다 (5월 11일 메시지 참조).
8. 자주 묻는 질문
- Q. 시험관이 점수가 안 나오면 어떻게 되나요?
- A. 해당 KPI만 "조건부" 또는 "불통과" 판정. 다른 KPI는 영향 없음. 조건부는 사유서로 TIPS 평가 통과 가능, 불통과는 재시험 옵션 있음.
- Q. 시험 당일 서버가 다운되면?
- A. 백업 — (1) 모바일 핫스팟으로 네트워크 복구, (2) Vercel 데모(
fingu-tips-rnd-evaluation.vercel.app)로 임시 전환 (단, stub 모드라 점수 일관성 다름), (3) 부득이 시 시험 연기 협의. - Q. KPI ⑤ 개인화 추천에 정답이 없다는데, 어떻게 점수가 나오나요?
- A. 우리 모델이 4가지 다른 추천 전략(Basic / Recommendation Driven / Engagement Guided / Rec+Engagement)으로 답을 내고, 그중 가장 높은 점수의 전략과 기본 전략을 비교하는 방식. 시험관에게 사전 설명 필요.
- Q. KSEL과 KOLAS 둘 다 받아야 하나요?
- A. 사업계획서에는 KOLAS도 언급되어 있지만, 우선 KSEL 한 곳으로 진행. 추후 KOLAS 추가 인증은 별도 검토.
- Q. 시험 결과가 우리 자체 측정과 다르게 나올 수 있나요?
- A. 우리는 모든 측정에 고정 시드(20260514)를 적용했고 데이터셋도 동일하므로 시험관 측정과 우리 측정이 같은 값이 나옵니다. AI 모델 호출에서 발생하는 미세한 변동은 1% 미만으로 합격선 영향 없음.
- Q. 시험관이 영상 녹화는 왜 요청하나요?
- A. 시험관 KSEL 내부 검토 시 화면 증거가 필요합니다. 영상은 KSEL이 보관하며, 우리도 사본을 받아 TIPS 종료보고에 함께 제출할 수 있습니다.
- Q. 우리가 시험 결과를 미리 알 수 있나요?
- A. 시험 종료 시점에 화면에서 7개 점수를 함께 봅니다. 공식 PDF는 2주 후 도착.