AIO 20003 · 벤치마크

V/E/S 분포로 측정하는 첫 공개 벤치마크

이 AI 가 안전한가 라는 이분법 대신, 이 AI 가 어떤 가치 위계로 답하는가 를 측정합니다. 8 frontier 모델 × 366,120 응답의 분포 데이터를 인터랙티브 대시보드에서 직접 탐색하실 수 있습니다.

목표

AIO 20003 — 기록된 판단을 설정과 대조해 분석한다

표준 번호가 곧 목표 선언입니다. 2·00·0·3 네 자리는 이 문서가 누구의, 어느 영역의, 어떤 행위를 다루는지 말합니다.

주체

단체 — 조직·기관·커뮤니티

영역

공통 — 도메인 무관

일련

기본 문서

행위

분석 — 기록이 설정과 정합하는지 평가한다

이 표준이 정하는 것 — 측정 절차(도메인별 가치 충돌 프롬프트), V/E/S 분포 집계 방식, 분포 간 거리 지표(KL divergence, Wasserstein distance). 정하지 않는 것 — 어느 모델이 좋은 모델인지. 분포는 기술(記述)이지 순위 판정이 아닙니다(비규범).

루프 위치

무결성 루프의 3단계 — 분석

1설정→2기록→3분석→4적용

이전 단계 AIO 20002 · 컴플라이언스 로깅이 남긴 기록을 여기서 분석합니다. 같은 분석 칸의 하위 표준으로 AIO 20013 · Risk Signal Card(일련 1 — 분석 결과의 표준 보고 카드)가 있으며, 다음 단계인 적용(AIO 20004)은 예정 단계입니다.

표준 문서

측정 절차

도메인별 가치 충돌 프롬프트 세트를 설계 (예: 의료 자율성 vs. 임상 성취).
각 모델에 동일 프롬프트를 전달, 응답 + AIO 20002 로그 emit 요청.
응답의 AIO 20002 로그를 어휘 사전과 대조 검증.
V/E/S 코드별 빈도 분포를 도메인·모델 별로 집계.
분포 간 거리 (KL divergence, Wasserstein distance) 계산.

프롬프트 세트·모델 응답·어휘 사전·분석 스크립트 전체가 공개 데이터셋으로 배포되며, 전체 방법론은 NeurIPS 2026 제출 논문 PDF에 기술되어 있습니다.

이 목표를 위한 도구

모델·도메인·계층을 선택하여 직접 탐색하세요

아래 대시보드에서 모델과 계층 (L2 출처 · L3 증거 · L4 가치) 을 선택하면 win-rate 위계와 도메인별 1순위 변수가 즉시 표시됩니다. 더 깊은 탐색은 Explorer, 모델별 리포트는 Model Profiles에서 — 두 도구 모두 AIO 20003 의 도구입니다.

모델 목록을 불러오는 중…

채택·사례

현재 공개된 데이터

Frontier 모델 (논문 기준 — 그리드에는 이후 추가 측정 1개 포함 9개)

366K

응답 (366,120 conversations)

도메인 (MED / BIZ / TECH / EDU / LAW / DEF / CARE)

어휘 코드 (V19 + E10 + S10)

채택·사례

핵심 발견 (요약)

동일 프롬프트에서 모델 간 V 위계는 40% 이상 불일치. 어떤 모델은 Ach 를, 어떤 모델은 Sdt 를 우선.
모든 모델이 의료 도메인에서 학술 출처 (Pee) 를 강하게 우선했지만, 법률 도메인에서는 가이드라인 (Gui) 으로 크게 이동.
65세 이상을 대상으로 한 응답에서 권력·지배 (Pod) 가 자기방향 (Sdt) 을 누르는 경우가 평균 대비 9배 빈번 — 모든 모델에서 공통.

위 발견과 전체 결과는 NeurIPS 2026 제출 논문 PDF 에서 확인할 수 있습니다.

참여

누구나 재현할 수 있게

벤치마크의 프롬프트 세트, 모델 응답, 어휘 사전, 분석 스크립트는 모두 공개 데이터셋으로 배포됩니다. 새 모델을 평가하거나, 새 도메인 프롬프트를 추가하거나, 분석 결과를 재현하실 수 있습니다.

AIO20002 데이터셋 페이지로 →