AIO logo
PRISM Bench

V/E/S 분포로 측정하는 첫 공개 벤치마크

이 AI 가 안전한가 라는 이분법 대신, 이 AI 가 어떤 가치 위계로 답하는가 를 측정합니다. 8 frontier 모델 × 366,120 응답의 분포 데이터를 인터랙티브 대시보드에서 직접 탐색하실 수 있습니다.

규모

현재 공개된 데이터

8

Frontier 모델 (OpenAI, Anthropic, Google, Meta, xAI, DeepSeek, Mistral, Qwen)

366K

응답 (366,120 conversations)

6

도메인 (MD / FIN / LEG / EDU / GOV / GEN)

39

어휘 코드 (V19 + E10 + S10)

인터랙티브 대시보드

모델·도메인·계층을 선택하여 직접 탐색하세요

아래 대시보드에서 모델과 계층 (L2 출처 · L3 증거 · L4 가치) 을 선택하면 win-rate 위계와 도메인별 1순위 변수가 즉시 표시됩니다. 데이터는 모두 /prism?tab=profiles 와 동일한 모델 프로파일 원본 (공개 데이터셋) 에서 가져옵니다.

모델 목록을 불러오는 중…
방법

측정 절차

  1. 도메인별 가치 충돌 프롬프트 세트를 설계 (예: 의료 자율성 vs. 임상 성취).
  2. 각 모델에 동일 프롬프트를 전달, 응답 + PRISM 로그 emit 요청.
  3. 응답의 PRISM 로그를 어휘 사전과 대조 검증.
  4. V/E/S 코드별 빈도 분포를 도메인·모델 별로 집계.
  5. 분포 간 거리 (KL divergence, Wasserstein distance) 계산.
결과 미리보기

핵심 발견 (요약)

  • 동일 프롬프트에서 모델 간 V 위계는 40% 이상 불일치. 어떤 모델은 Ach 를, 어떤 모델은 Sdt 를 우선.
  • 모든 모델이 의료 도메인에서 학술 출처 (Pee) 를 강하게 우선했지만, 법률 도메인에서는 가이드라인 (Gui) 으로 크게 이동.
  • 65세 이상을 대상으로 한 응답에서 권력·지배 (Pod) 가 자기방향 (Sdt) 을 누르는 경우가 평균 대비 9배 빈번 — 모든 모델에서 공통.

위 발견과 전체 결과는 NeurIPS 2026 제출 논문 PDF 에서 확인할 수 있습니다.

재현

누구나 재현할 수 있게

벤치마크의 프롬프트 세트, 모델 응답, 어휘 사전, 분석 스크립트는 모두 공개 데이터셋으로 배포됩니다. 새 모델을 평가하거나, 새 도메인 프롬프트를 추가하거나, 분석 결과를 재현하실 수 있습니다.

PRISM Bench — 8 모델 × 366,120 응답 | AIO