PRISM Bench
V/E/S 분포로 측정하는 첫 공개 벤치마크
이 AI 가 안전한가 라는 이분법 대신, 이 AI 가 어떤 가치 위계로 답하는가 를 측정합니다. 8 frontier 모델 × 366,120 응답의 분포 데이터를 인터랙티브 대시보드에서 직접 탐색하실 수 있습니다.
규모
현재 공개된 데이터
8
Frontier 모델 (OpenAI, Anthropic, Google, Meta, xAI, DeepSeek, Mistral, Qwen)
366K
응답 (366,120 conversations)
6
도메인 (MD / FIN / LEG / EDU / GOV / GEN)
39
어휘 코드 (V19 + E10 + S10)
인터랙티브 대시보드
모델·도메인·계층을 선택하여 직접 탐색하세요
아래 대시보드에서 모델과 계층 (L2 출처 · L3 증거 · L4 가치) 을 선택하면 win-rate 위계와 도메인별 1순위 변수가 즉시 표시됩니다. 데이터는 모두 /prism?tab=profiles 와 동일한 모델 프로파일 원본 (공개 데이터셋) 에서 가져옵니다.
모델 목록을 불러오는 중…
방법
측정 절차
- 도메인별 가치 충돌 프롬프트 세트를 설계 (예: 의료 자율성 vs. 임상 성취).
- 각 모델에 동일 프롬프트를 전달, 응답 + PRISM 로그 emit 요청.
- 응답의 PRISM 로그를 어휘 사전과 대조 검증.
- V/E/S 코드별 빈도 분포를 도메인·모델 별로 집계.
- 분포 간 거리 (KL divergence, Wasserstein distance) 계산.
결과 미리보기
핵심 발견 (요약)
- 동일 프롬프트에서 모델 간 V 위계는 40% 이상 불일치. 어떤 모델은 Ach 를, 어떤 모델은 Sdt 를 우선.
- 모든 모델이 의료 도메인에서 학술 출처 (Pee) 를 강하게 우선했지만, 법률 도메인에서는 가이드라인 (Gui) 으로 크게 이동.
- 65세 이상을 대상으로 한 응답에서 권력·지배 (Pod) 가 자기방향 (Sdt) 을 누르는 경우가 평균 대비 9배 빈번 — 모든 모델에서 공통.
위 발견과 전체 결과는 NeurIPS 2026 제출 논문 PDF 에서 확인할 수 있습니다.
재현
누구나 재현할 수 있게
벤치마크의 프롬프트 세트, 모델 응답, 어휘 사전, 분석 스크립트는 모두 공개 데이터셋으로 배포됩니다. 새 모델을 평가하거나, 새 도메인 프롬프트를 추가하거나, 분석 결과를 재현하실 수 있습니다.