What is evaluate.club?

evaluate.club is a web-based team evaluation platform that replaces spreadsheet scoring with automated calculation. Create evaluation forms, share secure token-based links with judges, and get instant leaderboards with multiple scoring algorithms (Average, Trimmed Mean, Maximum).

How much does evaluate.club cost?

evaluate.club uses a pay-per-form model with no monthly subscriptions or per-seat fees. You get 20 free credits on signup (enough for 4+ forms). Standard rate is 5 credits per form, with volume discounts available for 30+ credit purchases. Evaluators are always free — unlimited.

Do evaluators need to create an account?

No. Evaluators receive a unique token-based link and verify their identity with a 6-digit email OTP code. No account creation, no passwords, no IT setup required. They simply click the link and start evaluating.

How is evaluation data secured?

Each evaluator gets a unique 32-character cryptographic token. Data is isolated at the organization level — no cross-organization access. Email OTP verification prevents unauthorized submissions. No shared spreadsheets or forwarded files.

What scoring methods are available?

Three scoring algorithms: Simple Average (standard mean of all scores), Trimmed Mean (excludes the highest and lowest scores to prevent bias, requires 3+ evaluators), and Maximum Score (ranks teams by their single highest score from any evaluator).

Can I track team performance across evaluations?

Yes. evaluate.club provides cross-form team tracking with persistent history. You can compare team performance across multiple evaluation rounds, view historical scores, and identify improvement trends over time.

연구비 심사위원회 채점의 구조적 문제 — 공정성을 높이는 5가지 방법

연구비 심사위원회 채점의 공정성은 구조적으로 취약합니다. PNAS 연구에 따르면 독립 심사위원 2인 간 점수 상관관계는 0.34로, 동전 던지기(0.5)보다 낮습니다. NIH는 이 정밀도를 통계적으로 유의미한 수준으로 끌어올리려면 리뷰어 4만 명이 필요하다고 인정했습니다. 본 글에서는 이 구조적 문제의 원인 5가지와, 채점 시스템 설계로 개선하는 실전 방법을 제시합니다.

왜 연구비 심사 채점은 구조적으로 불공정한가

연구비 심사의 불공정성은 개별 심사위원의 역량 문제가 아닙니다. 시스템 설계 자체에 5가지 구조적 결함이 존재합니다.

결함 1: 점수 척도의 정밀도 부족

NIH의 점수 체계는 과거 41단계에서 현재 9단계(1~9점)로 축소되었습니다. 1점과 2점의 차이가 수억 원 규모의 연구비 당락을 결정하지만, 이 1점 차이가 의미하는 바에 대한 심사위원 간 합의는 존재하지 않습니다.

문제	현상	결과
척도 축소	41단계 → 9단계	미세한 질적 차이 반영 불가
기준 모호성	"우수"의 정의가 심사위원마다 다름	같은 제안서에 1점~5점 편차
앵커링 효과	첫 심사위원 점수가 후속 논의 지배	독립적 판단 훼손

결함 2: 평판 기반 편향

PMC 학술 연구(2022)에 따르면, 심사위원은 연구 내용의 학문적 가치보다 신청자의 과거 실적과 소속 기관 평판을 비인식적으로 가중합니다. 이는 "비평 내용이 숫자 점수로 어떻게 변환되는지에 대한 합의 부재"에서 비롯됩니다.

결함 3: 심사위원 확보의 구조적 위기

PNAS(2025) 연구는 심사위원 초청 수락률이 지속적으로 하락하고 있음을 보고합니다. 논문 1편당 필요한 초청 수가 1.9명(2013)에서 2.4명(2018)으로 증가했으며, 이는 경험 있는 심사위원의 피로 누적과 보상 부재가 원인입니다.

결함 4: AI 심사의 양면성

2026년 현재, AI를 심사에 활용하려는 시도와 경계가 동시에 진행되고 있습니다.

활용 사례: Sopact의 AI 사전채점은 500건 기준 심사 시간을 250 person-hours에서 분 단위로 단축했습니다
경계 사례: NIH는 피어리뷰에 생성 AI 사용을 공식 금지했습니다 — 미공개 지원서를 공개 LLM에 업로드 시 기밀 유출 위험 때문입니다
DOGE 사례: 연방 보조금 심사에 루브릭, 캘리브레이션, 감독 없이 ChatGPT만 사용하여 AI 심사 설계 실패의 극단적 공공 사례가 되었습니다

핵심 교훈은 명확합니다: AI는 평가를 "대체"하는 것이 아니라, 투명한 프로세스 내에서 "보조"해야 합니다.

결함 5: 정성평가와 정량평가의 비일관적 통합

정부지원사업 대면평가에서는 사업성, 자금계획, 대표역량이 핵심이며, PSST(Problem-Solution-Scale up-Team) 프레임워크가 자주 사용됩니다. 그러나 정성적 비평과 정량적 점수가 어떻게 통합되는지는 대부분의 심사 시스템에서 불투명합니다.

방법 1: 행동 앵커 루브릭(BARS)으로 척도 정밀도 확보

"우수/보통/미흡" 대신, 각 점수에 구체적 행동 예시를 연결합니다.

[5점] 선행 연구 3편 이상을 구체적으로 인용하며 차별점을 명시함
[3점] 선행 연구를 언급하나 차별점 서술이 추상적임
[1점] 선행 연구 검토가 없거나 관련성 낮은 인용만 포함

이 방식은 심사위원마다 다른 "우수"의 해석을 통일하여 점수 편차를 줄입니다. evaluate.club에서는 각 섹션에 점수별 설명을 포함한 루브릭을 설계할 수 있습니다.

방법 2: 캘리브레이션 세션으로 기준선 정렬

실제 심사 전에 샘플 제안서 1~2건을 전체 심사위원이 함께 채점하고, 점수 차이가 큰 항목에 대해 토론합니다.

캘리브레이션 3단계:

동일 제안서를 독립 채점 (10분)
점수 분포를 공개하고 최대 편차 항목 토론 (15분)
합의된 기준으로 루브릭 보정 후 본 심사 시작

ICLR 2025 실험에서 AI 피드백을 받은 심사위원의 78%가 수정 의향을 보였으나, 실제 수정률은 57%에 그쳤습니다. 이는 캘리브레이션이 AI가 아닌 인간 간 대화로 이루어져야 효과적임을 시사합니다.

방법 3: 정량평가와 정성평가의 명확한 분리

연구비 심사에서 가장 혼란을 일으키는 요소는 정성평가(연구 참신성, 방법론 적절성)와 정량평가(특허 수, 매출 실적, SCI 논문 편수)가 하나의 양식에 뒤섞이는 것입니다.

분리 원칙:

평가 유형	채점 주체	근거
정성평가 (참신성, 실현가능성)	심사위원	전문성 기반 판단
정량평가 (실적, 특허, 재무)	관리자/시스템	객관적 데이터 기반

evaluate.club의 관리자 배점 기능을 사용하면 정량평가 항목을 관리자가 직접 입력하고, 심사위원의 정성평가와 자동 합산할 수 있습니다.

방법 4: Trimmed Mean으로 극단값 영향 차단

심사위원 5인이 동일 제안서에 [2, 7, 8, 8, 9]를 부여한 경우:

단순 평균: 6.8 — 1인의 극단적 낮은 점수가 결과를 왜곡
Trimmed Mean (상하 1개 제외): 7.67 — 합의 수준에 근접

연구비 심사에서 1~2점 차이가 당락을 결정한다는 NIH의 지적을 고려하면, 극단값 처리는 선택이 아닌 필수입니다. evaluate.club은 Average, Trimmed Mean, Maximum 3가지 채점 방식을 지원합니다.

방법 5: 감사 추적(Audit Trail)으로 투명성 확보

NIST는 AI 기반 보조금 관리에 대해 "인간 감독, 감사 가능성, 투명성"을 필수 요건으로 권고합니다. AI 사용 여부와 무관하게, 모든 심사 과정에 다음 기록이 남아야 합니다:

심사위원별 개별 채점 기록과 타임스탬프
점수 수정 이력 (수정 전 → 수정 후, 사유)
무효화 처리된 평가와 그 근거

evaluate.club은 모든 채점 활동에 자동 감사 로그를 생성하며, 점수 수정 및 무효화 이력을 추적합니다. OTP 기반 심사위원 인증으로 평가자 신원을 확인하고, 관리자는 이상치를 감지하여 필요 시 개별 평가를 무효화할 수 있습니다.

evaluate.club으로 연구비 심사 공정성 확보하기

위 5가지 방법은 별도의 시스템 개발 없이도 적용할 수 있습니다. evaluate.club은 연구비 심사에 필요한 핵심 기능을 제공합니다:

맞춤 루브릭: 점수별 행동 앵커를 포함한 평가 양식 설계
관리자 배점: 정량평가를 관리자가 직접 입력, 정성평가와 자동 합산
Trimmed Mean 채점: 극단값을 제외한 합의 점수 자동 계산
감사 로그: 모든 채점 활동의 자동 기록과 수정 이력 추적
OTP 인증: 심사위원 신원 확인으로 대리 심사 방지

연구비 심사위원회 채점의 구조적 문제 — 공정성을 높이는 5가지 방법

왜 연구비 심사 채점은 구조적으로 불공정한가

결함 1: 점수 척도의 정밀도 부족

결함 2: 평판 기반 편향

결함 3: 심사위원 확보의 구조적 위기

결함 4: AI 심사의 양면성

결함 5: 정성평가와 정량평가의 비일관적 통합

방법 1: 행동 앵커 루브릭(BARS)으로 척도 정밀도 확보

방법 2: 캘리브레이션 세션으로 기준선 정렬

방법 3: 정량평가와 정성평가의 명확한 분리

방법 4: Trimmed Mean으로 극단값 영향 차단

방법 5: 감사 추적(Audit Trail)으로 투명성 확보

evaluate.club으로 연구비 심사 공정성 확보하기

자주 묻는 질문 (FAQ)

연구비 심사에서 심사위원 간 점수 편차가 큰 이유는 무엇인가요?

AI를 연구비 심사에 활용해도 되나요?

정량평가와 정성평가를 어떻게 통합해야 하나요?

Trimmed Mean 채점이란 무엇인가요?

심사 과정의 감사 추적(Audit Trail)에는 어떤 정보가 포함되어야 하나요?