What is evaluate.club?

evaluate.club is a web-based team evaluation platform that replaces spreadsheet scoring with automated calculation. Create evaluation forms, share secure token-based links with judges, and get instant leaderboards with multiple scoring algorithms (Average, Trimmed Mean, Maximum).

How much does evaluate.club cost?

evaluate.club uses a pay-per-form model with no monthly subscriptions or per-seat fees. You get 20 free credits on signup (enough for 4+ forms). Standard rate is 5 credits per form, with volume discounts available for 30+ credit purchases. Evaluators are always free — unlimited.

Do evaluators need to create an account?

No. Evaluators receive a unique token-based link and verify their identity with a 6-digit email OTP code. No account creation, no passwords, no IT setup required. They simply click the link and start evaluating.

How is evaluation data secured?

Each evaluator gets a unique 32-character cryptographic token. Data is isolated at the organization level — no cross-organization access. Email OTP verification prevents unauthorized submissions. No shared spreadsheets or forwarded files.

What scoring methods are available?

Three scoring algorithms: Simple Average (standard mean of all scores), Trimmed Mean (excludes the highest and lowest scores to prevent bias, requires 3+ evaluators), and Maximum Score (ranks teams by their single highest score from any evaluator).

Can I track team performance across evaluations?

Yes. evaluate.club provides cross-form team tracking with persistent history. You can compare team performance across multiple evaluation rounds, view historical scores, and identify improvement trends over time.

해커톤 채점 방식 비교 — 절대평가 vs 상대평가 vs 쌍대비교, 언제 무엇을 쓸까?

해커톤과 공모전 심사에서 가장 많이 사용되는 채점 방식은 절대평가(Rubric Scoring), 상대평가(Stack Ranking), 쌍대비교(Pairwise Comparison) 3가지입니다. 절대평가는 기준별 점수를 매겨 투명성이 높지만 심사위원마다 점수 편차가 크고, 상대평가는 순위로 편차를 줄이지만 세부 피드백이 어렵고, 쌍대비교는 통계적으로 편향을 보정하지만 대규모에서는 정확도가 급격히 떨어집니다. 피드백이 중요하면 절대평가, 30~~100팀 빠른 결과가 필요하면 상대평가, 20~~50팀 엑스포 형태에서 공정성을 극대화하려면 쌍대비교가 적합하며, 100팀 이상은 다단계 심사(하이브리드)가 가장 효과적입니다.

같은 프로젝트, 다른 점수 — 왜 이런 일이 생길까?

해커톤 심사 결과에 참가자들이 불만을 느끼는 가장 큰 이유는 "같은 프로젝트를 봤는데 심사위원마다 점수가 다르다"는 점입니다. 실제로 심사위원 A는 관대하게 4~~5점을 주고, 심사위원 B는 엄격하게 2~~3점을 주면 최종 순위가 왜곡됩니다.

이 문제의 근본 원인은 채점 방식 자체에 있습니다. 어떤 방식을 선택하느냐에 따라 편차를 줄일 수도, 키울 수도 있습니다. 3가지 주요 채점 방식을 비교해 보겠습니다.

방식 1: 절대평가 (Rubric Scoring) — 가장 보편적이지만 편차가 큼

절대평가는 미리 정한 기준(루브릭)에 따라 각 항목에 점수를 매기는 방식입니다. 해커톤에서 가장 널리 사용됩니다.

작동 방식: 심사위원이 각 프로젝트를 독창성(1~~5점), 기술력(1~~5점), 완성도(1~5점) 등 항목별로 채점하고, 합산하여 순위를 결정합니다.

장점:

왜 이 점수를 받았는지 항목별로 설명 가능 → 참가자 피드백에 유리
심사 기준이 명확하면 심사위원 교육이 쉬움
공정한 해커톤 심사 기준을 설계하면 일관성 확보 가능

단점:

심사위원마다 "5점"의 기준이 다름 — 관대한 심사위원과 엄격한 심사위원의 편차가 크게 발생
척도에 명확한 앵커(구체적 예시)가 없으면 주관적 해석이 달라짐
프로젝트 수가 많아지면 채점 피로(scoring fatigue)로 후반부 점수가 낮아지는 경향

적합한 상황: 30팀 이하, 심사위원 3~5명, 항목별 피드백이 중요한 대회

절대평가를 사용할 때는 반드시 앵커드 스코어카드를 준비하세요. "우수(4점)"이 무엇인지 구체적인 관찰 증거로 정의해야 합니다. "기술적으로 우수하다" 대신 "3개 이상의 API를 통합하고 에러 처리가 구현되어 있다"처럼 작성합니다.

방식 2: 상대평가 (Stack Ranking) — 순위로 편차를 줄이는 방법

상대평가는 심사위원이 점수 대신 순위를 매기는 방식입니다. "이 프로젝트가 저 프로젝트보다 낫다"는 비교 판단을 활용합니다.

작동 방식: 심사위원이 담당한 프로젝트들을 1위부터 N위까지 순위를 매기고, 모든 심사위원의 순위를 합산하여 최종 순위를 결정합니다.

장점:

관대/엄격한 심사위원의 편차가 자동으로 사라짐 — 모두가 1위부터 N위까지 동일한 스케일을 사용
MLH(Major League Hacking)가 해커톤 초보 운영자에게 공식 추천하는 방식
집계가 단순하여 실시간 라이브 대시보드와 연동하기 쉬움

단점:

"1위와 2위의 격차"를 알 수 없음 — 압도적 1위와 근소한 차이의 1위가 같은 점수
항목별 세부 피드백 불가 → 참가자에게 "왜 이 순위인지" 설명하기 어려움
심사위원마다 담당 프로젝트가 다르면 교차 비교가 불완전해짐

적합한 상황: 30~~100팀, 심사위원 5~~10명, 빠른 결과 도출이 필요한 대회

상대평가를 사용할 때 동점자 처리 규칙을 반드시 사전에 공지하세요. 순위 합산에서 동점이 자주 발생합니다.

방식 3: 쌍대비교 (Pairwise Comparison) — 통계로 편향을 보정

쌍대비교는 심사위원이 한 번에 두 프로젝트만 비교하여 "어느 쪽이 더 나은가"를 판단하는 방식입니다. MIT에서 개발한 오픈소스 시스템 Gavel이 대표적입니다.

작동 방식: 시스템이 심사위원에게 프로젝트 A와 B를 보여주고, "A가 더 낫습니까?"라는 단일 질문에 답하게 합니다. 이 결과를 통계 모델(Bradley-Terry 모델)로 처리하여 전체 순위를 산출합니다.

장점:

심사위원의 관대/엄격 성향을 통계적으로 자동 보정 — 가장 공정한 결과
한 번에 두 개만 비교하므로 인지 부하가 낮음 → 채점 피로 최소화
시스템이 심사위원에게 다음 프로젝트를 자동 배정 → 운영 부담 감소

단점:

항목별 피드백 완전 불가 — "왜 졌는지" 설명할 수 없음
대규모(100팀+)에서 정확도 급락 — MadHacks 연구에 따르면 최고 프로젝트가 우승할 확률이 6%에 불과. 팀 수가 늘수록 프로젝트당 비교 횟수가 줄어 통계적 신뢰도가 떨어짐
전용 소프트웨어(Gavel 등)가 필요 — 스프레드시트로는 구현 불가
신뢰할 수 있는 순위 산출에 O(N log N)회 비교가 필요하나, 제한된 심사 시간 내에 확보하기 어려움

적합한 상황: 20~50팀, 엑스포/부스 형태, 심사위원 5명 이상. 100팀 이상에서는 단독 사용보다 다단계 심사의 1차 선별 도구로 활용할 것을 권장

3가지 방식 한눈에 비교

기준	절대평가	상대평가	쌍대비교
편차 보정	낮음 (앵커 없으면 심사위원별 큰 차이)	중간 (순위로 자동 보정)	높음 (통계 모델로 자동 보정)
세부 피드백	가능 (항목별 점수)	불가 (순위만)	불가 (승/패만)
인지 부하	높음 (여러 항목 × 여러 팀)	중간 (순위 매기기)	낮음 (A vs B 하나만)
적합 규모	모든 규모 (피드백 필수 시)	30~100팀	20~50팀 (엑스포 형태)
운영 복잡도	낮음	낮음	높음 (전용 소프트웨어 필요)
결과 투명성	높음	중간	낮음
실시간 집계	쉬움	쉬움	보통
대표 도구	evaluate.club, 구글 폼	MLH 가이드	MIT Gavel

하이브리드 전략: 두 방식을 조합하는 법

실전에서는 한 가지 방식만 쓰기보다 조합이 효과적입니다.

추천 조합 1: 절대평가 + 상대평가 (30~100팀)

1차 심사: 절대평가로 전체 프로젝트 채점 → 상위 30%를 결선 진출
결선: 상대평가로 결선 프로젝트 순위 결정
이점: 1차에서 항목별 피드백 제공 + 결선에서 편차 없는 순위

추천 조합 2: 쌍대비교 → 절대평가 (100팀+)

1차: 쌍대비교로 빠르게 상위 10팀 선별 (엑스포 형태)
결선: 절대평가로 세부 항목 채점 + 피드백 제공
이점: 대규모 효율성 + 최종 결과의 투명성

evaluate.club으로 공정한 채점 시스템 구축하기

evaluate.club은 절대평가 방식을 기반으로 공정성을 극대화하는 기능을 제공합니다.

커스텀 루브릭: 항목별 가중치와 점수 범위를 자유롭게 설계하여 앵커드 스코어카드를 구현할 수 있습니다
자동 집계: 여러 심사위원의 점수를 Average, Trimmed Mean(최고/최저 제외 평균), Maximum 방식으로 자동 계산합니다
관리자 배점: 정량평가(매출, 특허 등)를 관리자가 별도 입력하고 심사위원 정성평가와 합산합니다
실시간 대시보드: 채점 진행률과 결과를 실시간으로 확인하여 라이브 리더보드를 운영할 수 있습니다
익명 심사: 심사위원이 다른 심사위원의 점수를 볼 수 없어 독립적 판단을 보장합니다

해커톤 채점 방식 비교 — 절대평가 vs 상대평가 vs 쌍대비교, 언제 무엇을 쓸까?

같은 프로젝트, 다른 점수 — 왜 이런 일이 생길까?

방식 1: 절대평가 (Rubric Scoring) — 가장 보편적이지만 편차가 큼

방식 2: 상대평가 (Stack Ranking) — 순위로 편차를 줄이는 방법

방식 3: 쌍대비교 (Pairwise Comparison) — 통계로 편향을 보정

3가지 방식 한눈에 비교

하이브리드 전략: 두 방식을 조합하는 법

evaluate.club으로 공정한 채점 시스템 구축하기

자주 묻는 질문 (FAQ)

절대평가에서 심사위원 간 점수 편차를 줄이려면?

쌍대비교(Pairwise Comparison)를 소규모 해커톤에서도 쓸 수 있나요?

Trimmed Mean(절사평균)이 뭔가요?

해커톤이 아니라 정부지원사업 심사에도 이 방식들이 적용되나요?

기업 스폰서가 심사에 참여하면 편향이 생기지 않나요?