Open ASR Leaderboard がベンチマック不正対策に非公開データセットを導入—

記事のサマリー（TL;DR）

Open ASR Leaderboardが2026年5月、Appen・DataoceanAI提供の非公開英語ASRデータ計約29時間を追加
テストセット汚染（benchmaxxing）防止のためデータは非公開とし、デフォルトのAverage WERには含めない設計
米国英語・非米国英語、スクリプト・会話の4軸で評価でき、「Rank Δ」列でランキング変動を可視化

音声AI・ASR技術を活用する国内企業・開発者が押さえるべきポイント

Open ASR Leaderboardは2023年9月の公開以来710,000回以上訪問されており、ASRモデル選定の実質的な業界標準指標として定着しています。今回の非公開データ追加は、「公開テストセットを学習データに混入させてスコアだけを上げる」という抜け道を塞ぐ設計です。日本語ASRには直接適用されませんが、音声認識APIの選定・比較評価を行う際、このリーダーボードのスコアが「どのデータで計測されたか」を確認する習慣が重要になります。特に多アクセント対応（英国英語・インド英語など）が求められるグローバル向けサービスや、コールセンター向けの会話音声認識を検討している事業者は、「Avg Conversational」「Avg non-US」の列を参照することで、単純な平均WERでは見えなかったモデル間差異を把握できます。

詳細

背景——Goodhart’s Law とベンチマック汚染

「ある指標が目標になった瞬間、それは良い指標でなくなる」（Goodhart’s Law）。Open ASR Leaderboardはこの問題に正面から向き合い、ベンチマック汚染（benchmaxxing）への対策として非公開テストセットの導入に踏み切りました。

リーダーボードが直面してきた課題は大きく2つです。

Standardization（標準化）: 句読点・大文字小文字の有無など、モデルごとに出力形式が異なる。Whisperの正規化器をベースに、句読点除去・小文字化・米国英語スペルへの統一を実施。
Openness（開放性）: UIコードと評価スクリプトをOSSとして公開することで、コミュニティからのモデル追加・改善貢献を受け入れてきた。

この開放性がベンチマック汚染リスクの裏面でもあり、今回の非公開データ導入はその解決策として位置づけられています。

新規追加の非公開データセット（11スプリット）

Appen Inc.とDataoceanAIが提供したデータの概要は以下の通りです。

データセット	アクセント	時間数	男性/女性（%）	スタイル
Appen Scripted AU	オーストラリア	1.42h	49/51	朗読
Appen Scripted CA	カナダ	1.53h	52/48	朗読
Appen Scripted IN	インド	1.02h	49/51	朗読
Appen Scripted US	アメリカ	1.45h	49/51	朗読
Appen Conversational IN	インド	1.37h	51/49	会話・自然発話
Appen Conversational US003	アメリカ	1.64h	49/51	会話・自然発話
Appen Conversational US004	アメリカ	1.65h	49/51	会話・自然発話
DataoceanAI Scripted US	アメリカ	2.43h	54/46	朗読
DataoceanAI Scripted GB	イギリス	2.43h	47/53	朗読
DataoceanAI Conversational US	アメリカ	8.82h	NA	会話・自然発話
DataoceanAI Conversational GB	イギリス	5.96h	NA	会話・自然発話

スクリプト読み上げ・会話音声・頭字語・不流暢さ（disfluencies）・固有名詞など、多様なコンテンツをカバーしています。

スコア設計の詳細

リーダーボードの「Private data」タブには以下の集計列が追加されています。

Average WER（プライベート込み）: データプロバイダーごとの平均WERをさらにマクロ平均
Avg Scripted: 全朗読データセットのマクロ平均
Avg Conversational: 全会話データセットのマクロ平均
Avg US: 全米国英語データセットのマクロ平均
Avg non-US: 全非米国英語データセットのマクロ平均

デフォルト設定では非公開データはAverage WER計算に含まれません。 トグルでオン/オフを切り替え可能で、「Rank Δ」列が切り替え前後のランキング変動を表示します。また、個別スプリットのスコアは意図的に非公開とし、特定プロバイダー・アクセントへの過剰最適化を防いでいます。

モデルの評価申請方法

Open ASR Leaderboard の GitHub でPull Requestを作成
モデルチェックリストに従い、公開データセットでのスコアを自己申告
運営が公開データの結果を検証後、プライベートデータの評価を実施・確認

PR待機中はモデルカードにYAMLファイルを追加することで、データセットページの「未検証リーダーボード」に自己申告スコアを掲載できます（分散型評価アプローチ）。

データプロバイダーによる優位性リスクへの対応

AppenとDataoceanAIには、今回提供したデータをクライアントに販売しないよう依頼済みです。ただし類似分布のデータは流通し得るため、複数プロバイダーを採用することで特定プロバイダーへの依存リスクを分散しています。また、平均WERへのデフォルト不参入により、プライベートデータがモデルランキングに直接影響しない設計になっています。

今後の予定

ノイズ環境での評価（実世界の雑音条件に対応した評価設定）を検討中
データセット整備段階での品質管理ツール（低SNR条件・トランスクリプト不一致の検出）の詳細は今後の記事で公開予定
新規データプロバイダー・評価セットの追加も引き続き募集中（GitHubのPRテンプレートから申請可能）

記事中で言及されたモデル・データセット

CohereLabs/cohere-transcribe-03-2026（自動音声認識、250K以上のダウンロード）
hf-audio/open-asr-leaderboard（ベンチマークデータセット、100K以上のダウンロード）

Open ASR Leaderboard がベンチマック不正対策に非公開データセットを導入——Appen・DataoceanAI提供の11スプリットで評価精度を強化