記事のサマリー(TL;DR)
- Open ASR Leaderboardが2026年5月、Appen・DataoceanAI提供の非公開英語ASRデータ計約29時間を追加
- テストセット汚染(benchmaxxing)防止のためデータは非公開とし、デフォルトのAverage WERには含めない設計
- 米国英語・非米国英語、スクリプト・会話の4軸で評価でき、「Rank Δ」列でランキング変動を可視化
音声AI・ASR技術を活用する国内企業・開発者が押さえるべきポイント
Open ASR Leaderboardは2023年9月の公開以来710,000回以上訪問されており、ASRモデル選定の実質的な業界標準指標として定着しています。今回の非公開データ追加は、「公開テストセットを学習データに混入させてスコアだけを上げる」という抜け道を塞ぐ設計です。日本語ASRには直接適用されませんが、音声認識APIの選定・比較評価を行う際、このリーダーボードのスコアが「どのデータで計測されたか」を確認する習慣が重要になります。特に多アクセント対応(英国英語・インド英語など)が求められるグローバル向けサービスや、コールセンター向けの会話音声認識を検討している事業者は、「Avg Conversational」「Avg non-US」の列を参照することで、単純な平均WERでは見えなかったモデル間差異を把握できます。
詳細
背景——Goodhart’s Law とベンチマック汚染
「ある指標が目標になった瞬間、それは良い指標でなくなる」(Goodhart’s Law)。Open ASR Leaderboardはこの問題に正面から向き合い、ベンチマック汚染(benchmaxxing)への対策として非公開テストセットの導入に踏み切りました。
リーダーボードが直面してきた課題は大きく2つです。
- Standardization(標準化): 句読点・大文字小文字の有無など、モデルごとに出力形式が異なる。Whisperの正規化器をベースに、句読点除去・小文字化・米国英語スペルへの統一を実施。
- Openness(開放性): UIコードと評価スクリプトをOSSとして公開することで、コミュニティからのモデル追加・改善貢献を受け入れてきた。
この開放性がベンチマック汚染リスクの裏面でもあり、今回の非公開データ導入はその解決策として位置づけられています。
新規追加の非公開データセット(11スプリット)
Appen Inc.とDataoceanAIが提供したデータの概要は以下の通りです。
| データセット | アクセント | 時間数 | 男性/女性(%) | スタイル |
|---|---|---|---|---|
| Appen Scripted AU | オーストラリア | 1.42h | 49/51 | 朗読 |
| Appen Scripted CA | カナダ | 1.53h | 52/48 | 朗読 |
| Appen Scripted IN | インド | 1.02h | 49/51 | 朗読 |
| Appen Scripted US | アメリカ | 1.45h | 49/51 | 朗読 |
| Appen Conversational IN | インド | 1.37h | 51/49 | 会話・自然発話 |
| Appen Conversational US003 | アメリカ | 1.64h | 49/51 | 会話・自然発話 |
| Appen Conversational US004 | アメリカ | 1.65h | 49/51 | 会話・自然発話 |
| DataoceanAI Scripted US | アメリカ | 2.43h | 54/46 | 朗読 |
| DataoceanAI Scripted GB | イギリス | 2.43h | 47/53 | 朗読 |
| DataoceanAI Conversational US | アメリカ | 8.82h | NA | 会話・自然発話 |
| DataoceanAI Conversational GB | イギリス | 5.96h | NA | 会話・自然発話 |
スクリプト読み上げ・会話音声・頭字語・不流暢さ(disfluencies)・固有名詞など、多様なコンテンツをカバーしています。
スコア設計の詳細
リーダーボードの「Private data」タブには以下の集計列が追加されています。
- Average WER(プライベート込み): データプロバイダーごとの平均WERをさらにマクロ平均
- Avg Scripted: 全朗読データセットのマクロ平均
- Avg Conversational: 全会話データセットのマクロ平均
- Avg US: 全米国英語データセットのマクロ平均
- Avg non-US: 全非米国英語データセットのマクロ平均
デフォルト設定では非公開データはAverage WER計算に含まれません。 トグルでオン/オフを切り替え可能で、「Rank Δ」列が切り替え前後のランキング変動を表示します。また、個別スプリットのスコアは意図的に非公開とし、特定プロバイダー・アクセントへの過剰最適化を防いでいます。
モデルの評価申請方法
- Open ASR Leaderboard の GitHub でPull Requestを作成
- モデルチェックリストに従い、公開データセットでのスコアを自己申告
- 運営が公開データの結果を検証後、プライベートデータの評価を実施・確認
PR待機中はモデルカードにYAMLファイルを追加することで、データセットページの「未検証リーダーボード」に自己申告スコアを掲載できます(分散型評価アプローチ)。
データプロバイダーによる優位性リスクへの対応
AppenとDataoceanAIには、今回提供したデータをクライアントに販売しないよう依頼済みです。ただし類似分布のデータは流通し得るため、複数プロバイダーを採用することで特定プロバイダーへの依存リスクを分散しています。また、平均WERへのデフォルト不参入により、プライベートデータがモデルランキングに直接影響しない設計になっています。
今後の予定
- ノイズ環境での評価(実世界の雑音条件に対応した評価設定)を検討中
- データセット整備段階での品質管理ツール(低SNR条件・トランスクリプト不一致の検出)の詳細は今後の記事で公開予定
- 新規データプロバイダー・評価セットの追加も引き続き募集中(GitHubのPRテンプレートから申請可能)
記事中で言及されたモデル・データセット
- CohereLabs/cohere-transcribe-03-2026(自動音声認識、250K以上のダウンロード)
- hf-audio/open-asr-leaderboard(ベンチマークデータセット、100K以上のダウンロード)