guide

AI文字起こしアプリの精度を実際に検証してみた｜2026年版

AI文字起こしの精度（WER/CER）を徹底解説。Whisper・Google・Azureのベンチマーク比較、精度95%が実務でどう見えるか、精度を上げる具体策まで、PM・営業が知るべきすべてをまとめた2026年版決定版。

MinuteKeep Team2026年4月20日

#AI文字起こし#文字起こし精度#WER#CER#Whisper#音声認識#議事録アプリ

「文字起こし精度95%」——アプリのランディングページでよく見る数字だ。でも、これが実際の会議でどう見えるか、考えたことはあるだろうか。

1時間の会議（約1万文字）で95%の精度なら、500文字が誤変換されている計算になる。ページにして1枚分の誤りだ。営業のクロージングトーク、数字の条件提示、プロジェクトの期日——これらが混在する500文字の誤りを放置してそのまま議事録として配布できるか、と問われたら、ほとんどのPMは「できない」と答えるはずだ。

この記事では、「精度」という言葉の定義から始め、主要モデルのベンチマークデータ、実務での誤りの実感、そして精度を上げるための具体策まで、AI文字起こしの精度について知るべきことをすべて整理する。

議事録作成を自動化しませんか？ MinuteKeepは、会議を録音するだけでAIが文字起こし・要約・タスク抽出まで自動化。9言語対応、月額0円、30分無料。

WER（単語誤り率）とCER（文字誤り率）とは何か

WER：英語圏の標準指標

**WER（Word Error Rate / 単語誤り率）**は、音声認識の精度を測る国際標準の指標だ。計算式はシンプルだ。

WER = (誤り文字数 ÷ 正解文字の総数) × 100

たとえば100語の発話に対して、AIが5語を誤変換した場合、WER = 5%、精度 = 95%となる。

WERには3種類の誤りが含まれる。

誤りの種類	内容	例
代入（Substitution）	別の語に置き換わる	「計画」→「機関」
削除（Deletion）	語が脱落する	「する必要がある」→「ある」
挿入（Insertion）	余分な語が入る	「予算」→「予算費用」

この3つの中で、削除は最も危険だ。「問題はない」が「問題はある」に化けるのは代入だが、「問題はない」がそのまま削除されて議事録から消えることは、より静かに意思決定を狂わせる。

CER：日本語評価の本命

英語は単語と単語の間にスペースがあるため、「語」単位での誤り計測が自然にできる。しかし日本語は分かち書きしないため、**CER（Character Error Rate / 文字誤り率）**で評価するのが一般的だ。

計算式はWERと同様で、「語」を「文字」に置き換えたものだ。

CER = (誤り文字数 ÷ 正解文字の総数) × 100

たとえばCER 4%であれば、「100文字あたり4文字が誤り」を意味する。精度として表現すると96%だ。

日本語のAI文字起こしを評価するときは、ツールが提示する「精度○%」がWERベースなのかCERベースなのかを確認する必要がある。同じ音声でも、評価指標によって数値は異なる。

主要モデルの精度ベンチマーク（2025-2026年）

モデル別WER/CER比較

2025年から2026年にかけての代表的な音声認識モデルの精度を整理する。各社のベンチマーク、独立機関の検証データをもとにまとめた。

モデル	日本語CER（目安）	英語WER（目安）	特記事項
gpt-4o-transcribe	〜3%	〜2.5%	2025年3月リリース。WhisperLarge-v3比で誤り率約35%削減
gpt-4o-mini-transcribe	〜5%	〜4%	gpt-4o-transcribeより低コスト。精度は若干劣る
Whisper large-v3	〜6〜8%	〜5〜7%	オープンソース最高精度。ノイズ・方言への耐性が高い
Google Cloud Speech-to-Text v2	〜5〜7%	〜4〜6%	クリーン音声での安定性が高い
Azure AI Speech	〜6〜9%	〜5〜8%	エンタープライズ向け機能が充実。CER変動幅が大きい
人間（プロ）	〜1〜2%	〜1〜2%	高コスト・低速だが最高精度

備考: 数値はFLEURS・Common Voice等の標準ベンチマーク、および複数の独立検証結果をもとにした目安値。録音環境・話者特性・音声品質によって大きく変動する。gpt-4o-transcribeのWER 2.46%はArtificial Analysis社の測定結果、WhisperLarge-v3のWER 7.4%は同機関の平均値。

gpt-4o-transcribeが引き離しを始めた

2025年3月にOpenAIがリリースしたgpt-4o-transcribeとgpt-4o-mini-transcribeは、従来のWhisperシリーズを大きく上回る精度を示した。OpenAI公式の発表によれば、Common VoiceやFLEURSベンチマーク上でWhisper large-v3比較で約35%のWER削減を達成している。

この改善の技術的背景は、強化学習の導入と多様な高品質音声データでの追加学習だ。従来のWhisperが苦手としていた「アクセント・ノイズ環境・話速の変化」への耐性が大幅に向上している。

Whisper large-v3の立ち位置

Whisper large-v3は今もオープンソースモデルの中では最高水準にある。ただし、日本語CERは場面によって4〜12%と幅が広い。

RevComm社の技術ブログ等の検証では、ビジネス会議音声に対するWhisperの精度は業界固有用語・固有名詞が多いほど低下する傾向が確認されている。専門性の高い不動産・製薬・IT分野では、CERが4%から一気に10%超に悪化するケースもある。

Google・Azureの実力

Google Cloud Speech-to-Text v2はクリーンな録音環境での安定性が高く、特にナレーター的な発話（フィラーなし、明瞭な発声）では0〜2%のCERを記録することがある。一方で、複数話者が同時に発言する会議音声ではパフォーマンスが落ちる傾向がある。

Azure AI Speechはエンタープライズ向けのカスタムモデル機能が充実しているが、汎用状態での精度はGoogle・gpt-4o-transcribeに若干劣る評価が多い。

精度に影響する5つの要因

ベンチマーク上の数字が良くても、実際の会議録音では大きく精度が落ちることがある。精度を左右する要因を理解することが、アプリ選択と運用改善の出発点になる。

1. 録音環境（背景ノイズ）

最も影響が大きい要因だ。カフェのBGM、オフィスのエアコン音、会議室の反響——これらはすべて音声認識モデルに「声以外の音」を混在させ、誤変換のリスクを高める。

特に**空調ノイズ（200〜400Hz帯）と人の声の基本周波数（85〜255Hz）**は帯域が近く、単純なノイズ除去では声との分離が難しい。

目安: クリーンな室内録音 → CER 3〜5%。カフェ程度の騒音 → CER 8〜15%。

2. 話者の数とクロストーク

1対1の会話よりも、複数人が話す会議のほうが精度は落ちる。特に**クロストーク（発言の重なり）**が発生すると、どちらの声も正確に認識できなくなる。

4名以上の会議音声では、話者が明確に交互に発言している場合でも、席の位置とマイクの距離によって音量差が生まれ、遠い位置の話者の発言が脱落しやすい。

3. 方言・なまり・話速

共通語でも「早口」「滑舌が不明瞭」「方言交じり」の発話は精度を大幅に低下させる。標準的なWhisperモデルは日本語学習データが英語に比べて少なく、関西弁・東北弁・九州弁など地域色の強い発話への耐性はまだ課題が残る。

4. 固有名詞・専門用語

AI文字起こしが最も苦手とするのが固有名詞だ。

社名（「ソリマチ」「サイボウズ」）、製品名（「kintone」「freee」）、人名（「伊藤」vs「伊東」）——これらはモデルが事前学習データで見たことがないか、学習頻度が低い。

同音異義語も危険だ。「計上する」「形状する」「継承する」は発音がほぼ同じで、文脈をAIが正確に読み取れないと誤変換が連発する。

5. マイクとの距離・機種

スマートフォンのデフォルトマイクで10cm離れて話した場合と、50cm離れた場合では録音レベルが大きく異なる。距離が増えるほどS/N比（信号対雑音比）が下がり、モデルへの入力品質が劣化する。

一般的な傾向として、マイク距離が2倍になると音圧が約6dB低下する。これがCERに与える影響は状況によるが、会議室で離れた席の参加者の発言が途切れがちになる、という経験はその典型だ。

「精度95%」の実感——数字が隠す現実

ここで一度立ち止まって、「精度95%」が実際の会議でどう見えるかを計算してみよう。

1時間会議での誤り試算

項目	数値
1時間会議の発話量（目安）	約8,000〜12,000文字
精度95%（CER 5%）での誤り文字数	400〜600文字
400字詰め原稿用紙換算	1〜1.5枚分
精度98%（CER 2%）での誤り文字数	160〜240文字
精度99%（CER 1%）での誤り文字数	80〜120文字

精度95%では、A4用紙1枚以上の分量が誤変換されている。これが均等に分散しているならまだいい。問題は誤りが固有名詞・数字・否定表現に集中する傾向があることだ。

誤りが集中する「危険地帯」

パターン例：

■ 数字誤変換
「予算は3,500万円です」
→ 「予算は3,050万円です」
（誤差450万円を見落として議事録配布）

■ 否定表現の脱落
「今期の導入は難しい状況です」
→ 「今期の導入は状況です」
（「難しい」が削除されて意味消失）

■ 固有名詞誤変換
「サイボウズkintoneで管理します」
→ 「サイボウズキンとんで管理します」
（固有名詞が全滅）

こうした誤りは後から見返したときに気づきにくいという特徴がある。文章として読めてしまうため、スキャンする目が素通りしてしまう。

「20語（文字）に1語」のインパクト

精度95%はWER換算で「20語に1語が誤り」だ。日本語CERで考えると「20文字に1文字が誤り」。

たとえばこの文章を読んでいると仮定しよう：「今月の売上は昨月比で110%を達成し、A社との商談も前向きに進んでいます」——この54文字のうち3文字近くが別の文字に置き換わる計算だ。

これが会議を通じて1万文字続くと、どれだけの修正コストが発生するか想像してほしい。

CTA：MinuteKeepで高精度モードを試す

高精度モード（gpt-4o-transcribe）は、標準モードより大幅に誤変換が少ない。まず30分の無料枠で、あなたの会議音声での精度を実際に確かめてほしい。カスタム辞書も使えるので、社名・製品名の誤変換対策も同時に検証できる。

MinuteKeepをApp Storeで無料ダウンロード →

精度を上げる実践テクニック

テクニック1：録音環境を整える（最重要）

精度向上で最もROIが高いのが録音環境の改善だ。アプリやモデルを変えるより、マイクと環境を改善するほうが精度インパクトが大きいことも多い。

チェックリスト:

空調・換気扇の近くに座らない（または会議前に止める）
マイクから20〜30cmの距離を保つ
机の反響が大きいなら布やノートPCのパームレストを置く
ドアを閉め、廊下の雑音をシャットアウトする
参加者全員がマイクに均等に近い席配置にする

テクニック2：マイクをアップグレードする

スマートフォン内蔵マイクは全方向性（無指向性）のため、話者の声も雑音も同様に拾う。**単一指向性マイク（カーディオイド）**に変えるだけで、背景ノイズの取り込みを大幅に削減できる。

コンデンサーマイクの接続が難しい場合は、会議卓の中央に置く全指向性の据え置き型会議マイクも有効だ。USB接続のものであれば、スマートフォンへのOTG接続も選択肢になる。

テクニック3：カスタム辞書を活用する

社名・製品名・業界用語は、AIモデルがデフォルトで誤変換しやすい「危険ワード」だ。これをカスタム辞書に事前登録しておくことで、文字起こし後に正しい表記に修正できる。

MinuteKeepでは「カスタム辞書」機能がこれに相当する。

→ 詳しい使い方は[辞書機能の活用ガイド（MJ08）]を参照

登録すべき語の例:

自社・取引先の会社名（略称・通称含む）
製品名・サービス名（カタカナ表記の揺れ含む）
業界固有の専門用語（医療・法律・ITなど）
プロジェクト名・部署名の正式表記
よく使うアクロニム（KPI、MRR、CAGR など）

テクニック4：発話スタイルを少し変える

会議のファシリテーターであれば、AIフレンドリーな進行スタイルをチームに浸透させることで精度が上がる。

固有名詞を話すときは少しゆっくり、はっきり発音する
数字は「ごひゃくまん」より「500万」と言葉の区切りを意識する
同時発言を避ける（「それは〇〇さんから先に」と一言促す）
略称より正式名称を使う（「KK案件」より「株式会社○○との案件」）

テクニック5：音声前処理ツールを使う

アプリによっては、マイク入力に対してリアルタイムで音声前処理をかけているものがある。MinuteKeepでは録音時に以下の処理を自動適用している。

処理	効果
ハイパスフィルタ（80Hz）	空調音・足音などの低周波ノイズ除去
ローパスフィルタ（8kHz）	電子ノイズ・ヒスノイズの高周波除去
プレゼンスブースト（3kHz, +3dB）	子音の明瞭度を向上
ウォームスブースト（350Hz, +2dB）	声の温かみを保持し自然な音質を維持
ダイナミックコンプレッサー	遠くの話者の音量を均一化

これらの処理は人間の音声帯域（85Hz〜8kHz）を保護しながら不要な帯域を削減する設計になっており、結果として音声認識モデルへの入力品質が改善される。

標準モード vs 高精度モード——どちらを使うべきか

MinuteKeepには2つの文字起こしモードがある。どちらを使うかは用途によって判断したい。

モード比較

項目	標準モード	高精度モード
使用モデル	gpt-4o-mini-transcribe	gpt-4o-transcribe
精度目安	高（〜CER 5%）	最高（〜CER 3%）
クレジット消費	1倍	2倍
推奨場面	社内雑談、メモ用途	商談・交渉、重要会議

標準モードで十分なケース

社内の定例会議（参加者が固定で、内容を大まかに把握できれば足りる）
ブレインストーミング（アイデアの流れを追えれば精度の細部は不問）
振り返り用の録音（後から確認できれば誤変換は許容できる）
クレジットを節約したい場面（長時間の会議が続く週）

高精度モードを使うべきケース

重要な商談・交渉（数字・条件・期日が記録されるため、誤変換が直接リスクになる）
外部との会議（議事録を相手方に送る場合、誤変換があると信頼を損なう）
専門用語・固有名詞が多い会議（医療・法律・金融分野など）
議事録が意思決定の根拠になる場合（後から「そんなこと言っていない」問題を防ぐ）

実務的な判断基準を一言で言えば「議事録を外部に出すなら高精度、内部だけなら標準」だ。

FAQ

Q. AI文字起こしの精度「98%」と「95%」では実際にどれくらい違うの？

1万文字の会議で比較すると、98%は200文字の誤り、95%は500文字の誤りだ。差は300文字——A4用紙の半分以上。修正作業の時間で換算すると、誤変換の多くが固有名詞・数字・否定表現に集中するため、見つけるのに時間がかかる。日常の社内会議なら95%でも実用レベルだが、外部議事録・商談記録には98%以上を推奨する。

Q. WERとCERはどちらを見ればよい？

日本語の評価ならCERを見る。日本語は単語の区切りが曖昧なため、WERを適用すると評価が不安定になる。英語が混在する会議ではWERも参考にするが、メインの指標はCERだ。

Q. 精度を上げるために最も効果的なことは何？

録音環境の改善とカスタム辞書の登録、この2つだ。アプリを変えるよりもマイク品質を上げるほうが精度インパクトが大きいことも多い。それに加えて高精度モードに切り替えれば、ほとんどの実務用途でCER 3〜4%前後に収まる。

Q. 方言が多い話者がいる会議ではどうすれば？

現時点のAIモデルは標準語に最適化されているため、強い方言は精度低下のリスクがある。対策としては、①高精度モードを使う（より多様なデータで学習したモデルを使用）、②発話者に少し意識的にゆっくり話してもらう、③後処理としてカスタム辞書で頻出誤変換を修正する——の組み合わせが現実的だ。

Q. AI文字起こしは人間より精度が低いの？

プロの文字起こしサービスの精度はCER 1〜2%程度で、最高精度のAIモデル（gpt-4o-transcribeのCER〜3%）よりも高い。ただし、人間は1時間音声の文字起こしに2〜3時間かかり、コストも高い。AIは速度とコストで圧倒的に有利で、カスタム辞書等で対策すれば実務許容水準に達する。完璧な精度が要求される場面（法的記録、医療記録等）以外ではAIで十分だ。

まとめ：精度は「数字」ではなく「用途との適合性」で判断する

AI文字起こしの精度は、単一の数字で語れるものではない。

同じモデルでも録音環境で2倍以上CERが変わる
固有名詞・数字・否定表現への影響が最も大きい
精度95%は実務では「500文字の誤り／1時間会議」を意味する
高精度モードとカスタム辞書の組み合わせが最もROIが高い対策だ

以下が、実務での判断指針だ。

用途	推奨精度水準	対策
社内メモ・振り返り	CER 5〜8%でも許容	標準モード
チームへの議事録共有	CER 3〜5%を目標	標準モード＋カスタム辞書
外部配布・商談記録	CER 3%以下を目標	高精度モード＋カスタム辞書
法的記録・契約関連	CER 1%以下が必要	AI＋人間によるダブルチェック

AI文字起こしは「精度○%のツールを選ぶ」ではなく、「用途に応じてモードと設定を使い分ける」時代に入っている。