how-to

AI文字起こしの精度を上げる録音テクニック5選

音声認識精度を左右する5つの録音テクニック。静かな環境選択、マイク配置、話者間隔、高精度モード、カスタム辞書。実装可能な対策でCER 3～4%まで改善。

MinuteKeep Team2026年5月17日

#文字起こし#精度#録音技法#マイク選択#AI議事録

精度95%と聞くと十分に思えるかもしれない。だが1時間の会議（約8,000～12,000文字）での誤り量に換算すると、400～600文字の誤変換が発生している計算だ。A4用紙1枚以上の誤りが混在した議事録を、クライアントに送付できるだろうか。

答えはほぼ確実に「いいえ」だ。

AI文字起こしの精度は、使用モデルの精度だけでは決まらない。むしろ録音環境とマイク配置のほうが精度に与える影響は大きい。マイク品質を1段階上げることで、モデルを変更するより大きな精度向上が期待できることもある。

この記事では、実装可能な5つの録音テクニックをまとめた。これらを組み合わせることで、CER 3～4%（精度96～97%）の実用水準に到達できる。

議事録作成を自動化しませんか？ MinuteKeepは、会議を録音するだけでAIが文字起こし・要約・タスク抽出まで自動化。9言語対応、月額0円、30分無料。

テクニック1：静かな環境を選ぶ（最大インパクト）

録音環境は文字起こし精度の最大変数だ。

クリーンな室内でのCERは3～5%だが、カフェの騒音下では8～15%に悪化する。同じモデル、同じマイクを使っても環境一つで3倍精度が変わる。実験データもこれを裏付けている。オーディオ品質が改善されると、音声認識の誤り率は大幅に低下する傾向が確認されている。

優先順位付き対策チェックリスト

最優先（実施効果：大）

エアコン・換気扇を会議直前に一時停止する（空調ノイズは200～400Hz帯で声の周波数と混在しやすい）
廊下に面したドアを閉める（オフィスの交通音は意外に拾われやすい）
窓の近くを避ける（外の交通音・工事音は高確度で誤変換を誘発）

次優先（実施効果：中）

参加者全員がマイクから20～30cm以内の距離に座席配置する
テーブルの上に布製の吸音材を敷く（反響を減らし、小さな声でも拾いやすくなる）
机の下での足音やペン音を避けるよう進行前に周知する

数値で見る環境の影響

環境	背景ノイズレベル	推定CER	対策の優先度
静かな閉じた室内	30dB以下	3～4%	なし
標準的なオフィス	40～45dB	5～6%	中
カフェ・ロビー	50～55dB	8～12%	高
駅構内・屋外	70dB以上	15%以上	避けるべき

テクニック2：マイクを近づける、または高品質マイクを使う

マイク距離は「誰が話しているのか聞き取れるかどうか」の分かれ目だ。

スマートフォン内蔵マイクで50cm離れた位置からの話者の音声は、ノイズと同等かそれ以下のレベルに低下する。実験結果では、マイク距離を2倍にするとS/N比（信号対雑音比）が約6dB低下し、確認された通り、距離が離れるほど音声認識精度は低下する。

実装パターン

パターンA：スマートフォン内蔵マイク + 距離最適化

機器追加なし
マイクから最初の話者まで：20～30cm（スマートフォンの実際のマイク位置が卓上にある場合）
全話者がほぼ等距離に配置できる小規模会議向け（2～4名）

パターンB：USB単一指向性マイク（推奨）

外部マイク導入により、無指向性から指向性（カーディオイド）に変更
マイクから中心話者まで：15～20cm
テーブル中央配置で4～6名の中規模会議に対応
追加コスト：3,000～10,000円程度

パターンC：据え置き型会議マイク（中～大規模向け）

複数の指向性マイク素子で複数話者を同時に拾える
最大8名以上の会議に対応
USB接続でiOS対応できるモデルも多い

マイク選択の判断基準

会議規模	推奨マイク	導入コスト	期待CER改善
1～2名の個別対話	スマートフォン内蔵	0円	基準値
3～4名の少人数会議	USB単一指向性	3～10K円	-2～3%
5～8名の会議	据え置き会議マイク	15～50K円	-3～4%
8名以上	複数マイク配置	30K円以上	-4～5%

テクニック3：一人ずつ話す、話者の重なりを避ける

クロストーク（話者の同時発言）は音声認識の最大の敵だ。

複数の話者が同時に発言する場合、どちらの音声も周波数が混在し、モデルが「誰が何を言ったのか」を正確に判別できなくなる。実測では、クロストークが発生すると両者の認識精度が同時に20～30%低下することが確認されている。

実装可能な進行ルール

ファシリテーター向け３ステップ

事前周知（会議開始時に30秒で告知）
- 「精度の高い議事録のため、一度に1名の発言をお願いします」
- AIツール使用を事前告知することで、自然な同意が得られやすい
発言時の軽い促し
- クロストークが発生したら「ちょっと申し訳ない。〇〇さんから先にお願いできますか」と一言
- 否定的ではなく「順番を確保する」トーンが効果的
議論が白熱した時の対応
- 「今の部分は重要なので、誰の発言か明確にしておきたい」と明確に伝える
- 参加者の協力意欲を引き出すことで、精度向上の主体性が生まれる

効果の目安

クロストークなし：推定CER 3～5%
クロストーク 10%未満：推定CER 5～7%
クロストーク 20%以上：推定CER 10%以上

進行管理により、クロストークを10%以下に抑えることで、CER 1～2%の精度改善が期待できる。

テクニック4：高精度モードを重要会議で使う（戦略的選択）

すべての会議を高精度モードで処理する必要はない。重要度と内容に応じた使い分けが最適だ。

MinuteKeepの高精度モード（gpt-4o-transcribe）はスタンダード（gpt-4o-mini-transcribe）の2倍のクレジットを消費する。しかし対象を限定することで、クレジット効率を保ちながら重要な記録の精度を確保できる。

高精度モード導入の判断基準

必ず高精度を使うべき場面

商談・交渉の記録（数字・条件・期日が記録対象だから）
外部への議事録配布（受け取り側の信頼が前提だから）
契約・合意事項の確認（後から「そんなこと言っていない」問題を防ぐため）
専門用語・固有名詞が多い会議（医療・法律・金融分野など）

標準モードで十分な場面

社内の定例会議（参加者が固定で、全体の流れを把握できれば足りる）
ブレインストーミング（アイデアの記録が目的で、細部の誤りは後で補正可能）
個人用の自習・復習録音（自分で内容を把握しているから誤変換に気づきやすい）

実際のコスト削減シミュレーション

30分無料 + 2時間パック（¥150）の場合、月20時間の会議録音を想定：

戦略	月間クレジット消費	月額コスト	推定利用可能時間
全て標準モード	20時間	¥150	20時間（2h パック購入時）
重要会議のみ高精度（月4時間）	16h（標準）+ 8h（高精度相当）	¥300	20時間（7h パック購入推奨）
効率的な使い分け	16h（標準）+ 4h（高精度相当）	¥150	22時間

戦略的選択により、月額コストを抑えながら重要記録の品質を確保できる。

テクニック5：カスタム辞書に固有名詞を事前登録（継続的改善）

AI文字起こしが最も誤変換しやすいのが固有名詞だ。これを辞書に事前登録することで、モデルの学習データの不足を補える。

社名（「ソリマチ」が「ソリマティ」に変換される）、製品名（「kintone」が「キンとん」になる）、人名の同音異義（「佐藤」vs「左藤」）——こうした誤変換は後から見直すときに「スキャンする目が素通りしやすい」という特性がある。事前登録で、後処理を最小化できる。

登録すべき語リスト

優先度1：必ず登録（同音異義が多い）

自社・主要取引先の会社名：フルネーム + よく使う略称
代表製品・サービス名：複数のカタカナ表記ゆれを予測登録
業界標準アクロニム：KPI、MRR、CAGR、NPV、など

優先度2：会議1週間前までに登録（記憶負荷を減らす）

その週の商談相手企業名
プロジェクト名・キャンペーン名
重要顧客人名

優先度3：会議後のレビュー時に追加（継続的改善）

実際に誤変換されたが重要な語
前回の会議で修正した語（繰り返し誤変換を防ぐため）

→ 詳しい使い方はカスタム辞書機能ガイド（MJ08）を参照

効果の試算

初期辞書登録（30～50語）により、以下の改善が期待できる：

項目	登録前	登録後	改善度
固有名詞の誤変換率	20～30%	2～5%	-80～90%
後処理に要する時間	15～20分	3～5分	-70～75%
CER改善（全体）	基準値	-1～2%	-1～2%

1万文字の会議での誤り削減：200～400文字 → 80～200文字

複合効果：5つのテクニックの組み合わせ

単一のテクニックより、複合的に組み合わせることで指数関数的な精度向上が期待できる。

シナリオ：重要な商談会議での実装

テクニック	実装方法	単独でのCER改善	複合時の効果
1. 環境改善	閉じた静かな会議室、エアコン停止	-2～3%	基盤
2. マイク配置	USB単一指向性マイク、テーブル中央	-1～2%	環境と相互補強
3. 話者配置	クロストークなし（99%以上）	-1～2%	前提条件
4. 高精度モード	gpt-4o-transcribe使用	-2～3%	全体の基礎
5. カスタム辞書	主要語30語登録	-1～2%	仕上げ
合計効果	全て実装	-7～12%	CER 3%前後達成可

実際の結果イメージ：

スマートフォン内蔵マイク + 標準モード + 辞書なし → CER 8～10%
上記5つ全て実装 → CER 3～4%

誤り削減量：1万文字で800～1,000文字 → 300～400文字（修正作業が約60～70%削減）

CTA：MinuteKeepで今すぐ試す

MinuteKeepでは30分の無料録音枠で、上記5つのテクニックの効果を実際に検証できる。

異なる録音環境での精度差を確認
USB外部マイクと内蔵マイクの比較テスト
カスタム辞書の登録と効果測定

まずは1つの重要会議を高精度モード + カスタム辞書で記録し、修正作業の時間削減を実感してほしい。

MinuteKeepをApp Storeで無料ダウンロード →

FAQ

Q. どれか1つだけ実装するなら、何から始めるべき？

圧倒的に「マイク距離と環境整備」だ。モデルを変更するより、マイク品質1段階のアップグレードのほうが精度向上のROIが高いことが多い。次に、会議のクロストークを減らす進行管理。これだけで CER 1～2%の改善が期待できる。

Q. スマートフォンのマイクでも大丈夫か？

十分な場合が多い。ただし、マイクから20cm以内に全話者を配置する必要がある。4名以上の会議や、参加者が分散している場合は外部マイクの導入を推奨する。実験結果では、$50の USB マイクが内蔵マイクより 10～15 ポイント正確度が高い。

Q. 高精度モードはいつ使うべき？

商談・交渉、外部配布、重要な数字が記録される会議。迷ったら「議事録を相手方に送るか」で判断すればよい。送るなら高精度、社内だけなら標準でほぼ間違いない。

Q. 後処理（修正作業）にはどのくらい時間がかかる？

標準モード + 辞書登録なし：1時間会議で 15～20分。高精度モード + 辞書登録：3～5分。5つのテクニック全て実装時は、ほぼ査読不要レベルに到達できることもある。

Q. カスタム辞書は登録数に制限がある？

MinuteKeepは無制限登録可能。ただし実用的には 50～100 語の登録が最も効率的。それ以上になると、入力・管理のコストが増加する。業界固有用語は「会議ごとの一時登録」より「チーム全体で共有される標準辞書」として整理することを推奨。