多言語会議をAIで文字起こしする方法|英語×日本語ミックス対応
英語と日本語が混在する外資系・グローバル企業の会議で、AI文字起こしがどこまで使えるか。技術的な課題、アプリ比較、クロスランゲージ要約の活用法まで実務目線で解説。
「Today's agenda is…ではじまり、途中からどんどん日本語になって、最後にまたQ&A is open」——外資系企業や英語公用語を掲げる国内企業の会議室では、こういう光景が日常だ。
英語と日本語が入り混じる会議を録音してAI文字起こしにかけると、何が起きるか。うまくいけば両言語を混在したまま正確にテキスト化してくれる。うまくいかなければ、英語パートが全部ひらがなになっていたり、話者の切り替えタイミングで文字が飛んだりする。
この記事では、多言語会議の文字起こしに潜む技術的な課題を正直に説明した上で、現時点でどのアプリが何に対応していて何ができないか、そしてMinuteKeepのクロスランゲージ要約をどう使えば実務で役立つかを整理する。
議事録作成を自動化しませんか? MinuteKeepは、会議を録音するだけでAIが文字起こし・要約・タスク抽出まで自動化。9言語対応、月額0円、30分無料。
多言語文字起こしとは何か
**多言語文字起こし(Multilingual Transcription)**とは、2つ以上の言語が含まれる音声を、言語ごとに正確にテキスト化する処理のことだ。
単純な多言語対応(「58言語に対応」と謳うサービス)とは区別が必要で、ここで問題になるのはコードスイッチングと呼ばれる現象だ。コードスイッチングとは、会話の中で話者が2つ以上の言語を切り替えながら話すことを指す言語学の用語で、英語公用語化企業の会議では「センテンス内で英語と日本語が混在する」ケースも珍しくない。
例:「このquarterのforecastは、前回のミーティングで合意した通り、reviseしていきたいと思います」
この一文は英語でも日本語でもない。しかし、外資系企業で働くビジネスパーソンにとっては、きわめて自然な発話だ。
なぜ多言語・コードスイッチングは音声認識に難しいのか
言語境界でエラーが集中する
従来の音声認識エンジンは基本的に「この音声は何語か」を先に決め、その言語モデルで処理する設計だった。そのため言語が切り替わる瞬間——コードスイッチングの境界部分——で精度が著しく落ちる。
研究によれば、コードスイッチング境界では単語誤り率(WER)が30〜50%上昇する事例が報告されている。つまり、平常時には95%の精度を誇るエンジンでも、言語の切り替えが起きると70%前後まで低下する可能性がある。
トークナイザーの限界
AIモデルは音声を「トークン(認識単位)」に分解して処理する。英語と日本語では文字体系も音素の数も異なるため、単一のトークナイザーで両言語を同等に処理するのは技術的に困難だ。古いモデルでは、日本語テキスト中に突然英語が出てきたとき、[UNK](未知語)として処理してしまい、文字起こし結果に空白や記号が混入することがある。
話者交代との複合問題
多言語会議では、話者の交代と言語の切り替えが同時に発生することが多い。「Aさんが英語で質問し、BさんがA、BさんがCさんに日本語で補足を求め、Cさんが英語で答え直す」——こうした入り組んだやりとりでは、話者識別(Speaker Diarization)と言語識別(Language Identification)の双方でエラーが重なり、議事録の可読性が著しく下がる。
主要アプリの多言語対応比較
実際に多言語会議で使われることの多いサービスを比較する。
| アプリ | 対応言語数 | コードスイッチング | クロスランゲージ要約 | 料金モデル |
|---|---|---|---|---|
| Notta | 58言語 | 非対応(1言語ずつ設定) | 翻訳機能あり(別機能) | サブスク(月額¥1,185〜) |
| Otter.ai | 英・西・仏のみ | 非対応 | なし | サブスク(月額$8.33〜) |
| Microsoft Copilot(Teams) | 多言語 | 部分対応 | 要約内翻訳あり | Microsoft 365契約が前提 |
| Google Meet 文字起こし | 多言語 | 非対応(1言語設定) | なし | Google Workspace契約が前提 |
| MinuteKeep | 9言語 | 事前設定した主要言語で対応 | 対応(9言語間で要約言語を変更可) | 従量課金(30分無料〜) |
注: コードスイッチングへの完全対応(センテンス内の語単位での言語混在を精度よく処理すること)は、現時点でどのサービスも実現できているわけではない。上記は「どのモデルを使い、どの言語設定で動作するか」を比較した表だ。
NottaとOtter.aiについて
Nottaは58言語対応という点でリストの中では最も広い。ただし言語設定は「1会議ごとに1言語を選択する」形式で、英語・日本語のコードスイッチングをそのまま処理する機能ではない。翻訳機能は文字起こし後に別途適用する仕様だ。
Otter.aiは英語特化で設計されており、英語以外の言語対応は限定的だ。英語主体の外資系企業で英語のみ話す会議なら精度は高いが、日英混在には向かない。
詳細な料金・機能比較はAI議事録アプリ比較2026を参照してほしい。
Whisper(OpenAI)ベースのサービス
MinuteKeepが使用するgpt-4o-transcribeおよびgpt-4o-mini-transcribeはWhisperの後継モデルにあたる。Whisperは68万時間以上の多言語音声データで学習しており、日本語・英語ともに高い精度を持つ。特に後継のgpt-4o-transcribeは、旧来のWhisperと比較して単語誤り率(WER)が改善され、言語認識の精度も向上している。
ただし、「コードスイッチングを完璧に処理する」というより、「録音前に主要言語を設定した上で、その言語中心で高精度を保つ」という設計だ。
MinuteKeepのクロスランゲージ要約とは何か
MinuteKeepの最も実用的な多言語機能は、クロスランゲージ要約だ。
これは「会議は日本語で話したが、要約は英語で出力したい」という逆のニーズにも応える機能だ。設定画面の「要約出力言語」で言語を選択するだけで、どの言語で話した会議でも、指定した言語の要約・議事録が生成される。
対応言語の組み合わせ
入力(話す言語)と出力(要約言語)は独立して設定できる。
| 入力言語(話す言語) | 出力言語(要約言語) | ユースケース |
|---|---|---|
| 日本語 | 英語 | 社内会議の議事録をグローバル本社向けに英語で提出 |
| 英語 | 日本語 | 外資系企業の英語会議を日本語チームに共有 |
| 日本語+英語混在 | 日本語 | 外資系日本法人の会議を日本語で整理 |
| 日本語+英語混在 | 英語 | 同会議をグローバルチームに英語で共有 |
| 韓国語・ドイツ語など | 日本語 | 海外拠点との会議を日本語要約で確認 |
主要言語を事前設定することで精度を上げる
MinuteKeepには「録音中の自動言語切り替え」機能はない。そのため、会議の主要言語(全体のうち最も多く話される言語)を録音前に設定することが推奨される。
英語と日本語が混在する会議でも、「主要言語を日本語に設定して録音→英語の要約を取得」というフローが現実的かつ精度の出やすい使い方だ。英語パートが多い会議では「主要言語を英語に設定」するとよい。
文字起こし精度についての詳細はAI文字起こし精度を実際に検証してみたも参考にしてほしい。
MinuteKeepで多言語会議を記録する実践フロー
MinuteKeepを試したことがない方へ: 30分間は無料で全機能を利用できる。アカウント登録不要で、App Storeからインストール後すぐに使える。
STEP 1:会議前に言語を設定する
「設定」→「要約出力言語」から出力したい言語を選択する。会議の主要言語(最も多く話される言語)に合わせて文字起こし言語も確認しておく。
STEP 2:会議中に録音する
iPhoneをテーブル中央に置くか、マイクに近い位置で録音する。複数人の会議では、できるだけ話者とマイクの距離を均等にすることが精度向上につながる。英語パートが多い会議では「高精度モード」を使用することで、文字起こし精度がさらに向上する(消費時間は2倍になる)。
STEP 3:AIが自動で要約を生成する
録音終了後、自動で文字起こしと要約が実行される。要約フォーマットは「アクションアイテム重視」「議論の流れ重視」など5種類から選択でき、多言語会議の議事録作成に適したフォーマットを選べる。
STEP 4:出力言語の要約を確認・共有する
設定した言語で要約が生成される。英語要約であれば、そのままグローバルチームのSlackやメールに貼り付けるだけで共有できる。
多言語会議の文字起こし精度を上げる実践Tips
実際の外資系・グローバル企業での使用経験をもとに、精度改善に効果的な方法をまとめる。
会議前
1. 主要言語を明確に設定する MinuteKeepでは録音前に使用言語を確認する。日英混在会議であっても、どちらが主体かを意識して設定する。
2. カスタム辞書に業界用語・人名を登録する 社内で使う製品名、プロジェクト名、人名(特にカタカナになりやすい英語名)をカスタム辞書に登録しておく。これにより、AIが正しい表記で変換する精度が上がる。カスタム辞書の活用方法はカスタム辞書機能の使い方で詳しく解説している。
3. 英語専門用語はそのまま英語で話すよう合意する 可能であれば、会議の冒頭で「略語や専門用語は英語表記のまま使う」とチームで合意しておく。AIが英日の辞書変換を一貫して適用しやすくなる。
録音中
4. 一人が話し終えてから次の人が話す コードスイッチングと話者交代が重なると、AI側での処理が複雑になる。「かぶり話し」を減らすだけで、話者識別と言語識別の精度が改善される。
5. iPhoneをできるだけ音源に近づける 多言語会議では音声品質がそのまま精度に直結する。Zoom・Teamsのオンライン会議であれば、MinuteKeepを使って別途録音するよりも、録音音声をiPhoneのスピーカーから流してMinuteKeepで拾う方法も選択肢になる。
録音後
6. 文字起こしと要約を両方確認する 文字起こし(Transcriptタブ)と要約(Summaryタブ)の両方を確認する。固有名詞や数字が多いパートは文字起こし原文で確認し、要約の精度をクロスチェックする習慣をつけると品質が安定する。
FAQ:多言語文字起こしに関するよくある疑問
Q. 英語と日本語が混在する会議で、どちらの言語を設定すればよいですか?
会議全体の発話量の多い方を設定するのが基本だ。60%が日本語なら日本語を、70%が英語なら英語を設定する。どちらとも判断しづらい場合は、議事録の共有先(日本語チームか英語チームか)に合わせて出力言語を決め、そこから逆算して設定するとよい。
Q. 録音中に言語を切り替えることはできますか?
MinuteKeepでは録音中の言語切り替えは非対応だ。主要言語の設定は録音前に行う。ただし、要約出力言語は録音後でも変更できるため、「日本語で録音した会議を後から英語要約に変える」ことは可能だ。
Q. 英語ネイティブでない話者(インド英語・シンガポール英語など)の発話も認識できますか?
Whisperベースのモデルは多様なアクセントに対しても比較的安定した認識精度を持つ。これはWhisperの学習データが68万時間以上の多様な音声データ(さまざまな国籍・アクセント)をカバーしているためだ。ただし、アクセントが強い場合は標準的な発音と比較して若干精度が下がることはある。
Q. カスタム辞書は多言語対応していますか?
MinuteKeepのカスタム辞書は全9言語で動作する。日本語辞書・英語辞書を個別に設定でき、日英混在会議では両方の辞書が適用される。製品名や人名を正確に登録しておくと、多言語環境でも一貫した表記で出力される。
Q. Notta・Otterと比較して、MinuteKeepの多言語対応はどこが違いますか?
最大の違いはクロスランゲージ要約機能だ。NottaとOtterはそれぞれ文字起こし後に翻訳を適用する構造だが、MinuteKeepは要約生成の段階から目的言語で出力するため、翻訳調にならず自然な議事録が生成される。また、MinuteKeepはiOSアプリとしてオフライン録音から処理まで一貫して行えるため、ネット接続が不安定な環境でも録音の取り溢しがない。
まとめ:多言語会議のAI文字起こしで知っておくべきこと
多言語会議の文字起こしは、技術的にいまも課題が多い領域だ。ただし「完璧なコードスイッチング処理」を諦めた上で、現実的な設計——主要言語を事前設定し、クロスランゲージ要約で出力言語を制御する——を採用すれば、外資系企業・グローバルチームの実務に十分使えるレベルの品質を確保できる。
MinuteKeepのアプローチはシンプルだ。会議の言語設定を録音前に決め、要約の出力言語を目的に合わせて設定する。日本語で話した会議を英語要約でグローバル本社に送り、英語で話した会議を日本語要約で国内チームに共有する——この2つのユースケースをiPhoneだけで完結させることができる。
サブスクリプション不要で30分間は無料で試せる。まずは次の会議で録音してみてほしい。
関連記事
- AI文字起こしアプリの精度を実際に検証してみた|2026年版 — 精度指標WER・CERの読み方と、実務での誤りの見え方を解説
- カスタム辞書機能の使い方|専門用語を正確に文字起こしする方法 — 業界用語・人名・略語を辞書登録して精度を上げる具体的な手順
- AI議事録アプリ比較2026|サブスクなしで使えるのはどれ? — Notta・Otter・MinuteKeepほか7アプリを料金・機能で一覧比較