音声入力アプリは危険？声データをサーバーに送る前に知っておきたいリスクと安全な使い分け

最近、AIを使った音声入力アプリがかなり便利になっています。

キーボードで打つより速いし、思いついたことをそのまま文章にできる。ブログの下書き、メール、メモ、ChatGPTへの質問文づくりなど、使いどころはいくらでもあります。

私も「これはかなり便利だな」と素直に思いました。

ただ、その一方で気になったことがありました。

音声入力アプリの中には、録音した音声をサーバーに送って、サーバー側で文字起こしや文章整形をして結果を返してくるタイプがあります。

サーバーで処理するからこそ精度が高く、処理も速く、自然な文章に整えてくれる。それはわかっています。

でも、ふと思ったんですよね。

これ、自分の声を外部サーバーに送っているということだからもしかしたら危険なのではないか？、と。

結論から言うと、音声入力アプリは危険な道具ではありません。

ただし、何でも話していい道具でもありません。

公開前提の文章や一般的なメモなら、クラウド型の音声入力を使っても問題ない場面は多いと思います。一方で、住所、電話番号、口座情報、仕事の機密、顧客情報、医療や法律やお金にまつわる個人的な話をそのまま話すのは、慎重になった方がいいです。

音声入力アプリを安全に使うために押さえておきたいことは、大きく3つです。

何がサーバーに送られるのかを知ること。

話す内容をリスク別に分けること。

機密性の高い内容は、ローカル処理か、条件を確認したサービスで扱うこと。

この記事では、その考え方を整理します。

音声入力は「ただの文字入力」ではない
パスワードは変えられる。でも声は簡単には変えられない
音声入力で外に出る可能性があるのは、声だけではない
サーバー型の音声入力が悪いわけではない
「通信が暗号化されている」だけでは十分ではない
「削除したら完全に消える」とは限らない
SOC 2やISO 27001があれば絶対安全なのか
ローカル処理の強みは「そもそも預けない」こと
ローカル処理なら何でも安心、ではない
話す内容で使い分ける
仕事で使うなら個人の判断で選ばない
音声入力アプリを選ぶときのチェックリスト
すでに使っている人が今日から見直せること
一番効くのは「話す前に分ける」こと
音声入力は使っていい。ただし、精度だけで選ばない
参考サイト

音声入力は「ただの文字入力」ではない

最初、私は音声入力を「キーボード入力の便利版」くらいに考えていました。

でも、よく考えると少し違います。

キーボード入力で送っているのは基本的に文字です。もちろん、その文字の中に個人情報が含まれていれば危険なのは変わりません。

でも、音声入力の場合は、文字になる前の「声」そのものを送ることがあります。

声には、話した内容だけでなく、その人らしさが含まれています。声の高さ、話し方、間、癖、発音、テンション。そういった情報が一体になったものが音声データです。

そして、今はAIで声を複製できる時代です。

米国FTCなどは、AIによる音声クローンを使った詐欺に注意を呼びかけています。家族や知人の声に似せて緊急事態を装い、送金や個人情報を求めるような手口です。

短い音声を一度送っただけで、必ず悪用されるという話ではありません。

でも、高音質な音声や長時間の会話が蓄積されるほど、声の悪用リスクは高まります。

ここが、普通のテキスト入力と少し違うところだと思います。

AIが進化しすぎた時代だからこそ、自分の声データを取られて、それを詐欺に使われる可能性だってあるんよね。自分の声を生成されて、それで両親や祖父母にオレオレ詐欺でもされたらたまらんで(((( ;ﾟдﾟ)))ｱﾜﾜﾜﾜ

パスワードは変えられる。でも声は簡単には変えられない

私が一番気になったのは、実はここです。

パスワードが漏れたら変更できます。

クレジットカード番号が漏れたら再発行できる。

メールアドレスも、面倒ではありますが変えられます。

でも、声は簡単には変えられません。

もちろん、年齢や体調によって声は変わります。録音環境やマイクの性能によっても、聞こえ方は変わる。それでも、パスワードのように「漏れたから今日から別の声にします」とはいきません。

音声入力アプリに送った声がすぐに悪用されるとは限らないし、過度に恐れる必要もないと思います。

ただ、声データは一度漏れたときの取り返しがつきにくい。

だから「便利だから何でも話す」という感覚は、少し危ないと思いました。

生体データは慎重にしたほうが本当にいいと思う。

音声入力で外に出る可能性があるのは、声だけではない

音声入力アプリで注意すべきなのは、音声データだけではありません。

アプリや設定によっては、録音された音声に加えて、文字起こしされたテキスト、AIが整形・要約した文章、入力した時刻、利用端末やOSの情報、アプリの利用履歴やエラーログ、背景音や周囲の会話、会議参加者など他の人の声。こうしたものが外部サーバーに送られる可能性があります。

特に見落としやすいのが、文字起こし後のテキストです。

「音声データは保存しません」と書かれていても、文字起こし結果や要約、ログが別扱いで保存されるケースがあります。

また、音声認識はローカルで行っていても、その後の文章整形や要約だけクラウドAIに送っているアプリもあります。

確認すべきなのは「音声を保存するか」だけではありません。

音声、テキスト、要約、ログ、メタデータまで含めて、どこに送られ、どのくらい残るのかを把握する必要があります。

サーバー型の音声入力が悪いわけではない

ここで誤解したくないのは、サーバー型の音声入力がすべて危険というわけではない、ということです。

サーバー型には明確なメリットがあります。

高性能なAIモデルを使える。
古いスマホやPCでも動く。
日本語の認識精度が高い場合がある。
文章整形や要約もできる。
会議録音や話者分離に強い。
複数デバイスで同期しやすい。
チーム共有機能がある。

サービスによっては、個人の端末だけで管理するより、クラウド側のセキュリティ管理が整っている場合もあります。

問題は、サーバー型かどうかではありません。
大事なのは、データの扱いが明確かどうかです。

特に確認したいのは次のような点です。

音声データはサーバーに送られるのか。
文字起こし結果は保存されるのか。
保存される場合、保持期間はどれくらいか。
AIモデルの学習やサービス改善に使われるのか。
人間のレビュアーが確認する可能性があるのか。
外部のAIプロバイダーや委託先に送られるのか。
無料版、有料版、法人版、API利用で条件が違うのか。
削除した場合、どこまで削除されるのか。

「有名な会社だから安心」とも言い切れないし、「サーバーに送るから全部危険」とも言い切れません。

見るべきは会社名ではなく、データの流れです。

「通信が暗号化されている」だけでは十分ではない

多くのサービスは通信を暗号化しています。

これは重要です。

ただし、通信が暗号化されていることと、運営会社がデータを見られないことは別の話です。

音声認識や文章整形をサーバー側で行う場合、サービス提供者は処理のためにデータを扱う必要があります。

つまり、通信経路が安全でも、サーバー側での保存、利用、管理は別の問題です。

確認すべきなのは「暗号化されています」という説明だけではありません。

保存時も暗号化されるのか。
アクセスできる従業員は制限されているのか。
人間レビューの対象になるのか。
第三者に送られるのか。
AIの学習データに使われるのか。
削除依頼にどう対応するのか。

ここまで見ないと、本当の意味での安全性は判断できません。

「削除したら完全に消える」とは限らない

音声入力アプリで履歴を削除すると、自分の画面からは見えなくなります。

でも、それがサーバー側から即座に完全削除されたことを意味するとは限りません。

不正利用対策、障害調査、法令対応、安全性確認などを目的に、サービス側が一定期間ログを保持することがあります。

また、バックアップや監査ログ、人間レビュー済みのデータが、通常の履歴削除とは別に扱われる場合もあります。

たとえば、GoogleのGeminiアプリに関する公式説明では、人間のレビュアーが確認した会話や関連データが、Googleアカウントから切り離された形で最長3年保持される場合があると説明されています。

これはすべての音声入力アプリが同じという意味ではありません。

ただ、「自分の画面から消えたから、サーバーからもすぐ消えたはず」と思い込まないことは大切です。

削除機能を見るときは、「履歴の削除」なのか「サーバーデータの削除」なのか、音声とテキストの両方が対象なのか、バックアップやレビュー済みデータも含まれるのか、削除までにどのくらい時間がかかるのか、法令対応などの例外があるのか。こうした点を確認するようにしたいです。

SOC 2やISO 27001があれば絶対安全なのか

音声入力アプリやAIサービスの公式サイトで、SOC 2 Type IIやISO 27001といった認証を見かけることがあります。

これらは重要な判断材料です。

ただし、認証があるからといってすべてが安全と決まるわけではありません。

SOC 2 Type IIは、一定期間にわたって管理体制が運用されていたかを見る監査です。
ISO 27001は、情報セキュリティマネジメント体制に関する国際規格です。

どちらも企業のセキュリティ管理を判断するうえで役立ちます。

しかし、次のことまでは自動的に保証しません。

音声データを保存しない。
AIの学習に使わない。
人間がレビューしない。
第三者に送らない。
削除したら即座に完全消去される。
すべてのプランに同じ条件が適用される。
認証を見るときは対象範囲が重要です。
その認証が、どの製品、どのシステム、どのデータ処理、どのプランに適用されているのか。
外部委託先やサブプロセッサまで含まれているのか。
個人向けプランと法人向けプランで扱いが違うのか。

認証マークだけで判断せず、プライバシーポリシー、データ処理条件、サブプロセッサ一覧、法人向け契約条件まで見る必要があります。

SOC 2 Type IIとISO 27001については、別の記事で詳しく整理します。
＞SOC 2 Type IIとは？AIサービスで「安全そう」に見えたとき確認すべきこと

ローカル処理の強みは「そもそも預けない」こと

サーバー型が気になる場合の選択肢として、ローカル処理があります。

ローカル処理とは、スマホ、Mac、PCなどの端末内で音声認識を行う方式で、音声データを外部サーバーに送らずに文字起こしします。（ただし、スマホの場合は、端末、OS、言語、アプリ、選択するモデルによって対応状況が変わります。iPhoneの標準音声入力やPixelの一部機能など。すべてのスマホ音声入力が常に完全ローカルで動くわけではありません。）

この方式の強みはシンプルです。

安全に預けるのではなく、そもそも預けない。

機密性の高い内容を扱う場面では、この考え方はかなり強力です。

AppleのSiriや音声入力でも、対応する端末、言語、機能ではオンデバイス処理が使われる場合があります。

ただし、すべての処理が常に端末内で完結するわけではなく、端末、言語、設定、リクエスト内容によってはサーバー処理が使われることもあります。

Whisper系の音声入力アプリなどでは、ローカルモデルとクラウドモデルを選べるものがあります。

同じアプリでも、どちらのモードで動いているかでデータの流れは変わります。アプリ名だけで判断せず、実際の動作モードを確認することが重要です。

私はMacのローカルでWhisperを動かして音声入力しています。MチップシリーズのMacであればかなり高い精度にも関わらずサクサク動かせます。

ローカル処理なら何でも安心、ではない

もっとも、ローカル処理にも注意点があります。

まず、端末の性能に左右されます。高精度な音声認識モデルをローカルで動かすには、ある程度のCPU、GPU、メモリが必要で、端末によっては処理が遅かったり、バッテリー消費が大きかったりします。

機能面では、クラウド型の方が便利な場合もあります。

会議の自動要約、話者分離、チーム共有、複数端末の同期などは、クラウド型の方が得意なことが多いです。

⚠️また、ローカル処理とクラウド処理が混在するアプリもあります。

たとえば、音声認識はローカルでも文章整形はクラウドAIに送る。
音声は保存しなくても文字起こしテキストは保存する。
ローカル処理でも履歴はクラウド同期される。
ローカルモードでも利用状況やエラーログは送信される。

こういったケースがあります。

「ローカル対応」と書かれているだけでは不十分です。

音声ファイルが端末外に出ないか、文字起こし結果がクラウドに送られないか、AI整形や要約はどこで行われるか、履歴はクラウド同期されるか、完全オフラインで使えるか。これらを個別に確認する必要があります。

ローカルでも使えると有名なWhisper系アプリをMacに入れてみたのですが、高性能モデルを使おうと思ったらやっぱりサーバー処理が必要だったんですよね。

話す内容で使い分ける

音声入力アプリは、話す内容によって使い分けるのが現実的です。

話す内容	おすすめの使い方
公開予定のブログ下書き	クラウド型でも比較的使いやすい
一般的なアイデアメモ	クラウド型でも許容しやすい
買い物リストや日常メモ	低リスクならクラウド型でもよい
住所・電話番号・口座情報	話さないか、後で手入力する
パスワード・認証コード・秘密鍵	音声入力しない
家族の詳しい事情	ローカル処理か、内容をぼかす
医療・法律・お金の相談	ローカル処理、または条件を確認したサービスを使う
顧客情報・契約情報	個人向けアプリではなく、会社承認済みのサービスを使う
社外秘の企画・未公開情報	ローカル処理か、法人契約で条件確認済みの環境を使う
会議録音	参加者への説明・同意と、保存期間の確認が必要

特に絶対に避けたいのは、パスワード、認証コード、秘密鍵、クレジットカード番号、マイナンバー、顧客情報などをそのまま話すことです。

これは音声入力に限らず、クラウドAI全般に言えることです。

仕事で使うなら個人の判断で選ばない

仕事で音声入力アプリを使う場合は、個人の便利さだけで選ばない方がいいです。

顧客名、メールアドレス、電話番号、契約内容、見積金額、売上情報、社内会議の内容、未公開の企画、採用、評価、人事情報、医療、金融、法律に関わる情報。こうしたものを個人向けアプリに話してしまうと、社内規程や契約上の義務に反する可能性があります。

仕事で使うなら最低限、会社が利用を許可しているか、入力データがAI学習に使われない契約になっているか、データ処理契約を結べるか、保存期間を管理できるか、外部委託先やデータ保管地域を確認できるか、SOC 2 Type IIやISO 27001などの監査・認証情報があるか。

これらを確認してから使うことをすすめます。

個人利用では便利なアプリでも、業務利用では不適切な場合があります。

ここは、かなり大事なポイントです。

音声入力アプリを選ぶときのチェックリスト

音声入力アプリを選ぶとき、精度だけで選ばない方がいいです。

日本語の認識精度、句読点の自然さ、文章整形のうまさは大事です。でも、それと同じくらいデータの扱いも重要です。

最低限、次の項目を確認してください。

音声認識はローカルか、クラウドか
クラウドの場合、どの会社のサーバーで処理されるか
外部AIプロバイダーに送られるか
音声データ・文字起こしテキストは保存されるか
保存期間は明記されているか
AIの学習やサービス改善に使われるか
人間レビューの対象になるか
履歴削除で何が削除されるか
無料版と有料版、個人版と法人版で扱いが違うか
データ共有や品質改善をオフにできるか
マイク権限を必要なときだけ許可できるか
セキュリティ認証や監査情報があるか
プライバシーポリシーが具体的に書かれているか

プライバシーポリシーを読んでも判断できない場合は、その時点で機密性の高い内容には使わないのが無難です。

すでに使っている人が今日から見直せること

すでに音声入力アプリを使っている場合も、今から見直せることはあります。

まずアプリの設定を確認しましょう。

履歴保存をオフにできるか。
自動削除期間を設定できるか。
品質改善や学習利用をオプトアウトできるか。
クラウドモデルではなくローカルモデルを選べるか。
マイク権限を「使用中のみ」にできるか。

こうした設定を一度見直してみてください。

次に、過去の履歴も確認します。

パスワード、認証コード、顧客情報、社外秘の内容などを話していた場合は、必要に応じてパスワード変更や関係者への確認を検討してください。

ただし、過度に不安になる必要はありません。

重要なのは今後の使い方を変えることです。

一番効くのは「話す前に分ける」こと

音声入力を安全に使う一番現実的な方法は、サービス選びだけに頼らないことです。

話す前に内容を分ける。

これが一番効きます。

クラウド型の音声入力を使う場合でも、たとえばこんな工夫ができます。

顧客名を言わずに「A社」「Bさん」と置き換える。

金額や住所は後で手入力する。

パスワードや認証コードは絶対に話さない。

家族や健康の話は抽象化する。

仕事の機密情報はローカル処理に限定する。

会議録音は参加者に説明してから行う。

これだけでも、リスクはかなり下げられます。

使い分けるのがめんどくさい方は、ローカルで動くやつにした方が個人的にはいいと思います。
M4チップ以降のMacであれば、ローカル処理でもサクサク動きますし。

音声入力は使っていい。ただし、精度だけで選ばない

音声入力アプリはこれからもっと普及すると思います。

キーボードより速く、スマホでも使いやすく、AIとの相性も良い。文章を書く人、会議が多い人、メモをよく取る人にとって、音声入力はかなり強力な道具です。

だからこそ、精度だけで選ばない方がいい。

見るべきは次の3つです。

どこで処理されるのか
何が保存されるのか
何に使われるのか

声は、ただの入力データではありません。本人らしさを含んだデータです。

そして、パスワードのように簡単には変えられない。

音声入力アプリは使っていい。

ただし、何を話すかは分ける。

公開前提の文章や一般的なメモにはクラウド型を使う。

機密性の高い内容にはローカル処理を使う。

仕事で使うなら、会社が認めたサービスと契約条件を確認する。

サーバー型を使うなら、保存期間、学習利用、人間レビュー、第三者提供を確認する。

便利さだけで飛びつかず、自分の声と話した内容がどこに行くのかを意識する。

それが、AI時代の音声入力を安全に使うための基本だと思います。

参考までに。それでは！

便利だからと使いまくりたい気持ちはわかりますが、音声データをサーバーに送る音声入力はめっちゃ注意した方がいいと思います。

Macを使っていてローカルで自作の音声入力ツールを作りたい方は、こちらの記事を参考にしてください。
＞mlx-whisperでMac音声入力を自作｜ローカル環境で使う方法

参考サイト

米国連邦取引委員会（FTC）
Family Emergency Scams
https://consumer.ftc.gov/articles/family-emergency-scams

米国連邦取引委員会（FTC）
Fighting back against harmful voice cloning
https://consumer.ftc.gov/consumer-alerts/2024/04/fighting-back-against-harmful-voice-cloning

OpenAI
Data controls in the OpenAI platform
https://platform.openai.com/docs/guides/your-data

Google
Gemini Apps Privacy Hub
https://support.google.com/gemini/answer/13594961

Apple
Ask Siri, Dictation & Privacy
https://www.apple.com/legal/privacy/data/en/ask-siri-dictation/

Apple
Privacy – Features
https://www.apple.com/privacy/features/

AICPA & CIMA
SOC 2 – SOC for Service Organizations
https://www.aicpa-cima.com/topic/audit-assurance/audit-and-assurance-greater-than-soc-2

ISO
ISO/IEC 27001:2022
https://www.iso.org/standard/27001

Superwhisper
Voice models
https://superwhisper.com/docs/models/voice

Superwhisper
AI Models in Superwhisper
https://superwhisper.com/models

Superwhisper
Sensitive Data Best Practices
https://superwhisper.com/docs/security/sensitive-data