ハンズオン:Appleの新しい音声認識APIがWhisperを凌駕し、超高速文字起こしを実現

ハンズオン:Appleの新しい音声認識APIがWhisperを凌駕し、超高速文字起こしを実現
ハンズオン:Appleの新しい音声認識APIがWhisperを凌駕し、超高速文字起こしを実現

先週の火曜日の夜遅く、スティーブ・ジョブズ・シアターで「F1: The Movie」を観た後、フェデリコをホテルに送って車で戻る途中、テキストメッセージが届きました。

迎えに来てもらえますか?

それは息子のフィンからの電話でした。彼はその晩、近くで過ごし、「Find My」で私をストーキングしていました。もちろん、私はすぐに彼を迎えに行き、クパチーノのホテルに戻りました。

道中、フィンはAppleのSpeechフレームワークに新しく追加されたSpeechAnalyzerというクラスとそのモジュールSpeechTranscriberについて教えてくれました。このクラスとモジュールはどちらも、先週のWWDCで開発者向けにリリースされたAppleのOSベータ版に含まれています。フィンがSpeechAnalyzerとSpeechTranscriberを試してみて、その速さと精度に感銘を受けたと聞いたとき、私はすぐに耳を傾けました。

これらの技術はまだ初期段階ですが、講義、ポッドキャスト、YouTube動画などから音声文字変換を利用してテキストを作成する人にとって、そのスピードだけでも画期的なものだということをお伝えしたいと思います。私はAppStories、NPC、Unwindで毎週何度も文字変換を行っており、YouTubeにアップロードしています。サイトの内蔵文字変換機能があまり良くないからです。

他のツールでイライラするのは、その遅さです。ほとんどのツールは、2022年にリリースされたOpenAIのオープンソース音声テキスト変換モデル「Whisper」をベースに構築されています。100万トークンあたり1セント以下と安価ですが、処理速度が遅く、YouTubeワークフローの最終段階ではイライラさせられます。

フィンに、SpeechAnalyzerとSpeechTranscriberを使って動画や音声ファイルを文字起こしするコマンドラインツールを作るにはどれくらいかかるか尋ねたところ、彼は10分くらいでできるだろうと答え、その通りだった。結局、WWDC後にmacOS Tahoeをインストールするのにかかった時間は、フィンがYap(音声ファイルと動画ファイルを入力としてSRT形式とTXT形式の文字起こしを出力するシンプルなコマンドラインユーティリティ)を作るのにかかった時間よりも長かった。

昨日、ついにTahoeに飛びつき、Yapをすぐにインストールしました。AppStoriesのエピソード441(約34分)の7GB 4Kビデオバージョンをダウンロードし、Yapで再生してみました。SRTファイルの生成にはわずか45秒しかかかりませんでした。以下は、YapがNPCのエピソードの約20%を10秒で再生している様子です。

次に、同じファイルをVidCapとMacWhisperのV2 LargeとV3 Turboモデルで実行しました。各アプリとモデルの結果は次のとおりです。

アプリ 転写時間
ヤップ 0:45
マックウィスパー(大型V3ターボ) 1:41
ビッドキャップ 1:55
マックウィスパー(ラージV2) 3:55

3つの転写ワークフローすべてにおいて、姓や「AppStories」のような単語で同様の問題が発生しました。LLMでは、これらの単語はキャメルケースではなく2つの単語に分割される傾向があります。これは、検索と置換のルールを実行することで簡単に修正できますが、今後の転写のために、これらの修正内容をモデル自体にフィードバックしたいと考えています。

何よりも目立ったのはYapのスピードでした。SpeechAnalyzerとSpeechTranscriberをデバイス上で活用することで、このコマンドラインツールは7GBの動画ファイルをMacWhisperのLarge V3 Turboモデルと比べて2.2倍もの速さで処理し、文字起こしの品質に目立った差はありませんでした。

一見すると、0:45と1:41の違いは取るに足らないものに見えるかもしれませんし、実際そうかもしれません。しかし、これはたった34分の動画1本の結果です。これを、 の助けを借りてYouTubeに公開されたApple Developer動画の何時間分にも及ぶ処理にYapを実行した場合と仮定するとyt-dlp、途端にかなりの時間を要することになります。あらゆる自動化と同様に、週に複数回、動画や音声クリップ1つずつ、2.2倍の速度向上を実現すれば、すぐに大きな効果が得られます。

YouTube用の動画を制作して字幕が必要な場合でも、学校で講義の要約を作成する場合でも、その他の用途でも、iPhone、iPad、Mac、Vision Proで利用可能なSpeechAnalyzerとSpeechTranscriberは、品質を損なうことなく文字起こしの速度を大幅に向上させます。この組み合わせが、Appleプラットフォームの文字起こしアプリのデフォルトの文字起こしモデルとしてWhisperに取って代わると確信しています。

Apple の新しいモデルをテストするには、現在 Apple 開発者アカウントが必要な macOS Tahoe ベータ版をインストールし、その後 GitHub ページから Yap をインストールします。

クラブ・マックストーリーズ

追加コンテンツと特典にアクセスする

Club MacStories は 2015 年に設立され、ほぼ 10 年間にわたって毎週独占コンテンツを提供してきました。

毎週、毎月の電子メール ニュースレターから始まったものが、すべての MacStories ファン向けに設計されたメンバーシップ ファミリーに成長しました。

詳細については、こちらおよびクラブの FAQ をご覧ください。

Club MacStories : アプリ、ヒント、自動化ワークフロー、長​​文執筆、MacStories Unwind ポッドキャストへの早期アクセス、定期的な景品など、盛りだくさんの情報を満載した、電子メールと Web 経由の週刊および月刊ニュースレター。

Club MacStories+ : Club MacStories が提供するすべての機能に加え、アクティブな Discord コミュニティ、クラブの過去のカタログ全体を閲覧するための高度な検索機能とカスタム RSS 機能、ボーナス コラム、多数のアプリ割引などが含まれます。

Club Premier : 上記のすべてに加え、早期に、広告なしで、高ビットレートのオーディオで配信される当社の主力ポッドキャストの拡張バージョンである AppStories+ が含まれます。