
先週、Appleから最上位モデルのMac Studio(M3 Ultra、RAM 512GB、ストレージ8TB)を借り受けたので、これを機にずっと考えていたことを再開しようと思いました。MacStoriesで短い「ノート」形式のブログをもっと書きたいのです。専用の「ノート」カテゴリーを設けています。今後は、このような「気楽な」短い投稿をもっと増やしていきたいと思います。
この Mac Studio は、私が現在行っている支援 AI と自動化の実験の一環として送られてきたもので、今後数週間から数か月かけて行う予定の作業の 1 つは、Apple Silicon のパワーと、M3 Ultra とこのコンピュータのスペックによってもたらされる驚異的なパフォーマンス ヘッドルームを活用するローカル LLM をいろいろ試してみることです。ローカル AI に関しては学ぶべきことがたくさんあります(これまでのショートカットと実験は、クラウド モデルと、LLM CLI と組み合わせたショートカット アプリに重点を置いてきました)。しかし、どこかから始める必要があったため、LM Studio と Ollama をダウンロードし、llm-ollama プラグインをインストールして、GGUF 形式と Apple 独自の MLX フレームワークの両方で、オープンウェイト モデル (Hugging Face と Ollama ライブラリから提供) の実験を始めました。
初期テストの一部をBlueskyに投稿しました。LM Studioアプリのベータ版を使用して、GGUFとMLXの両方で大規模なQwen3-235B-A22Bモデル(2350億個のパラメータを持つMixture-of-Expertsモデルで、そのうち220億個が同時にアクティブ化されます)を実行したところ、以下の結果が得られました。
- GGUF: 16トークン/秒、約133 GBのRAM使用
- MLX: 24 tok/秒、約124 GBのRAM
これらの最初のベンチマーク(どちらも4ビット量子プロセッサQwen3-235B-A22Bを使用)からわかるように、Apple Silicon向けに最適化されたモデルは、トークン生成とメモリ使用量の両方で優れたパフォーマンスを発揮しました。バージョンに関わらず、Mac Studioは全く問題なく、ファンの音もほとんど聞こえませんでした。
また、新世代のビジョンモデル(VLM)をいろいろ試して、これらのモデルの最新のOCR機能をテストしたいと思っていました。最近、私にとって一種の個人的なAI評価となっているタスクの1つは、ショートカットアプリからショートカットの長いスクリーンショットを撮り(CleanShotのスクロールキャプチャを使用)、それをフル解像度のPNGまたはPDFとしてLLMにフィードすることです。以前に共有したように、画像圧縮のために、クラウドLLMの大部分は画像を入力として受け入れることができないか、画像を圧縮しすぎてグラフィックアーティファクトが原因で画像のテキスト分析で深刻な幻覚を引き起こします。o4-mini-highだけが、そのよりエージェント的な機能とツール呼び出しのおかげで、まともな出力を生成することができました。それでも、o4-mini-highが画像を複数の部分にスライスし、それぞれを個別のpytesseract呼び出しで反復処理することにしたからこそ可能になったのです。このタスクをChatGPTで実行するには約7分かかりました。
今朝、720億パラメータ版のQwen2.5-VLをインストールし、40アクションのショートカットのフル解像度のスクリーンショットを撮って、Ollamaとllm-ollamaで実行してみました。3.5分ほどで約100GBのRAMを消費しましたが、モデルからショートカットの非常に優れたMarkdown形式の分析結果が返ってきました。
より快適に使えるように、ショートカットから画像を選び、macOSの「シェルスクリプトを実行」アクションを使ってQwen2.5-VL (72B) で実行できる、小さなローカルスキャンユーティリティも作成しました。最初の試みで見事に動作しました。面白いことに、Qwen2.5-VL (32B) の小型版は、私が撮ったエルゴノミクスマウスの写真を「貝殻のコレクション」だと勘違いしていました。まあ、大型モデルの方が重くて動作コストが高いのには理由があるのでしょう。
クラウドホスト型モデルを使ったOCRやドキュメント分析に苦労してきた経験から、M3 Ultraのおかげでメモリ制約を回避し、プライベートな画像やPDFをアップロードすることなくわずか数分で正確な結果を提供するローカルVLMの可能性に非常に期待しています。私はこれまで、従来のMacスクリプトツール、ショートカット、LLMを組み合わせて、これまで不可能だったワークフローを実現する「ハイブリッドオートメーション」というアイデアについて何度も書いてきました。このMac Studioのパワーは、まさにその実現を劇的に加速させる力になるだろうと感じています。
私の次の目標は、mlx-lm を使用して MLX モデルを実行する方法を理解すること、デュアル チャンク アテンション サポートを備えたロング コンテキスト モデルを調査すること (Qwen 2.5 を参照)、および Gemma 3 で実験することです。楽しい時間が待っています!
追加コンテンツと特典にアクセスする
Club MacStories は 2015 年に設立され、ほぼ 10 年間にわたって毎週独占コンテンツを提供してきました。
毎週、毎月の電子メール ニュースレターから始まったものが、すべての MacStories ファン向けに設計されたメンバーシップ ファミリーに成長しました。
詳細については、こちらおよびクラブの FAQ をご覧ください。
Club MacStories : アプリ、ヒント、自動化ワークフロー、長文執筆、MacStories Unwind ポッドキャストへの早期アクセス、定期的な景品など、盛りだくさんの情報を満載した、電子メールと Web 経由の週刊および月刊ニュースレター。
Club MacStories+ : Club MacStories が提供するすべての機能に加え、アクティブな Discord コミュニティ、クラブの過去のカタログ全体を閲覧するための高度な検索機能とカスタム RSS 機能、ボーナス コラム、多数のアプリ割引などが含まれます。
Club Premier : 上記のすべてに加え、早期に、広告なしで、高ビットレートのオーディオで配信される当社の主力ポッドキャストの拡張バージョンである AppStories+ が含まれます。