Whisper│動画から日本語の文字起しをする方法│Mac

2022年10月23日2022年10月30日

話題のOpenAIによる文字起し「Whisper」を試してみました。

GIGAZINE

無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープン…

その備忘録です。

Whisperで動画から日本語の文字起しをする方法

作業環境は以下の通りです。

M1 Mackbook Air

Windowsでも可能ですが、Pythonなので導入が簡単なMacで試しました。

STEP

Pythonのインストール

まずはPython3がインストールされている環境を用意します。

ターミナルを起動して

Homebrewを導入。

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install.sh)"

Pythonをインストールしましょう。

brew install python3

ここら辺は「Mac Pythonインストール」で検索するとたくさんやり方がでています。

STEP

Whisperのインストール

いよいよ、本題です。

まずはユーザー>ユーザー名の直下にWhisperというフォルダを作成して、ディレクトリを指定しましょう。

ターミナルで以下のコマンドを叩きます。

mkdir whisper
cd whisper

つづいてWhisperをインストールします。

下記のコマンドをターミナルで叩きましょう。

pip install git+https://github.com/openai/whisper.git

最後に動画を読み込むためにffmpegのインストールもしましょう。

brew install ffmpeg

環境構築は以上です。

STEP

動画の文字起しを実行

文字を起ししたい動画をWhisperフォルダに入れます。

今回はひろゆきさんの切り抜き動画で試してみました。

文字起しの結果の確認

フォルダに3つのファイルが生成されます。

そのなかの.vttというファイルをテキストで開いた結果が以下になります。

文字起し全文

WEBVTT

00:00.000 –> 00:07.680
ユーチューブやTwitterで最近コンビニ弁当の底上げ問題が目に入りますひろゆきさんなりの見解を知りたいです

00:07.680 –> 00:18.200
あのその7-11の弁当の底上げがひどいとかサンドイッチのなんかあの入り方が具が全面にだけあって後ろから全然ないよって言ってたんですけど

00:18.200 –> 00:24.440
あの昔まともな企業ってそういうことしなかったんですよ

00:24.440 –> 00:35.440
そのあの企業としての倫理だったりとか俺たちはいいものを作ってお客さんに喜んでもらってお金をもらうっていうことをやってるから

00:35.440 –> 00:43.440
その人にか喜んでもらえようないようなことをやってお金を取るのは良くないよねっていうふうに思ってたんですよ

00:43.440 –> 00:53.720
でも今の時代ってみんな貧乏になっちゃったのであの馬鹿が騙されて金払うんだったらそれでいいんじゃねーのだって騙されてる側が悪いんだもん

00:53.720 –> 01:04.400
別に方に触れないしっていうのが割と大企業もやるようになっちゃってるしでそれがもう社会的に悪いことだということにならなくなっちゃったんですよ

01:04.400 –> 01:13.640
あの水素水っていう名前の水が割なんか割と日本でも大企業と言われてる飲料メーカーがですたりするんですけど

01:13.640 –> 01:18.960
あのただの水なわけですよあの何かの科学的な証明がされたものでもないし

01:18.960 –> 01:28.280
あのそもそもあの水素が水に入るのか問題とかもいるなんですけどじゃあ彼に水に水素が入ってるとしてじゃあそれが人間の体内に入ることでどのような影響があるか

01:28.280 –> 01:35.360
っていうことは何の証明もされてないんですけどなんか健康によさそうみたいなふわっとしたイメージで売ってたりするんですよね

01:35.360 –> 01:43.840
でそれを大企業が売ってるんですけどでもそれに対して別買う方が馬鹿なんだからしょうがないじゃんっていうので何の問題もなかったりするんですよね

01:43.840 –> 01:51.520
マイナスイオンとかもそうですけどなんかマイナスイオンが出てくるクーラーとかなんかマイナスイオンが出てくるドライヤーとか色々ありますけど

01:51.520 –> 02:04.300
っていうのがあるのでその多分日本が不景気になって金のためならその制御を捨ててもいいっていうのが多数派になったっていうことな気がするんですよね

日本語の精度は英語より劣るようですが、かなりのものです。

句読点がないのが読みずらいですが、セリフごとに仕分けしてくれるところが最高です。

↑目次へ戻る

追記：Whisperの精度をあげるために試した事

Whisperの精度を最大限まで高めるために試したことをメモしておきます。

コマンドで精度を最大まで上げる

--model large時間はかかりますが、このコマンドが一番Whisperの精度があがります。

whisper 動画名.mp4 --model large --language Japanese

元素材をボイスだけ抽出する

Ultimate Vocal Removerというソフトでボイスだけ抽出します。

元素材の質によって大きく品質が変わるので、できるだけ良い設定にしましょう。

品質が悪い場合、英語の句読点がおかしくなります

設定は下記の記事が参考になります。

YTPMV.info – YTPMVや音MADについ…

AIボーカル除去・抽出ソフト「Ultimate Vocal Remover」の使い方と最良設定について – YTPMV.info 2023/01/13 追記最新版ではこの記事で紹介しているものに加えいくつかの昨日が追加されています。使用の上

この2つの仕込みをすれば、ほぼ完ぺきに文字起しができます。

↑目次へ戻る

Whisperで文字起しが困難になるケース

ただしWhisperでも2点だけ難しい点があります

人名や地名の場合、スペルが不安定な場合が多い
複数人の重なった音声は聞き取りをスル―される。

これだけは人力でチェックが必要になります。

とはいえ9割の完成したものが上がってくるので、本当に時短になります。

↑目次へ戻る

まとめ

本記事では話題のOpenAIによる文字起し「Whisper」を試してみました。

コマンドを叩くだけで、動画の文字起しがセリフごとに完了するのが素晴らしいですね。

この技術を使えば、例えば会議の議事録等でも使いやすいのではないでしょうか？

気になった方は是非試してみて下さい。

URLをコピーしました！

Whisper│動画から日本語の文字起しをする方法│Mac

Whisperで動画から日本語の文字起しをする方法

Pythonのインストール

Whisperのインストール

動画の文字起しを実行

文字起しの結果の確認

追記：Whisperの精度をあげるために試した事

コマンドで精度を最大まで上げる

元素材をボイスだけ抽出する

Whisperで文字起しが困難になるケース

まとめ

全記事一覧

関連記事