現状最も高精度な動画文字起こし方法（vrew・capcut超え）

現在、AIによる文字起こしが盛んになってきつつあります。

私も仕事上、社内にある大量の動画を文字起こししたいという依頼があり、現状最も速くかつ正確に文字起こしの方法はないか探しました。

既存文字起こしサービスの徹底調べ
やっと本題…

既存文字起こしサービスの徹底調べ

1.「Adobe Premiere Pro」

こちらはかなり評判が悪いです。大手だからレベルが高いのかと思いきや、まだまだこれからといった印象です。

adobeの文字起こしは全然ダメです。精度が悪すぎる。
今一番日本語の精度が良くてそのままテロップ化できるものは何があるんだろうか。
— takumiさん (@takumi021742) July 8, 2023

2.「vrew」

少し調べると「vrew」というサービスが、精度高いことが分かりました。

実際に使ってみたのですが、たしかに精度が高く、使用感も良い。

今かなりユーザー数を伸ばしている印象ですが、なるほどと納得しました。

ただ、無料だと月に文字起こしできる動画の長さが120分しかなく、毎月1000円ほど課金するのも煩わしく感じました。。

3.「CAPCUT」

次に色々調べて見つけたのが「CAPCUT」です。

vrewよりも精度高いというツイートを複数確認し、実際に使ってみました。

vrewも良いけど字幕の精度CAPCUTの方が高いんだよね。だから切り抜きする時一回全部文字起こしして、それから切り抜く場所選んで作ってる‼️
— オワコン (@soto5107) June 17, 2023

使い勝手はvrewの方が良いですが、たしかに精度はそこそこ良かったです。しかも無料。

ただ、世の中無料ほど怖いものはありません。

「CAPCUT」はtiktokを運営するByteDanceが運営しているのですが、個人情報のセキュリティの面で非常に怪しいと見ています。

【利用規約やばい…】CapCutが危ない理由5選と危険性 結論から言うと、CapCutは本当に危ないアプリなので、他の動画編集アプリを使用することをオススメします。なぜなら、Cap chasksite.com

動画の内容が外部に漏れていたり、勝手に使用されてしまう危険性などもあります。

どうでも良い動画ならよいですが、会社の動画だったり、個人のクリエイターが一生懸命制作したものだった場合、CAPCUTを使用するリスクはかなり大きいと私は思います。

そして、ついでですが、vrewも実は韓国の会社で、VoyagerXという所が作っているサービスです。これもちょっと個人的には安心できないと感じました。

4. 「MyWshiper」

やっぱり国産がいいかぁ。と思って調べて見つけたのが、うみゆきさんの「MyWhisper」でした。

気軽にソフトをダウンロードしてローカルで使用できる便利さがあり、UIもシンプルで良かったのですが、これの問題点は「PCのスペック」に依存するということです。。

既に超高性能GPUをお持ちの方は良いでしょうが、そうでない場合、特に長い動画の場合、かなり時間がかかります。ひどい場合は、途中で固まってしまったりしてしまうこともありました。

これでは、せっかくのAIの文字起こしの進化の恩恵を、みんな安心して享受できないではないか。。

ということで、作りました。

やっと本題…

世の中にまだ文字起こしを簡単で安全安心、しかも、高性能かつ高速に実現する仕組みがない。。

ということで、

私が約1ヶ月程かけて、プログラムを作りました（かなり遠回りしてしまいましたが…）ので、その内容を共有したいと思います。

これ、我ながら画期的だと思っているのですが（自画自賛）

今回のプログラムの推しポイントとしては、

✅半永久的に無料使用可能！
✅PCのスペックに依存しない！
✅️動画ファイルも、音声ファイルも対応可能！
✅現状最高性能のfasterwhisperモデル(v3)を使用可能！
✅どこぞの怪しい海外サービスではなく、安心安全！
✅VAD（音声区間抽出）により文字起こし精度の向上！
✅出力形式をテキストファイル、srtファイル選択可能！！

という所です。

動画編集されてる方も、srtファイルがあれば一瞬で字幕が作れます。

また対応拡張子も「mp4、mov、wmv、mp3、wav、flac、m4a」と豊富です。

PCのスペックに依存しないという部分のカラクリは、Google Colabを使用するからです。（なので、使用するにはGoogleアカウントが必要です！）

Google Colabを使用すれば、無料で「NVIDIA Tesla T4」という約27万円程する高性能GPUを使用できてしまいます。。

勿論、長時間使い続けていると、
利用制限が一時的にかかるのですが、
それを回避する方法も‥。

実際の使用画面はこのような感じです ↓ ↓ ↓

変換速度は3時間程のメディアファイルで20分ほど、数分の動画などでしたら数十秒で処理が終わります。かなり速いと思います。

ここからは、有料部分になってしまいますが、

☑ 文字起こしを自分のものにしたい方
☑ 文字起こしを仕事にしている方
☑ zoomのレコーディング動画の文字起こしをしたい方など、

お役に立てるかと思います。

こちらvrewより精度高くて感動です！
①movは認識されませんでしたが、mp4のみでしょうか？mp3でやりました。
②テロップに入れるときにsrtファイルが神です。。こちら文字数をある程度決められるとすごいです。。
この度はありがとうございました！
— 31 (@3131inc) November 1, 2023

⇛ movファイルにも対応させて頂きました！（2023年11月1日）
　srtファイルの出力文字数の設定は現在はできませんが、検討中です‥！
　31さん、ありがとうございました！

【破格すぎる文字起こし】#PR
✅WinもMacも使用可
（Googleアカウント＆ドライブ要）
✅買い切り
✅PC音痴の私でも無事に利用できました😂

アウトプットされた文書は、１文ずつに改行されているので、見やすくて編集しやすいのも⭕

RT企画で更に半額！

※アフィではないので安心してね https://t.co/cbZkZoKYLt
— 40代主婦/ご縁を大切にするクラウドワーカー (@9696catblack) October 24, 2023

⇛40代主婦さん、わざわざ引用ツイートまでしてくださり、ありがとうございました！👐

初リプ失礼します！いつも活用させて頂き、今ではなくてはならないもの（ずっと使い続けたい😭）です。本当にありがとうございます！
突然ですがの素人考えですが、話者分離などは実装が難しかったりしますか？
— みとん｜フルテロップ専門の動画編集者 (@mitten_sidejob) April 27, 2024

⇛みとんさん、いつもご利用頂き誠にありがとうございます！話者分離機能は現在少し難易度高く導入できていないのですが、今後機能アップデートで追加する可能性はあります…！首を長くお待ちいただければ幸いです。。

これ買って試しに使ってみましたけどすごくいいです！
精度も高くて、手作業修正もかなり楽です！

文字起こしで時間が掛かっている人は是非！ https://t.co/pSDSXZvgVd
— Hayatti / はやっち【Nebula e-Sports】 (@hayatti774) June 12, 2024

⇛Hayattiさん、ありがとうございます！🙏 実際の使用感に関して、お声を頂けて嬉しいです。

■不具合対応（最新）

2024/9/12　モデル初回ダウンロード実行の際のシステムコマンドのロケール設定不一致によるエラー修正。モデル関連ファイルを誤って削除した際でもモデル再構築を行うよう修正。

2024/7/19　非ASCII文字を含むファイル名やテキストの処理中に発生するエンコーディングエラーを解決するため、UTF-8エンコーディングを指定。

2024/5/2　モデル変換の初処理時にtokenizersのバージョンが不一致でtransformersライブラリが正常に機能しないエラーを修正。

2024/4/25　連続実行時にtokenizersパッケージのバージョン衝突エラー発生する問題確認し、解決いたしました。ご迷惑おかけしました。

2024/3/14　プログラム内のバージョン関係の不一致エラー発生確認し解決いたしました。ご迷惑おかけしました。その他動作改善等も行いました。

ご購入はこちらから

■マストバイ特集（おすすめ記事）

私こやしが時間をかけて調べ尽くした、
自信を持っておすすめできるマストバイアイテムをまとめました。

QOL向上に何か一つでも寄与するものがあれば幸いです👇