Python

【Python】srt形式の字幕ファイルからテキストのみを抽出するサンプルコード

この記事は約2分で読めます。

 

Pythonを使ったWebライティングの例として、今回は「srtモジュールを使ったsrtファイルからテキストの抽出方法」について紹介します。

 

srtファイルとは、映像や音声のテキスト字幕を表現するためのファイル形式です。例えば映画やドラマ、YouTubeの動画など、様々なメディアで使われています。

 

関連記事:【Python】YoutubeAPIで動画の字幕を取得する(文字起こし)

 

srtモジュールを使えば、Pythonで簡単にsrtファイルからテキストのみを抽出することができます。以下にその手順を説明します。

 

1. srtモジュールのインストール

 

まずはsrtモジュールをインストールしましょう。以下のコマンドを実行します。

pip install srt

 

2. srtファイルの読み込み

 

srtモジュールを使ってsrtファイルを読み込みます。

import srt

 

3. テキストの抽出

 

このコードでは、srtファイルの名前を”sample.srt”としています。

 

!pip install srt -q
import srt

with open("sample.srt", mode='r', encoding="utf-8") as f: 
    subs = srt.parse(f.read()) 
    for sub in subs: 
        # print(sub.index) 
        # print(sub.start) 
        # print(sub.end) 
        print(sub.content)
        print('---------------------------------------------')

 

このコードでは、subtitlesの中にある字幕を sub.content でテキストとして出力します。

 

以上が、srtモジュールを使ったsrtファイルからテキストの抽出方法になります。このように簡単に、Pythonでsrtファイルを処理することができます。

 

関連記事:【Python】whisperを使って音声動画からsrt形式の字幕ファイルを生成する

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

タイトルとURLをコピーしました