Pythonを使ったWebライティングの例として、今回は「srtモジュールを使ったsrtファイルからテキストの抽出方法」について紹介します。
srtファイルとは、映像や音声のテキスト字幕を表現するためのファイル形式です。例えば映画やドラマ、YouTubeの動画など、様々なメディアで使われています。
関連記事:【Python】YoutubeAPIで動画の字幕を取得する(文字起こし)
srtモジュールを使えば、Pythonで簡単にsrtファイルからテキストのみを抽出することができます。以下にその手順を説明します。
1. srtモジュールのインストール
まずはsrtモジュールをインストールしましょう。以下のコマンドを実行します。
pip install srt
2. srtファイルの読み込み
srtモジュールを使ってsrtファイルを読み込みます。
import srt
3. テキストの抽出
このコードでは、srtファイルの名前を”sample.srt”としています。
!pip install srt -q import srt with open("sample.srt", mode='r', encoding="utf-8") as f: subs = srt.parse(f.read()) for sub in subs: # print(sub.index) # print(sub.start) # print(sub.end) print(sub.content) print('---------------------------------------------')
このコードでは、subtitlesの中にある字幕を sub.content でテキストとして出力します。
以上が、srtモジュールを使ったsrtファイルからテキストの抽出方法になります。このように簡単に、Pythonでsrtファイルを処理することができます。
関連記事:【Python】whisperを使って音声動画からsrt形式の字幕ファイルを生成する
コメント