Pythonを使ったWebライティングの例として、今回は「srtモジュールを使ったsrtファイルからテキストの抽出方法」について紹介します。
srtファイルとは、映像や音声のテキスト字幕を表現するためのファイル形式です。例えば映画やドラマ、YouTubeの動画など、様々なメディアで使われています。
関連記事:【Python】YoutubeAPIで動画の字幕を取得する(文字起こし)
srtモジュールを使えば、Pythonで簡単にsrtファイルからテキストのみを抽出することができます。以下にその手順を説明します。
1. srtモジュールのインストール
まずはsrtモジュールをインストールしましょう。以下のコマンドを実行します。
pip install srt
2. srtファイルの読み込み
srtモジュールを使ってsrtファイルを読み込みます。
import srt
3. テキストの抽出
このコードでは、srtファイルの名前を”sample.srt”としています。
!pip install srt -q
import srt
with open("sample.srt", mode='r', encoding="utf-8") as f:
subs = srt.parse(f.read())
for sub in subs:
# print(sub.index)
# print(sub.start)
# print(sub.end)
print(sub.content)
print('---------------------------------------------')
このコードでは、subtitlesの中にある字幕を sub.content でテキストとして出力します。
以上が、srtモジュールを使ったsrtファイルからテキストの抽出方法になります。このように簡単に、Pythonでsrtファイルを処理することができます。
関連記事:【Python】whisperを使って音声動画からsrt形式の字幕ファイルを生成する

コメント