【Python】reモジュールでの日付・価格・URLなどを抽出する正規表現まとめ

今回は業務でよく使う正規パターンをメモ代わりにまとめておきます

Contents

reモジュール
日付を抽出する
価格を抽出
URLを抽出
特定の文字に囲まれている文字の抽出

reモジュール

Pythonでは標準ライブラリのreモジュールを使用して正規表現による文字列操作を行うことができます。標準ライブラリなのでインストールは不要です

# ライブラリの読み込み
import re

日付を抽出する

# YYYY/MM/DDを抽出
pattern = r'\b\d{4}/\d{2}/\d{2}\b'
re.findall(pattern, '開催日は2022/01/28 です')

# ●月を抽出
text = '商品の発売は5月です'
pattern = r'\d月'
re.findall(pattern, text)

# ●●月を抽出
text = '商品の発売は11月です' 
pattern = r'\d\d月' 
re.findall(pattern, text)

# ●月●日を抽出
text = '商品の価格は5月6日です'
pattern = r'\d月\d日'
re.findall(pattern, text)

価格を抽出

text = '商品の価格は50円です'
pattern = r'\d\d円' 
re.findall(pattern, text)

URLを抽出

特定の文字に囲まれている文字の抽出

import re

s = 'this is *sample string* for _extracting substring_.'

# アスタリスクで囲まれている部分を抽出
p = r'\*.*\*'  # アスタリスクに囲まれている任意の文字
#p = r'\*[^*]*\*'  # アスタリスクに囲まれているアスタリスク以外の文字
r = re.findall(p, s)  # パターンに当てはまるものを全て抽出
print(r)  # ['*sample string*']

参照：https://atmarkit.itmedia.co.jp/ait/articles/2103/16/news025.html

これと文字列操作を組み合わせことでスクレイピングした結果などから任意の文字列情報を抽出することができるのではないでしょうか？

正規表現ちゃんと勉強しないとなと思いつつ毎度ネットのコピペで済ませてしまう習慣はホントやめたい・・・