今回は業務でよく使う正規パターンをメモ代わりにまとめておきます
reモジュール
Pythonでは標準ライブラリのreモジュールを使用して正規表現による文字列操作を行うことができます。標準ライブラリなのでインストールは不要です
# ライブラリの読み込み import re
日付を抽出する
# YYYY/MM/DDを抽出 pattern = r'\b\d{4}/\d{2}/\d{2}\b' re.findall(pattern, '開催日は2022/01/28 です')
# ●月を抽出 text = '商品の発売は5月です' pattern = r'\d月' re.findall(pattern, text) # ●●月を抽出 text = '商品の発売は11月です' pattern = r'\d\d月' re.findall(pattern, text) # ●月●日を抽出 text = '商品の価格は5月6日です' pattern = r'\d月\d日' re.findall(pattern, text)
価格を抽出
text = '商品の価格は50円です' pattern = r'\d\d円' re.findall(pattern, text)
URLを抽出
特定の文字に囲まれている文字の抽出
import re s = 'this is *sample string* for _extracting substring_.' # アスタリスクで囲まれている部分を抽出 p = r'\*.*\*' # アスタリスクに囲まれている任意の文字 #p = r'\*[^*]*\*' # アスタリスクに囲まれているアスタリスク以外の文字 r = re.findall(p, s) # パターンに当てはまるものを全て抽出 print(r) # ['*sample string*']
参照:https://atmarkit.itmedia.co.jp/ait/articles/2103/16/news025.html
これと文字列操作を組み合わせことでスクレイピングした結果などから任意の文字列情報を抽出することができるのではないでしょうか?
関連記事:【Python】文字列(String)の抽出・分割・スライスなどの汎用操作
正規表現ちゃんと勉強しないとなと思いつつ毎度ネットのコピペで済ませてしまう習慣はホントやめたい・・・
コメント