Python Python入門

【Python】reモジュールでの日付・価格・URLなどを抽出する正規表現まとめ

この記事は約3分で読めます。

 

今回は業務でよく使う正規パターンをメモ代わりにまとめておきます

 

reモジュール

 

Pythonでは標準ライブラリのreモジュールを使用して正規表現による文字列操作を行うことができます。標準ライブラリなのでインストールは不要です

 

# ライブラリの読み込み
import re

 

日付を抽出する

 

# YYYY/MM/DDを抽出
pattern = r'\b\d{4}/\d{2}/\d{2}\b'
re.findall(pattern, '開催日は2022/01/28 です')

 

# ●月を抽出
text = '商品の発売は5月です'
pattern = r'\d月'
re.findall(pattern, text)

# ●●月を抽出
text = '商品の発売は11月です' 
pattern = r'\d\d月' 
re.findall(pattern, text)

# ●月●日を抽出
text = '商品の価格は5月6日です'
pattern = r'\d月\d日'
re.findall(pattern, text)

 

価格を抽出

 

text = '商品の価格は50円です'
pattern = r'\d\d円' 
re.findall(pattern, text)

 

 

URLを抽出

 

特定の文字に囲まれている文字の抽出

 

import re

s = 'this is *sample string* for _extracting substring_.'

# アスタリスクで囲まれている部分を抽出
p = r'\*.*\*'  # アスタリスクに囲まれている任意の文字
#p = r'\*[^*]*\*'  # アスタリスクに囲まれているアスタリスク以外の文字
r = re.findall(p, s)  # パターンに当てはまるものを全て抽出
print(r)  # ['*sample string*']

参照:https://atmarkit.itmedia.co.jp/ait/articles/2103/16/news025.html

 

これと文字列操作を組み合わせことでスクレイピングした結果などから任意の文字列情報を抽出することができるのではないでしょうか?

 

関連記事:【Python】文字列(String)の抽出・分割・スライスなどの汎用操作

 

正規表現ちゃんと勉強しないとなと思いつつ毎度ネットのコピペで済ませてしまう習慣はホントやめたい・・・

 

 

コメント

タイトルとURLをコピーしました