Python Python入門

【Python】reモジュールでの日付・価格・URLなどを抽出する正規表現まとめ

この記事は約3分で読めます。

 

今回は業務でよく使う正規パターンをメモ代わりにまとめておきます

 

reモジュール

 

Pythonでは標準ライブラリのreモジュールを使用して正規表現による文字列操作を行うことができます。標準ライブラリなのでインストールは不要です

 

# ライブラリの読み込み
import re

 

日付を抽出する

 

# YYYY/MM/DDを抽出
pattern = r'\b\d{4}/\d{2}/\d{2}\b'
re.findall(pattern, '開催日は2022/01/28 です')

 

# ●月を抽出
text = '商品の発売は5月です'
pattern = r'\d月'
re.findall(pattern, text)

# ●●月を抽出
text = '商品の発売は11月です' 
pattern = r'\d\d月' 
re.findall(pattern, text)

# ●月●日を抽出
text = '商品の価格は5月6日です'
pattern = r'\d月\d日'
re.findall(pattern, text)

 

価格を抽出

 

text = '商品の価格は50円です'
pattern = r'\d\d円' 
re.findall(pattern, text)

 

 

URLを抽出

 

特定の文字に囲まれている文字の抽出

 

import re

s = 'this is *sample string* for _extracting substring_.'

# アスタリスクで囲まれている部分を抽出
p = r'\*.*\*'  # アスタリスクに囲まれている任意の文字
#p = r'\*[^*]*\*'  # アスタリスクに囲まれているアスタリスク以外の文字
r = re.findall(p, s)  # パターンに当てはまるものを全て抽出
print(r)  # ['*sample string*']

参照:https://atmarkit.itmedia.co.jp/ait/articles/2103/16/news025.html

 

これと文字列操作を組み合わせことでスクレイピングした結果などから任意の文字列情報を抽出することができるのではないでしょうか?

 

関連記事:【Python】文字列(String)の抽出・分割・スライスなどの汎用操作

 

正規表現ちゃんと勉強しないとなと思いつつ毎度ネットのコピペで済ませてしまう習慣はホントやめたい・・・

 

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

タイトルとURLをコピーしました