日本語をローマ字にする処理を自動化する必要がありライブラリを調べていたのですが、その際に「pykakasi」というPythonで日本語をローマ字に変換できる非常に便利なライブラリを見つけたので紹介したいと思います
pykakasiとは
漢字仮名混じり文をローマ字に変換する Python NLP(Natural Language Processing)ライブラリです。日本人のHiroshi Miuraさんが作成しており、GitHubでソースコードが公開されています。
GIT⇒https://github.com/miurahr/pykakasi
このモジュールを使用すると、漢字、ひらがな、カタカナをローマ字に変換することができます。ローマ字への変換だけでなく、「漢字 → ひらがな」「ひらがな → カタカナ」といった日本語同士の変換も可能です。
pykakasiの使い方
以下のコマンドを実行すると、pykakasiをインストールできます。
$ pip install pykakasi
使い方はインスタンスを呼び出して、関数を実行するだけです。
import pykakasi kakasi = pykakasi.kakasi() # インスタンスの作成 kakasi.setMode('H', 'a') # ひらがなをローマ字に変換するように設定 kakasi.setMode('K', 'a') # カタカナをローマ字に変換するように設定 kakasi.setMode('J', 'a') # 漢字をローマ字に変換するように設定 conversion = kakasi.getConverter() # 上記モード設定の適用 print(conversion.do('ねこ')) # ねこをローマ字に変換する処理 print(conversion.do('ネコ')) # ネコをローマ字に変換する処理 print(conversion.do('猫')) # 猫をローマ字に変換する処理
細かい設定などについては以下参照
⇒ https://rurukblog.com/post/pythonpykakasi/
< 実行結果>
neko neko neko
ただこれすごく惜しいのがootsukaみたいな母音が重なる文字に対してはotsukaみたいな形になりません。ですが、URLのパラメーター生成や自然言語処理の前処理では非常に便利だと思います。
では~
コメント