Python プログラミング 自然言語処理

【Python】pykakasiで日本語文字列をローマ字に変換する

この記事は約3分で読めます。

 

日本語をローマ字にする処理を自動化する必要がありライブラリを調べていたのですが、その際に「pykakasi」というPythonで日本語をローマ字に変換できる非常に便利なライブラリを見つけたので紹介したいと思います

 

pykakasiとは

 

漢字仮名混じり文をローマ字に変換する Python NLP(Natural Language Processing)ライブラリです。日本人のHiroshi Miuraさんが作成しており、GitHubでソースコードが公開されています。

GIT⇒https://github.com/miurahr/pykakasi

 

このモジュールを使用すると、漢字、ひらがな、カタカナをローマ字に変換することができます。ローマ字への変換だけでなく、「漢字 → ひらがな」「ひらがな → カタカナ」といった日本語同士の変換も可能です。

 

pykakasiの使い方

 

以下のコマンドを実行すると、pykakasiをインストールできます。

$ pip install pykakasi

 

使い方はインスタンスを呼び出して、関数を実行するだけです。

import pykakasi

kakasi = pykakasi.kakasi() # インスタンスの作成
kakasi.setMode('H', 'a') # ひらがなをローマ字に変換するように設定
kakasi.setMode('K', 'a') # カタカナをローマ字に変換するように設定
kakasi.setMode('J', 'a') # 漢字をローマ字に変換するように設定
conversion = kakasi.getConverter() # 上記モード設定の適用
print(conversion.do('ねこ')) # ねこをローマ字に変換する処理
print(conversion.do('ネコ')) # ネコをローマ字に変換する処理
print(conversion.do('猫')) # 猫をローマ字に変換する処理

 

細かい設定などについては以下参照

https://rurukblog.com/post/pythonpykakasi/

 

< 実行結果>

neko
neko
neko

 

ただこれすごく惜しいのがootsukaみたいな母音が重なる文字に対してはotsukaみたいな形になりません。ですが、URLのパラメーター生成や自然言語処理の前処理では非常に便利だと思います。

 

では~

 

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

タイトルとURLをコピーしました