package
module
Version:
v1.0.0
Opens a new window with list of versions in this module.
Published: Feb 15, 2024
License: MIT
Opens a new window with license information.
Imports: 3
Opens a new window with list of imports.
Imported by: 2
Opens a new window with list of known importers.
README
¶
Japanese Charaters Normalization
日本語の文字(キャラクタ)を検索等に適した形に正規化します。
日本語のキャラクタセットには1つの文字にも拘わらず、
描画幅の違いで異なるコードポイントを割り当てられたものが存在します。
数字(123
or 123
)やカタカナ(イロハ
or イロハ
)等がその代表です。
いわゆる半角・全角と言われるものです。
またほぼ同じ字形にも拘わらず複数のコードポイントを割り当てられた記号も存在します。
janorm
パッケージはこのような日本語文字の多義性をいずれかに変換・統一または削除することで正規化し、
検索等の機械処理に適した形に変換します。
大まかな正規化(変換)ルールは以下の通りです。
文字種 |
正規化方法 |
正規化の例 |
数字 |
半角 |
012345 ← 012345 |
アルファベット |
半角 |
ABCxyz ← ABCxyz |
ASCII記号 |
半角 |
!"#$% ← !”#$% |
句点,読点,中点,カッコ,調音記号 |
全角 |
。、・「」ー ← 。、・「」ー |
カタカナ |
全角 |
アイウエオ ← アイウエオ |
半カタ+濁点・半濁点 |
全角 |
ヴガギグ ← ヴガギグ |
ハイフンマイナス記号 |
統一 |
- |
全角長音記号 |
統一 |
ー |
チルダ状記号 |
削除 |
(n/a) |
Documentation
¶
Package janorm provides character normalizer for Japanese.
Normalize normalizes a string as Japanese text.
Source Files
¶
Click to show internal directories.
Click to hide internal directories.