ページの本文へ

Hitachi

サイト名称

日本語解析におけるテキストマイニングの課題

テキストマイニングツールでは日本語辞書を基にキーワードの切り出しを行います。しかし、辞書に無い専門用語やカタカナ文字・英数字の組合せ・複合名詞がある場合、意味不明の文字列として切り出されてしまう問題があります。

日本語解析精度を向上させるための「CoreExplorer」の取り組み

テキストマイニングツール「CoreExplorer」では、形態素解析の結果に独自チューニングを行うことで、日本語解析精度を高める技術を開発しています。これにより、意味不明の文字列を極力減らすことに成功しています。

(1)日本語解析精度の向上

【1】
形態素解析補助
日本語の誤り(「読みずらい」など)や、表記ゆれ(「ません」「わけじゃない」など否定表現の統一など)を吸収します。
【2】
特殊系の連結
「しやすい」や「しづらい」は「する」+「やすい」など分割せず、そのままの形で前の名詞と連結させます。
【3】
否定表現の扱い
(1)二重否定の肯定化「~しないわけではない」→「~する」など。
(2)否定表現の「ない」表現連結
   「評価ない」→「評価-ない」、「変更なし」→「変更-ない」、「届かない」→「届く-ない」
【4】
係り受け表現連結
「名詞」+「動詞」、「形容詞」+「名詞」、「名詞」+「形容詞」を連結します。
例えば、「液晶が暗い」、「暗い液晶」は「液晶 = 暗い」です。

(2)キーワード抽出精度

【1】
カタカナ連結
連続するカタカナは連結します。
「オーディオ」「デバイス」とわけずに、「オーディオデバイス」と1つに連結します。
【2】
接頭・接尾語連結
「担当」+「者」→「担当者」や、「第1条」など、名詞・数字の接頭語・接尾語を連結させます。
【3】
名詞の連続の連結
「日本語」「解析」「技術」→「日本語解析技術」など、連続する名詞は連結して複合名詞化します。

(3)アルファベット・数字・記号の抽出精度

全角半角/大文字小文字も全て正規化して扱います。また連続する「アルファベット」と「数字」は連結させます。ハイフン・アンダーバー・ピリオド・コロンの記号は数字・アルファベットの間にあるときは連結させます。
【例】:「-ABC-DEF-」→「ABC-DEF」

日本語解析の例

下記のような日本語を解析した場合の解析例をご紹介します。

coreexplorer_improvement

「CoreExplorer」の日本語解析精度に関するお問い合わせ

「CoreExplorer」の日本語解析精度に関する
お問い合わせや資料請求などはこちら