ページの本文へ

Hitachi

北海道大学 大学院 様

テキストマイニングシステム「CoreExplorer」

24万件の口コミ自由回答文から
5段階評価を正しく推測
専門職でなくとも自在に
テキストマイニングが可能

膨大な量の口コミサイトやブログ、ユーザが急増するTwitterやFacebookなどのSNS・・・・・・。情報の急激な増加により、個人も企業も、欲しい情報の選別が困難になってきている。情報が多すぎて、すべての情報に目をとおすことができず全体像が把握できない。必要な情報がどれかわからないし、必要かどうかの判断も困難である。

そこで、北海道大学 大学院 情報科学研究科 複合情報学専攻 複雑系工学講座 調和系工学研究室 修士2年 福井知子氏は、「大量のコメント(自由回答文)を直感的に把握できないか。5段階評価の関係性を導き出すことができれば、コメントから定量的な評価を推定できるのではないか」と考え実証研究を行った。
使用したデータは「楽天GORA(ゴルフ場検索・予約サービス)」に口コミ投稿されたレビューデータ約24万件。楽天技術研究所から研究用に提供されたものだ。今回の研究では、コメントからコストパフォーマンス、食事、距離などの満足度を5段階で推定するルール設定が可能かどうか検証し、それが投稿者からの実際の5段階評価とほぼ同率であることが確認された。この検証で採用されたのが、日立ソリューションズ東日本の『CoreExplorer』である。
膨大な量の口コミ情報の集約、数値化、共有の可能性を『CoreExplorer』が大きく広げた。

導入の効果

  • 個人の主観に左右されない客観的な分析を実現
  • 24万件の膨大な自由回答文を短時間で分析
  • キーワードと5段階評価の関連等、「新しい気づき」によりさらに深い分析を実現

テキストマイニングシステムCoreExplorer事例インタビュー
【写真左】情報科学研究科 教授 鈴木 恵二 氏
【写真中央】情報科学研究科 複合情報学専攻複雑系工学講座調和系工学研究室 修士2年 福井 知子 氏
【写真右】情報科学研究科 准教授 川村 秀憲 氏

複数の知能体の調和を研究

企業のグローバルシステムはもちろん、社会インフラを支える情報システムは、ますます巨大化し複合的になってきた。これらITシステムの構築を支援するため、北海道大学 大学院の情報科学研究科 複合情報学専攻は、複雑系工学と大規模情報システム学の二つの観点から研究を進めている。複雑系工学講座には四つの教室があり、その一つ「調和系工学」は、複雑系・マルチエージェント技術・適応技術・人工知能・データマイニング・ゲーム理論・オペレーションズリサーチなど多岐にわたる知能の調和に求められる技術が研究対象となっている。

テキストマイニングシステムCoreExplorer事例インタビュー鈴木様
鈴木氏

--「いくつもの知能体が調和しているときに何が起きるのか、調和のために必要なメカニズムは何かを研究しています。このようなユニークな研究は世界でここだけです」

と、同講座教授 鈴木恵二氏は説明する。

さらにユニークなことに調和系工学研究室では、ベンチャー企業「株式会社調和技研」を設立し、学生のアイディアを実業に生かしている。

--「大学は研究してそれでおしまい。これではつまらないでしょう。このベンチャー企業の最も優秀なスタッフが、今回テキストマイニングの研究成果を発表した福井さんなのです」と鈴木氏は、福井知子氏を紹介する。

--「楽天技術研究所から提供されたゴルフ場の口コミデータを利用して、膨大な量のテキストをどれだけわかりやすく集約できるか検証しました」(鈴木氏)。

自由回答文と5段階評価の関係性を発見し、5段階評価の推定ルールを検討

テキストマイニングシステムCoreExplorer導入事例川村様
川村氏

今回の事例は、福井氏の修士論文のテーマにもなった。このテーマがもつ意義・社会的背景を、同講座准教授 川村秀憲氏は、

--「情報への接し方が転換期を迎えています。口コミサイトやブログ、TwitterやFacebookなど、情報が氾濫しており、従来の方法では正確な情報の把握が困難になっています。テキストマインニングのような手法は、研究者だけでなく、ビジネスの世界でもますます重要になってくるでしょう」と語る。

福井氏が利用した楽天GORAのレビューデータには、口コミのコメント(自由回答文)のほか、「総合評価」「スタッフ接客」「設備が充実」「食事がおいしい」「コース/戦略性」「コストパフォーマンス」「距離が長い」「フェアウエイが広い」の8項目の5段階評価がある。

テキストマイニングシステムCoreExplorer導入事例福井様
福井氏

--「検証したのは自由回答文のコメントから8項目の5段階評価を、推定できるかどうかです。もし可能であれば、選択式の評価項目がない口コミやアンケートのコメントから項目別の満足度を数値データ(5段階評価)に変換し、誰でも簡単に分析が可能となります」と、福井氏は目的を語る。

楽天GORAにはあらかじめ5段階評価とコメントが併記されていたので、レビューデータとしては最適であった。

分析の手順

分析のおおまかな手順は以下のとおりである。

(1)口コミ全体からキーワードを抽出
サンプルとして10万件のコメントを入力し、キーワードを抽出。これにより、どのようなことが多く書かれているのか、頻出する名詞から口コミ全体の傾向を把握する。

テキストマイニングシステム事例分析の手順キーワードの抽出

(2)評価項目別に名詞を抽出
各評価項目で評価基準になると思われる話題を把握するため、評価別に頻出名詞を抽出。

--「頻出名詞を見れば"何が"評価の5段階評価の基準になっていそうかがわかるからです」(福井氏)。

テキストマイニングシステム事例頻出名詞の抽出

(3)名詞ごとに係り受け関係を抽出
「係り受け」とはキーワードを修飾する言葉のこと。「距離」に関しては「短い」「長い」「遠い」「出る」などが係り受けとなる。抽出した名詞の意味を把握するため係り受け関係を抽出した。

テキストマイニングシステム事例係受け関係を抽出

(4)各キーワードと評価項目の関係性を分析
5段階評価別に抽出したキーワードの出現分布を把握するため、各キーワードと評価項目の関係性を分析。

--「"距離=長い"は評価が高いのか低いのかの分布確認し、そこから関係性を導き出しました」(福井氏)。

テキストマイニングシステム事例関係性の分析

(5)5段階評価を推定するためのルール作成と検証
各キーワードと評価項目の関係性から5段階評価に変換するルールを作成。さらに、10万件のデータに入らなかった20施設を抽出して、設定ルールで満足度を推定したところ、正解の分布とほぼ同じ値を示した。

以上により、『CoreExplorer』を活用することで、自由記述文から5段階評価を導き出すことが可能であると実証された。自由記述文を数値データ化することができ、分析の可能性も広がる。

テキストマイニングシステム事例ルール作成と検証

クリックだけで操作が可能な『CoreExplorer』

テキストマイニングシステムCoreExplorer導入事例福井様

今回の検証に活用した日立ソリューションズ東日本の『CoreExplorer』は鈴木氏からの紹介によるものであった。その操作性を福井氏は

--「基本的な操作性を教わっただけでしたが、ほとんど質問することなく操作できました。1画面で抽出したキーワード一覧と5段階評価の関係性が把握できる画面構成もわかりやすくできていますし、操作でわからないことはすぐにヘルプで確認できます。迷うことなく、直観的に操作できました」と、評価する。

さらに
--私はゴルフを知らず、初めはグリーンもOBの意味も知りませんでした。それでも、このようにキーワードを軸にした客観的で高精度な分析ができます。今回検証した5段階評価作成のルールを利用すれば、分析の専門家でなくても、簡単にデータを集約でき、コメント情報を活用しやすくなります」と強調する。

『CoreExplorer』を活用することで、従来なら長期間かかっていた、あるいは無理とあきらめていた膨大な自由回答文の全文解析が可能となる。解析した個人の主観に左右されない、常に客観的な解析が可能だ。

テキストマイニングの可能性

テキストマイニングシステムCoreExplorer導入事例鈴木様

修士2年目の福井氏は卒業するが、この研究が終わったわけではない。

--「まだまだ精度を高めていく必要はありますし、他の分野への横展開もあります。また、今回は文法を取り入れずに頻出度にポイントを置いています。新聞記事などは文法がしっかりしていますので、これとは別の展開があると思います」と、鈴木氏は展望を語る。

すでに、ネット上にデータは溢れ、全体像をつかむことも、欲しい情報を見つけることも困難になっている。これについて川村氏は

--「お客様が必要とする情報を提供するためにも、企業自らがマーケティングで必要とするデータを抽出するためにも、情報の『羅針盤』が必要になっています。テキストマイニングはまさにこの羅針盤としての役割を果たすものではないでしょうか。そのツールとして『CoreExplorer』は最適です」と認める。

もっとも、ツールとそれを使いこなす人の調和なしに羅針盤を作ることは困難である。データ活用を推進するため、日立ソリューションズ東日本では、テキストマイニングによる分析から分析結果の活用についてまで支援できるような取り組みを検討している。

お客さまプロフィール

北海道大学様ロゴ

お客様名

北海道大学

設立

1876年8月14日

所在地

〒060-0808 札幌市北区北8条西5丁目

学生数

大学11,574名、大学院6,384名、職員数3,842名(2010年5月1日現在)

テキストマイニングシステムCoreExplorer導入事例北海道大学様外観

ウィリアム・スミス・クラークが初代教頭を務めた札幌農学校が前身。クラークが叫んだ「Boys, be ambitious.」(少年よ、大志を抱け)の精神は現在も継承され、フロンティア精神・実学の重視が基本理念となっています。
2004年(平成16)にそれまで工学研究科に属していた情報科学系の専攻を廃止し,新たな大学院として情報科学研究科が設立されました。その情報科学研究科複合情報学専攻に所属する調和系工学研究室では、2009年11月に学生ベンチャー「株式会社調和技研」を設立しています。その事業内容は、情報配信、コンテンツ作成、情報配信に関するコンサルティング業務など。同社は地域情報配信サービス「あなた情報マガジンびも~る」を開設し話題となりました。

関連リンク

導入製品

お問い合わせ・資料請求

CoreExplorer
  • 活用シーン・5つの特長・導入効果・分析機能の詳細や分析例などを
    まとめたカタログ
  • 画面イメージを含めた製品概要の詳しい説明や特長など

その他、デモ・トライアル・導入相談など、お問い合わせも受け付けております

TOP