ヒネヒネ団

ひねくれ者の日記、9級IT技術者。同志が欲しいです

AIにおける自然言語処理【マルチバイト・日本語・UTF-8】と文脈の類似性検索【ハミング距離】

森村亮太です。25歳です。FBシェアしていただきありがとうございます。

僕に興味を持っていただけたらお友達になってください・・・・。

今回のお題はタイトルの通りです。

ニューラルネットワークやそういった類の話はしません・・・てかできません。

 

私自身も様々な自然言語学処理の本を読みましたが、英語が例に出されており日本語における表示がいまいち足りない気がします・・・。

 

タイトルにあります、ハミング距離の計算にて文脈の類似性検索が実行できるのでは??と思いまして作ってみました。

http://sasebomori.jeez.jp/test7/

つまりハミング距離が0であれば文字列的に差異がない文字列であると、いえますね。

まぁ当たり前なのですが、現状のWEBサービスでは多分なのですが・・・like検索が主流であると思っております・・・。故にこれちげーよ!!!っていう物がヒットしたり様々な弊害を生んでるかと・・・思います・・・まぁ実装するときにカテゴリー分けなどが実装条件にきますよね。

現代のシステム開発ではカテゴリーをユーザーに絞ってもらい、文脈を検索してもらうといった検索が主流ですね。

しかしこのハミング距離文脈検索を用いればユーザーの本当に欲しいものが提供できるのではなかろうかと思っております。

なんかすいません夜中に書いてるので色々あれなんで、頭がきちんと戻ったらちゃんと書きます・・・。僕は周りが暗くならないと集中できない・・