文章の特徴から同一人物を判定する技術のアイデア
思いついたから書く。 私で思いつくレベルのものであればもうとっくに誰か思いついていて実装運用されているかもしれないけれど。
SNSのユーザの中には、1つのSNSにおいて複数のアカウントを持ち、使い分けている人がいる。 私であればそんなものは別に構わないけれど、時には「素性を隠して言いたいことばっかりいうのは卑怯だとか」「本アカウントで言いたいこと言えない根性なし」だとか、いろいろ言われることがある。 他には、SNSを運営する側として、負荷やデータ容量、SNSの思想によって、複数のアカウント取得はやめて欲しいと思っていることがあるかもしれない。昔であればメール認証などで済んでいたかもしれないが、最近はメールアドレスの取得は容易になり、使い捨てメールアドレスサービスなんてものもあったりする。接続元で判別しようにも、プロキシを通したり、知識がなくてもTorとかを使うことで簡単に偽装できてしまう。
そこで、「アカウントの書き込みや活動の特徴から同一人物を検出する技術」が必要になってくる未来もあるのではと思った。(そんなアホな未来来てほしくないが)
実装案としては、たとえば、内容が似ている文章を探す際に、2つの文章中からそれぞれ特徴的な単語をいくつか抜き出し、ベクトル化し、内積を取ることによって文章の類似度がどのくらいかを導き出すことができる。(要するにおんなじような専門用語がいっぱい出て来たら、似てる文章だと判断する、みたいな方法。結構昔からあったはず。なんとか法みたいな)
その際、重要になるのは専門用語で、文章中から専門用語だけを抜き取って来て、それ以外の部分(助詞とか接続詞とかアレとかソレとかだ。)はゴミとして捨ててしまう訳である。 しかし、文章の内容を示すのは専門用語の部分だけど、書き手の癖や書き方が多く含まれるのは捨ててしまったそれ以外の部分ではないだろうか。専門用語って誰が書いても同じになるはずだし。それに経験上、アカウントをなりすましても長いことやってると文体でバレることってよくありそうな気がするし。[要出典]
つまり、2つの文章中から専門用語を全て捨て去り、「それ」とか「だと思う」とか「であるが」とか、文章中の搾りカスみたいなところをかき集めて、あとは上の方法と同様、どの程度似ているかを計算して、似ていればお前ら同一人物だろ!みたいな感じになる。
いや、本当にそんな方法で同一人物がわかるのかとかはわからないし、検証してみないとなんとも言えないけれど。そんな方法を思いついたよというのをその場の勢いで書いてみた。
本当だったらこの時点で既に実装してWebサービス化してみました。公開します!とかできたらプロエンジニアなんだろうが、あいにくのアマチュアなので、そんなプロフェッショナルな芸当はできないのである。
そのうち実装できたらしてみて、効果のほどを検証してみたい。(一生やらない人のパターンのやつ) 青空文庫とかからいろんな人の小説を持って来て、作者を識別するとか。何かの役に立つかも。 なんかどこかの論文とかであったりして。漁ってみたい。「論文漁ってみた」ってなんか強そうに聞こえるよね。
以上。今日の思いつきのコーナーでした。