Wakarikaneru

Wakarikaneru

文章の特徴から同一人物を判定する技術のアイデア

思いついたから書く。 私で思いつくレベルのものであればもうとっくに誰か思いついていて実装運用されているかもしれないけれど。


SNSのユーザの中には、1つのSNSにおいて複数のアカウントを持ち、使い分けている人がいる。 私であればそんなものは別に構わないけれど、時には「素性を隠して言いたいことばっかりいうのは卑怯だとか」「本アカウントで言いたいこと言えない根性なし」だとか、いろいろ言われることがある。 他には、SNSを運営する側として、負荷やデータ容量、SNSの思想によって、複数のアカウント取得はやめて欲しいと思っていることがあるかもしれない。昔であればメール認証などで済んでいたかもしれないが、最近はメールアドレスの取得は容易になり、使い捨てメールアドレスサービスなんてものもあったりする。接続元で判別しようにも、プロキシを通したり、知識がなくてもTorとかを使うことで簡単に偽装できてしまう。

そこで、「アカウントの書き込みや活動の特徴から同一人物を検出する技術」が必要になってくる未来もあるのではと思った。(そんなアホな未来来てほしくないが)

実装案としては、たとえば、内容が似ている文章を探す際に、2つの文章中からそれぞれ特徴的な単語をいくつか抜き出し、ベクトル化し、内積を取ることによって文章の類似度がどのくらいかを導き出すことができる。(要するにおんなじような専門用語がいっぱい出て来たら、似てる文章だと判断する、みたいな方法。結構昔からあったはず。なんとか法みたいな)

その際、重要になるのは専門用語で、文章中から専門用語だけを抜き取って来て、それ以外の部分(助詞とか接続詞とかアレとかソレとかだ。)はゴミとして捨ててしまう訳である。 しかし、文章の内容を示すのは専門用語の部分だけど、書き手の癖や書き方が多く含まれるのは捨ててしまったそれ以外の部分ではないだろうか。専門用語って誰が書いても同じになるはずだし。それに経験上、アカウントをなりすましても長いことやってると文体でバレることってよくありそうな気がするし。[要出典]

つまり、2つの文章中から専門用語を全て捨て去り、「それ」とか「だと思う」とか「であるが」とか、文章中の搾りカスみたいなところをかき集めて、あとは上の方法と同様、どの程度似ているかを計算して、似ていればお前ら同一人物だろ!みたいな感じになる。

いや、本当にそんな方法で同一人物がわかるのかとかはわからないし、検証してみないとなんとも言えないけれど。そんな方法を思いついたよというのをその場の勢いで書いてみた。


本当だったらこの時点で既に実装してWebサービス化してみました。公開します!とかできたらプロエンジニアなんだろうが、あいにくのアマチュアなので、そんなプロフェッショナルな芸当はできないのである。

そのうち実装できたらしてみて、効果のほどを検証してみたい。(一生やらない人のパターンのやつ) 青空文庫とかからいろんな人の小説を持って来て、作者を識別するとか。何かの役に立つかも。 なんかどこかの論文とかであったりして。漁ってみたい。「論文漁ってみた」ってなんか強そうに聞こえるよね。

以上。今日の思いつきのコーナーでした。

ブログを書くときの語尾ってどうしたら良いんだって話

ブログを書くときの語尾ってどうしたら良いんですかね?

  • だ、である
  • です、ます
  • だろうが、ボケ

色々あるけど、世の中のトップブロガーたちはどっちを使うことが多いんだろうか。 なんか集計してみてあれしてみたら面白いかもしれない。

何も考えていないクソみたいな文章っていくらでもかけるなと思った話

タイトルオチ。

なんの理性もなく、クソみたいな雑念をキーボードに叩き込む機械と化せば、あのくらいの文字数埋まるんだなと思った。 もっと分かりやすく、整理された、みんなの役に立つ情報を書いていけたら良いですね。

今日もブログを書いていこうと思う(制限時間20分)

さて、今日もブログを書いていこうと思う。とは言っても何も書くことないけど。 タイトルに制限時間20分と書かれているが、これはタイトルを書いた直後から厳密にタイマーを使って計測される。20分を超えた時点で手直しもなくそのまま投稿するものとする。

(3分経過)さて、何も書くことがない。なんかはてなブログにはお題をランダムで提供してくれるお題スロットなるものがあるらしいが、使い方がわからない。 そもそもこのお題スロットとはなんなんだろうか。わざわざこんな機能があるということは、書きたいことがわからないままブログを書きたい人がいっぱいいるということだろうか。世の中のブロガーはなぜブログを書くのだろうか。私にもよくわからない。なぜなら私も何も書きたいことがわからないブログを始めた一人だからである。

いや、正直にいうと私は現在春休みのロスタイム中という宙ぶらりんな状態にあり、端的にいうと暇なのだ。暇だからブログを始めた。以上。 ブログを始めれば、なんか色々と良いことがあるんじゃないかという思いもあった。たとえば、文章力の向上、タイピング速度の訓練(未だにタッチタイピングできない)、あとなんかネットで調べたことをまとめておく場所、そのまとめる過程で自分の頭の中を整理してより理解を深める、など。 なんだ、良いことばかりじゃないか、と思う。

そこには一つ落とし穴があった。つかれるということである。 正直、ブログ開設から2週間ほどだが、書くのが疲れる。Rigidchips記事にしても、結局文章だけで説明するのは分かりずらいために画像を用意したり、そもそも解説も難しく面倒臭い文章を書く羽目になってしまう。 このあいだのマストドンの文章も、あんなの書いてる暇があればクソトゥートしていたかった。結局Libreofficeパワポみたいなやつまで引っ張り出して解説画像作り始めてるし。

とここまで書いて、意外とブログ楽しんでいる気がしてきた。なんか思ったこと適当に描いてれば良いし。気楽に殺ろうよ。 少なくとも春休みのロスタイムが終わるまでの間は、良い暇つぶしになってくれると思う。

意外と20分って長いな。もう書きたいことないんだけど。 もう良いんじゃないか。なんで20分書き続けないといけないんだろう。ちょうど良い塩梅で止めれば良いものを、なんで20分丸々書かなきゃいけないルールでやってるんだろう。これがアレか、ライターズハイか。クソみたいなことであればいくらでも書き続けられるぞ。 ブログを書くメリットとはなんだったのか。そんなものは知らん。俺はうんこ量産機だ。そうだ。

【ホームページ構築奮闘記 1】せっかくだからVPS借りてやりたい

ブログって何書いたら良いかわからないけど、現状1記事に時間を書けすぎている気がする。

1記事20分位とかに限定して、書ける範囲で書いていったりしたほうが良いのかなとか思っている。 プロの人とかどのくらいの時間で書いているのだろうか。

それはともかく、ホームページを復活させたい。しかし、無料で広告載せられてCGIとかも使えるサーバーは探した限り見つからなかった。(前に使っていたPF-X.NETさんがすごすぎた。しかし個人でやっている都合かは分からないが、2016年6月に閉鎖してしまった。)

もう1年近く前になるのか…

せっかく復活させるのなら、勉強ついでにVPSとかレンタルしてサーバー構築からやってみたら楽しいのではないかと考えている。 結構いろいろなところがサービス提供しているらしく、それぞれ値段やスペック、サポートなどいろいろ差があるらしい。

とかなんとか書いてたら20分位たった。 適当に書いていたらこんな内容になってしまったので、【ホームページ構築奮闘記】とか言うタイトルにしてみた。行き当たりばったり感が半端じゃない。 続きはまた次回にしてゼルダやろう。