Blog
任意のトピックをtwitterのトレンドに掲載する方法

任意のトピックをtwitterのトレンドに掲載する方法

twitter

日本全体と、東京のトレンド情報(旧「流行のトピック」)がtwitterで提供開始されてしばらくたちました。

弊社が運営するつあどでも、傾向分析のためのデータ収集をかねてそれらtwitterトレンドデータのデータベース化を開始し、そのデータ活用のついでと言ってはなんですが、各トピックの出現回数ランキングが見られる「つあどトレンド」という新サービスと、過去のトピックをさかのぼって見ることができる機能「つあどトレンドタイムマシン」を本日発表いたしました。

その開発の都合上、データの傾向を見るために実に1週間以上に渡って様々なトピックを言葉通り昼夜問わずほとんどすべて見てきました。私も皆様と同様に、どういった条件でキーワードがこのトレンドトピックとして掲載されるのかに興味がありましたので、その糸口を探し出そうとつぶさに観察を続けておりました。

そして、先日ふとあることに気づいたのです。このゴールデンウィークのツイート過疎状態の時間帯に、ある面白い現象が見らました。

それは、本当に狙っていたのかどうかは不明ですが、幾度か作為的にトピックをトレンドに掲載した形跡が見られたということです。その結果、ある程度トレンドに掲載される条件が垣間見えたと思われるのです。

そこで、実際に私もそれに習って、同様の手法を用いてトレンドへのトピック掲載を試みてみました。

その結果、実際にtwitterのトレンドトピックとして自分の名前を載せることに成功したのです。その証拠が以下のスクリーンショットです。

実際にはtwitterではトレンドトピックの履歴を見ることはできませんので、早速手前味噌ではありますがつあどトレンドに搭載されているタイムマシン機能を使ったページにもリンクを張っておきます。

つあどタイムマシンを見てみますと、実際約45分ほどにわたって「朝山貴生 Takao」というトピックが日本のトレンドとして掲載されていたことがわかります。

では、早速ですがその掲載手法をお伝えしましょう。

任意のトピックをtwitterトレンドに掲載する手順

  1. 自分のtwitterアカウントの「名前」をトレンドトピックに掲載したい言葉に変更しておきます。
  2. twitter上に多数存在する、bot系アカウント名を多く集めます。
  3. twitterができるだけ過疎状態の(ツイート風速の低い)時間帯に狙いを定めます。
  4. あつめたボットアカウントに対して、@メンションであいさつをつぶやきます。
  5. ボットアカウントがあなたのアカウント名を含んだ挨拶を次々につぶやいてきます。
  6. うまくいくとtwitterのトレンドにアカウント名もしくはその一部が掲載されます。

馬鹿みたいですが、単にそれだけです。

それぞれの点について詳細に説明しましょう。

1.掲載するトピックについての注意

つあどトレンドタイムマシンで過去のトピックを見ていただければわかりますが、実際にtwitterが採用している「形態素解析」エンジンの性能は最低です。

簡単に言い換えれば、twitterトレンドが日本語の文章を単語として区切る能力がきわめて低いと言う事です。

通常、欧米の言語では、トピックというのはスペースで区切られた単語の集合体ですので、単語を判別するにはスペースで区切るだけで、あとは前後の単語も頻出していれば、まとめてトレンドトピックとして掲載すればほぼ間違いなく流行のトピックをとらえることができると言う事です。

ところが、日本語では一番簡単な手法で言えば接続詞のひらがな「の」や「は」、句読点、ひらがな、カタカナ、漢字の変化で区切るということができますが、それでは精度が低すぎて、実際には単語辞書を使った分割が必要になってきます。たとえば、Yahoo! Japanのようにそういった解析をAPIとして無償提供している企業もありますし、ChasenやMecabといった無料のモジュールもGoogleで検索すれば簡単に見つかります。

ここで、実際にtwitterのトレンド機能の形態素解析がいかにひどいかの例を示しましょう。

たとえば、4月27日には女優の「相武紗季」さんがトレンドのトピックとして何度か登場したのですが・・・・。なんと実際には「武紗季」、「武紗」、「相武」と実に3パターンにもわたって間違った分割をされて掲載されてしまっています。(リンク先はつあどトレンドタイムマシンによるその証拠です。)本来は同じトピックである「相武紗季」なのですが、前後の文字やその場の状況によって違った単語として判断されてしまっているようです。

実際に私のtwitterアカウント名は「朝山貴生 Takao Asayama」ですが、トレンドに掲載される際には「Asayama」がカットされてしまいました。相武紗季さんのように漢字の部分が分断されなかったのは幸いですが。

更に不利なのはどうやら「ひらがな」です。これは全くの予想ですが「の」が接続詞としてとらえられているような・・・。その実例がこれです。「吉川ひなの」が「吉川ひな」として、しかも長い時間にわたって掲載されています。

また、同じトピックであるのに、形態素解析の被害として2つのトピックに分断される可能性もあります。それがこのランキングで4,5位に見られる「母の日です」と「母の日な」の2つです。この場合は両方共にトピックの風速が高く両方が掲載される結果になっていますが、通常そこまでポピュラーでない場合は、その分10個に限られるトレンドトピックから漏れてしまう確率が上がると言う事です。

見たところ、一般的な名詞については分断されることが少ないようですので、twitterでは一般的な単語のみが掲載されている形態素解析データベースを使用しているのかもしれません。ところが、どう見ても人名や固有名詞、流行語については不得意のようです。ですから、総論としては日本語の場合は一般的な名詞が有利と言う事になります。

また、カタカナのトピックは比較的抽出しやすいようで、分断されているケースもあまり見かけませんね。カタカナのトピックは必ず句読点やひらがな、漢字、スペースで挟まれるか、文頭にありますので抽出が容易なのが理由でしょう。たとえば、長いにもかかわらず「スーパードライのcm」といったトピックは正しく抽出されています。

トピックの長さについては、短ければ短い方が良いでしょう。日本語の全角文字だけで構成されたトピックでは、12文字が最大でした。スペースを含む半角英数字のトピックでは、スペースを含んで13文字が最大でした。ですので、トピックは必ず12文字以下とし、そしてそれは短かい方がよいでしょう。今までのトピックを文字数別に集計してみると、4文字のものが一番多く、次に5文字、3文字と続きます。私の場合は「Asayama」が入っていると12文字を超えるので、その部分が排除されたのだと思われます。

漢字、カタカナ、ひらがなが混在することは避けた方がよいでしょう。ましては、Googleの検索エンジンのように表記の揺れを吸収してくれるわけでもありませんので、つづりや漢字ひらがなの表記が人によってぶれるトピックも良くないでしょう。たとえば、昨夜で言いますとカレーハウスCoCo壱番屋のトレンドトピックが「ココイチ」と「CoCo壱」に分散してしまっています。

結論としましては、任意の日本語のトピックが意図するとおりに掲載される確率を高めるには、このような様々な点に注意して有利な文字列を用意する方が無難です。

一番理想的なのは、半角スペースで挟まれたような半角英数字のトピックなど、twitterトレンドがトピックと判断しやすいキーワードです。たとえば、最近出現頻度の高い「Gacktさん」といったようなトピックは有利です。なぜか「ガクトさん」と書く人が少ないようですね。

2. 集めるボットアカウントについて

知らない方のために・・。ちなみに、ボット(Bot)とは、人間ではなくソフトウェア(大げさに言えば人工知能)が自動的につぶやいたり返信したりしているtwitterアカウントのことです。twitter上には無数に存在しています。それらボットはキーワードに反応して勝手に話しかけてくるものから、返事をしてくるもの、勝手にずっとつぶやき続けているものの他、天気やニュースを勝手につぶやくものもあります。

ここで、今回ボットアカウントを集める際の注意点は、「必ずあなたのアカウント名を含めて返信してくるものを集める」ということです。私の場合は約120のボットアカウントを集めて使用しました。

その自動返信のツイートに、目指すトピックとなるあなたのアカウント名が含まれていなければ意味がありません。ちなみに、今回トレンドに掲載されたのが私の名前であった種明かしはこういうわけでした。実はこの実験が実際にはうまくいくかどうか疑問もありましたので、わざわざプロフィールの内容を変更しなかったのです。

また、ボットがつぶやくのに使用されているアプリケーションが重要です。ボットアカウントのアプリケーションのシェア1位(?)はおそらくtwittbot.netですが、それらアプリケーションが1種類であると、どうやらトレンドにならない傾向があるようです。

なぜなら、1アプリケーションからは作為的に同じ内容をつぶやき、擬似的に言及するツイート数を増やすということが比較的簡単だからです。それらを複数のアプリケーションから大量につぶやかせるのは、今回ご紹介する方法以外では難しいでしょう。ですので、ボットアカウントを集める際もそれらアプリケーションができるだけ分散している方が有利と考えられます。

ちなみに、アプリケーション名はtwitter.comの各個別ツイートのページを見ればこのように表示されていますので事前に確認が可能です。

[blackbirdpie id=”65508448158236672″] [blackbirdpie id=”65509826746265600″]

3.つぶやき過疎の時間帯について

実際に私が実験したのは、日本で言うゴールデンウィークの真っ最中であり、実際にツイッターのTPS(tweets per second – 秒間あたりツイート風速)が低い時期でした。

ですので、ゴールデンウィークが終っても同様の過疎の時間帯が狙えるかどうかは不明ですが、成功率を高めるにはとにかくできるだけ過疎な時間を狙う必要があります。

一番の狙い目は午前4時から5時ぐらいでしょう。実際に私が成功したのは午前5時でした。

また、他のユーザーのアカウント名が同様の手法でトレンド掲載されているのも比較的過疎な時間帯でした。

過疎な時間を確認するには、つあどトレンドのランキング変動を見るのが一番です。変動があれば赤い矢印がたくさん表示されていますし、新しいトピックが現れていれば「NEW」が表示されています。ほとんどの矢印が横向きの場合で現在のトピックに「NEW」がなければ現在風速が低いと言えるでしょう。

4. ボットへのつぶやきについて

つぶやきは、ボットが確実に返信してくる挨拶内容に限ります。「おはよう」や「おやすみ」が確実でしょう。

ほとんどのインタラクティブなボットは、それら挨拶に対応していると思われます。

その際、1つのおはようツイートにつき、文字数が許す限り多数のアカウントへの@メンションを含める方がツイート数が少なくて済みますので効率が良くなります。複数のボットに同時に挨拶するということですね。

5. ボットからの返信について

つぎに、ボットからの返信ですが、これは自分ではどうしようもありませんので配信を待つしかありません。実際には数十分にわたってボットからの返信が続きました。

ボットによってあなたのつぶやきをモニターしている頻度が違いますので、それによる時間のばらつきがでます。

6. トレンドトピックの掲載について

先述の通り体系的にトレンド掲載の確率をある程度高めておくことはできますが、これに関しては運の要素も絡みますので結果を待つしかありません。

一番の要素としては「競合するトピックが少ない」ということが重要です。枠は10しかありませんので。

twitterのシステムがボットからあなたへの返信をとらえて、他のトピックに比べあなたのトピックが現在様々なところで自然につぶやかれていると判断すれば、トレンドトピックとして掲載されます。

しかし、実際には私の実験でも、これは確実に行ける確信して実験した時にも失敗したことがあります。ですので100%これだ、という確実な方法はありません。

注意点

twitterのガイドラインにもありますが、@返信を数多くつぶやくと、twitterの検索エンジンの対象からはずされてしまういわゆる「twitter検索八分」とされてしまったり、果てはアカウント停止につながる可能性もあります。

実際に10%以上のアカウントが凍結の経験があるほどですので、本当に些細なことで凍結がされてしまうので注意が必要です。

また、twitterで今後このような行為自体がどう取り扱われていくかも不明です。

ですので、実験される場合はご自分のリスクでお願いします。

twitterトレンド掲載の条件とは?

私が見た範囲ではありますが、まとめますとトレンド掲載の条件は以下のようになっているようです。

  1. 一定時間に一定ツイート数の閾値を超える。(5分間100ツイート?)
  2. 当然のことながら一定数以上複数のアカウントからつぶやかれている。(予想では100以上?)
  3. 一定数以上のクライアントアプリケーションから分散してつぶやかれている。(ひとつではだめなのは確実)
  4. 一定時間継続してつぶやかれている。(おそらく5分ほど?)
  5. 掲載までのおよそ5分間25秒から30秒でツイートの風速(TPS)が上位10位に入っている。
  6. twitterのシステムが共通したキーワードをつぶやいていると判断できる。
  7. RTではなく、ユーザーの自由文によるツイートが散在している。非公式RTは対象。
  8. ブラックリストに乗っていない。

正直なところ、1から4については正しい定数は不明です。今回は120の返信が30分にわたってつぶやかれただけで合計5回、約30分間トレンドに掲載されました。おそらく5にも書きましたが、その時間に競合するトピックがなかったからだと思われます。

6は既に詳しく説明した通りです。twitterのシステムに対して有利なトピックというものがあります。

7も感覚でこう感じました。単にRTが激しいツイートと言うだけでは、トレンドに掲載されていないようなのです。

そして、8も感覚的な予想です。おそらく、このキーワードはトレンド掲載しないというブラックリストがあるようなにおいがしています(笑)。当然のことながら英語ではFワードなどはブラックリストに掲載されているでしょうが、ひょっとすると日本語版にも存在しているのではと考えています。

twitterトレンド掲載の利点

twitterトレンドに掲載されるには敷居が高いのですが、公式のコンテンツであるだけに掲載されればその分大きなベネフィットもあります。

まずは、トレンドに掲載されたトピックは更なる人々の口コミにつながるということです。「~~がトレンドになってる。」といったツイートをよく見かけます。もともとViral現象が発生しているトピックの拡散を更に加速するというわけですね。

次に、トレンドに関する様々なツールにもトピックが伝搬(ソーシャル用語で言うSyndication)すると言う事です。

つあどトレンドもそうですが、twitterのトレンド情報をもとにしたコンテンツも数多くありますし、それこそひたすらトレンド情報をつぶやくボットアカウントもあります。その分、インターネット上でのトピックの露出が格段に上がると言う事です。

今回の記事の真意

実は、今回この記事を書くかどうかを少し迷ったのですが、私の目的はトレンドへの任意トピック掲載の氾濫を助長することではありません。

実際にトレンド掲載の100%確実な方法はありませんし、確率を上げようとすると今度はスパムと見なされるリスクも高まります。しかも、この手法が通用するのはトレンドの風速が低い時間帯に限りますので、私の例のように掲載に成功してもそこから先述のような更なる口コミが見込めるわけでもないということです。いわゆるトレンドに掲載された、という自己満足にしかならないと言う事です。更に、私が紹介せずとも、この手法がどこか別のところで紹介されることも時間の問題でしょう。

また、普段はこのような作為的なトレンドトピックはほとんど見られず、ほとんどが一般的に自然と風速が高くなっているトピックが表示されています。もう既に日本でもこれだけの人数が使っていますから、注目を浴びる時間帯に作為的にトレンドにトピックを掲載することは困難でしょう。

しかし、先述の通りtwitterトレンドの日本語解析は芳しくないことは事実ですし、トレンドの操作が限定的とはいえど作為的に行えるとわかった今、この事実を踏まえた上で今後twitterのトレンドの形態素解析や作為的なトピックのフィルタリングの性能が向上し、トレンドが現在の流行を確実に把握できるツールとして改善されていくことを切に願っております。

それらの点が改善されれば、twitterのトレンドは更に的確に流行を捉えた有益なツールとなるでしょう。

twitter社は他の言語でのトレンド運用で既に長い経験とノウハウを持っていますし、今回紹介した手法が全く通用しなくなる方が、多くのユーザーがこの手法を試してトレンド掲載に成功することよりも早いのかもしれません。

是非、今回もツイッターなどで @takaoasayama 宛に皆様のご意見をお聞かせください。

また、最後に本音を言いますと、今回は本日提供を開始した「つあどトレンド」とそのタイムマシン機能のわかりやすい利用例を探していたのです。そこでちょうどそれと同時期にたまたま発見したこの面白い事実をつあどトレンド活用の実例として利用させていただいたというわけでした。つあども震災後、やっと広告キャンペーンを再開いたしておりますのでそちらの方も是非ご利用ください。

過去のトレンドトピック一覧をピンポイントで引用したり、任意の時間帯に勢いのあるトピックを確認するには非常に便利なツールとなっておりますので、もしよろしければ、皆様も是非つあどトレンドをご活用ください。

よろしくお願いいたします。

P.S.  「おまけ」ですが、先日twitterのAPIが同時刻になんと22ものトレンドトピックをはきだしたことが一度だけありました。その時刻に確認したところtwitter.comには通常通り10個しか掲載されていませんでしたが、実際にその瞬間をとらえたつあどトレンドタイムマシーンがこちらです。それでは!

追記:

本日再度午後5時に実験してみました。アカウント名を「ツアド つあど twad」とし、200弱のボットで実施しました。

すると、なんと「ツアド」、「twad」の二つのトピックを同時にtwitterトレンドに掲載することができました。掲載回数は合計3回。掲載時間は5.5分X3回で16.5分でした。どうやら、トピックを限りなく短くし、半角スペースで区切っておくとダブル掲載も操作できるという結果に・・・。

もうこれは、twitter社側で対応してもらうしか防ぐ方法はありませんね。

このエントリーをはてなブックマークに追加
タグ: , , , , , ,
Written by 朝山 貴生

No Comments

コメントを残す

Copyright © 2009 - 2014 Overtex Times by Takao Asayama - 朝山貴生ブログ
Top