(修正あり)SimilarWebはPV数調査に使うツールではない

11/6 0:25 追記

読者の方からデータの誤りがあることをご指摘頂き、記事のデータに明らかな誤りがありましたので追記・修正いたします。

ABC協会さま発行の「Web指標一覧 2018年4-6月」のデータは3ヶ月の合計値として扱っておりましたが実際には3ヶ月の平均値のデータでした。そのため図表及び一部の記述を変更しております。

本記事は11/5の10:50に公開いたしましたが、23:00に匿名の方からご指摘をいただき、11/6の0:25に修正版を公開をいたしました。修正前の状態は証拠として画像として保存しております。

この修正によって記事で記載しております内容・意見に変更はありませんが、誤ったデータが公開される危険性を扱った記事で誤ったデータを紹介する問題ある行為を行ってしまいました。11/5に記事をお読みくださった方に謝罪いたしますとともに、今後の記事等では同様の誤りをしないよう反省いたします。

 

まず前提としまして。SimilarWebは素晴らしいツールです。

マーケティングにおいて競合状況を把握することは重要です。競合サイトのアクセス量の推移や傾向、その集客手法、検索エンジンからの評価状況などを推測した上で自社のマーケティングの方針を定めることができれば非常にプラスになりますが、SimilarWebはその一助となる数少ない有益なツールです。

しかし、万能なツールではありません。そのデータは使い方が限られます。PV数などの実数を推測して自社と比較するなど、信頼できる数値を測るために使えるものではありません。

この記事では、SimilarWebの数値がどの程度ずれるのかを公開データから集計し公開するとともにそのデータの使い方について私の考えを記載いたします。

SimilarWebのデータと実データの乖離

一般社団法人日本ABC協会さまが、加盟社の2018年4~6月のデータをインターネットで公開してくださっています。

www.jabc.or.jp

たとえば、有名サイト東洋経済オンラインは、2018年4月から6月の3ヶ月でのPV平均は186,419,928、1.8億強と公開されています。このデータは「発行社の所有する計測ツール(GoogleAnalyticsやAdobe Analyticsなど)の画面キャプチャー」を元にしたものと説明されており、信憑性のあるデータとして扱えるものです。

そしてSimilarWebでもこの各社のデータを推測することが出来ます。同サイトのデータを見るとこのようになっていました。

 

f:id:t-w-o:20181106000929p:plain2018年7月~9月ではありますが、月間訪問者数25.15M、ページ/訪問者が3.98となっています。月間訪問者数にページ/訪問者を掛けてPVを計算すると100,097,000、1億強となります。

公開されている実データでは186,419,928PVでSimilarWebのデータでは100,097,000、とほぼ半減しているブレが発生していることが分かります。

 (11/6 例示サイト変更に伴い、本箇所を大きく修正済。)

同様の方法で日本ABC協会で公開されているデータとの比較を出してみました。

(正しいと推測される数字が取得できなかった5サイトは除外しています)

f:id:t-w-o:20181106001639p:plain

 青が50ポイント以上の差があるものです。65サイト中28サイトがこの規模のブレが発生しています。

(11/6 画像及び説明文を修正)

今回の日本ABC協会さまのデータ公開は、これまでの日本のWeb史においても例の無い大規模かつ多様な実データ公開だと考えます。これ以上無いデータを元にした確認でここまでのずれが発生しているのです。

更に、今回の公開データだけではありません。SimilarWebと実データのズレのデータは自社サイトの非公開データを公開することに繋がりますので、公開事例は多くはありませんが、いくつかのデータは他にも報告されています。

fujii-yuji.net

このように多くのサイトでブレが発生するからには、SimilarWebのデータは実際のPV数を測るには適さないものと私は考えます。

SimilarWebのデータはどうして正確ではないのか

このSimilarWebのデータはどうしてこのようにブレるのでしょうか。

SimilarWebのデータ元は非公開で「1000を超える様々な情報源を持っており、それによってデータの質を比較・評価」して推測されていると公式サイトに記載されています。

ただ、実際のユーザがどのようなページを見ているかを推測できるデータは限られます。そのデータ元は、SimilarWebにアクセス解析データを提供しているわずかなWebサイトのデータ以外には、ブラウザの拡張機能から送られる情報を元にサンプリングされたデータが情報ソースの大きな割合を占めていると考えられています。

developer.cybozu.co.jp

 

ブラウザの拡張機能からデータを得る行為は、多くの拡張機能をインストールしたユーザはそのような情報提供をしている自覚は無い場合が多く、問題視されています。

セキュリティの専門家もその問題を指摘されています。 

 

本記事ではその行為の是非については述べません。ただ、SimilarWebを活用する場合はこのような取得方法をしていることを踏まえて行うべきことは確かです。

特定の拡張機能をインストールするユーザは特定の属性を持ち、特定の偏ったサイト閲覧行動傾向が見られます。よほど大規模にデータを取得出来ているのでない限り、偏ったデータを元に正しい数値を推測することは困難です。実数のデータがブレるのは当然のことなのです。

このことを元に考えると、データが正確にならない理由も推測できます。

データ取得方法から推測しますとスマホのアクセスデータの比率は少ないと考えられます。スマホからのWebアクセスが増加し続けていた現状では、その信頼性は更に落ちていると考えられます。

 SimilarWebのデータの信頼性については、海外でも調査・検証されることは多くあります。その調査でも一定のブレが確認されることが多いようですが、たとえ海外での一定の精度が見られたとしても、海外ユーザと日本ユーザではインストールする拡張機能も違います。海外の拡張機能をインストールするユーザというだけで一定の偏りがあります。データの取得方法を踏まえると、海外での信頼性・信憑性の情報は全く参考になりません。

上記の調査結果を改めて見ますと、趣味趣向によってアクセス傾向が異なるサイトや、PVの多いサイト(公開データPV数上位3サイトでは53.7%、53.1%、41.3%)では大きなブレになっています。サイトの傾向によってそのブレは大きく拡大します。データ取得方法を考えるとこのようなブレになるのは当然と考えられます。

(11/6 データ部分を再計算して修正)

私は業務上非常に多くのサイトの実データを確認してきました。今でも日本のPVの数%のアクセス解析を確認できますので、おそらくSimilarWebが取得しているデータ以上を私は確認できていると思います。そのデータとSimilarWebデータを比べましても、明らかにこの傾向、偏った人が見るWebサイトや急上昇したサイト、巨大サイトでは大きくブレる傾向を確認しております。

もしアクセス数が急上昇した非常に多くのPV数を持つ漫画サイト、かつ低年齢層や遵法意識が低い人が多く見るなど偏りがあるサイトがありましたら、そのデータの信頼性は低いのではないでしょうか?たとえ他に代替手段が無いとしても使うべきではない信憑性ではないでしょうか?

ましてや、法律を検討するための資料に使われるデータや、社会問題における国民の感情を大きく左右する公開データに使われるのは適しているとは言えないものだと私は考えます。

メディアリサーチ、アクセス解析の専門家もSimilarWebデータの信頼性には疑問を呈しています。

実際のサイトのデータと公開データにどのくらいのズレがあるのかはわかりません。ここで述べてきました通り低くない確率で大きくズレるものですが、偶然一致する可能性もあります。しかしこのように信頼性が低いデータを使うべきではないのです。

 

SimilarWebデータの使い方

ここまで述べてきましたように、日本でのSimilarWebの実数値は数倍のブレが発生することが多いと判断せざるを得ず、それでも問題がない使い方しかできません。

ただ、改めて申しますと、SimilarWebは非常に有益なツールです。非常に多くのデータを元にした情報が見られるツールであって、 様々な知見が得られます。

競合のトラフィックの推移や集客手段、検索流入を得ているキーワードや広告出稿先のデータを得るにはSimilarWebは非常に有益な手段です。他では得づらいか、得るには非常に工数が必要な情報ですし、それはマーケティング活動の大きな助けになります。(私はデータ取得の倫理的な問題が解決されていないと考えますので使いませんが。)

これらのデータが有益なのは、データにある程度の偏りがあったとしてもその有益さに大きな変わりが無いからです。何らかのデータを使う場合は、そのデータの性質や傾向、信頼性を把握した上で、それに基づいた使い方をするべきです。

過去にSimilarWebなどのデータを元にして特定サイトのアクセス動向などを推測したブログ記事などはいくつもありました。そのうちの多くは誤った数字になっています。

私の顧客もそのようにして誤った情報を流布されたことも数度ありました。実際の数字はもちろん、トラフィックの減少や上昇についても実データとは大きく異なるものが広く拡散したのです。それによって、社内や株主から大きく問題視されてその説明に奔走することになりました。

データはマーケティングの大きな味方です。しかしその使い方を誤るととそれは大きなリスク、大きな暴力になります。

データに関わるものとして、その誤った使われ方が公に評価されるような状況は看過すべきではありません。それは否定していくべきと考えます。

データが暴力とならないために、データを使う側の注意と努力が必要です。