HOME -> SEO基礎知識 >  >  > Googleのアーキテクチャを考える第十九回 検索ランキングの新基準Author Rank の存在

Googleのアーキテクチャを考える第十九回 検索ランキングの新基準Author Rank の存在

Googleのアーキテクチャを考える第十九回 検索ランキングの新基準Author Rank の存在

このエントリーをはてなブックマークに追加
先日、サーバーエージェントSEO局が主催したSEOセミナーに出席させていただいた。 
『京都大学との共同研究によるデータ分析とGoogleの変化から見る最新SEO動向』 

京都大学との連携で、検索アルゴリズムの各評価要素が、検索ランキングとどの程度相関関係や因果関係があるかを統計的手法で分析した結果を発表したものである。 

因果関係と相関関係を使い分けて説明する素晴らしいセミナーであった。 

結果は、リンクと検索ランキングとの相関関係が突出して高いというデータが得られたというものであった。以前より主張してきた事と一致したものと感じた次第である。 

ページインデックス数や文字のボリュームなど、コンテンツSEOの中で言われている要素もあったが、相関関係を示す統計的データはリンクほど大きいものではなく、 

ボリュームが多いほどランクが上がるという因果関係を示すデータも見当たらない(ページ数が少ないサイトのランクが上のケースが多々ある。)といった結果であった。 

一方で、ソーシャルシグナルの重要性が高まりつつあるというデータも示されていた。 

リンクが弱くなったと言われる中で、時系列でみた場合、むしろリンクの重要性が高まっている結果が学術的な統計データとして得られたのである。 

コンテンツの充実は、確かに検索エンジンの使命からすれば、ユーザーの知的好奇心を満たす意味で、本質的な問題である事は言うまでもないだろう。 

それでも、検索ランキングの視点で考えるならば、リンクやソーシャルシグナル、或いはトラフィックといった要素を考慮し、それらの良質なデータを得るための手段とする視点は不可欠であろう。 

ユーザーのニーズに応え、多くの支持を得ながらも、検索アルゴリズムの仕組みを理解した上でコンテンツのあり方を考えていくのが、学術的統計データから導き出されたSEOの方針であると私は考える。 

という事で、本稿ではリンクに関わる注目のアルゴリズムを紹介する。

前月号では、Googleの新しい取り組みとして海外SEOで囁かれている『Author Rank(著作者のランク)』について紹介をさせていただいたが、引き続きその原理や検索ランキングに関する設計思想について説明を加えたい。
tokkyo-2013-03.jpg


Googleウェブマスターセントラルブログの記事から取り上げよう。

「We know that great content comes from great authors, and we're looking closely at ways this markup could help us highlight au-thors and rank search results.」

「我々は、優れたコンテンツが優れた著作者から生み出される事を知っている。このマークアップは、著作者や検索ランキングの結果を強調表示する助けになる方法であると注目している。」

今までは、コンテンツそのものが評価の対象になっていたが、これからは、サイトの所有者や著者を評価の対象としようとする取り組みが進んでいる。

ウェブ上に存在する会社や団体、人物などに対して権威を基準とするランク付けがされるのである。

まだ導入はされていないものの、Google著作者情報プロジェクトチーム(Google Authorship project)エンジニアは、

「我々は、検索順位を決定するために200の信号を介して使用しており、著作者は現在、これらシグナルの一つではありません。しかし、我々は将来的にランキングのシグナルとして著作者に関する情報を用いて実験したいと思っています。」

とコメントしている事から、導入される蓋然性が高いであろうと考え、このアルゴリズムを取り上げた次第である。
間違いなく、先取りした検索ランキング対策であると言える。

では、ロジックがどうなっているのか?
前月号では、Google特許文書『Agent Rank』を紐解かねばならないと説明をしたところで終わった。
本稿では、Google特許文書『Agent Rank』を少し掘り下げて、その仕組みや概念について説明をしようと思う。

特許文書を読むうえで、最も大切な箇所は、発明の背景に関するくだりである。
アルゴリズムは、処理の手順である。我々が知りたいのは、検索ランキングが算出される手順であるが、所詮方法論に過ぎないし、時間とともに変化するかもしれない。

しかし、方法論は多様なものがあろうと、それが変化しようと、それを司る思想は大きく変わるものではない。
大規模システムであれば、一貫性や整合性が取れていなければ、それは成立しないであろう。
設計思想を理解する事で、我々が目指すべき指針がはっきりするというものである。

タイトルに『Rank』とある様に、検索ランキングに対する思想がはっきりと書かれている点において、他の特許文書と比べて異彩を放っていると思う。

tokkyo-2013-04.jpg

Google特許文書『Agent Rank』
特許番号:7673253
出願日:2005年8月8日
発行日:2009年7月21日
発明者:David Minogue, Paul A. Tucker

では、注目すべきトピックを取り出し、ひとつひとつの文節に対して補足説明をつけながら見ていこう。

「IR(情報検索)システムは、ユーザーによって示されたコンパクトなクエリ(検索語句)との関連度合いに基づいて、巨大な集積(インデックス情報)から文書を取り出すことを可能にします。文書は取り出される指令において、検索エンジンによって順位が作成される。」
(補足)
以前、検索エンジンの概要図を示した事があったが、同じ内容を説明している。
ランキングは、検索語句に関連した文書を取り出した後、検索結果が表示される直前にランク付けがされるのである。

「クエリに関連する高いランクを持つ文書は、検索結果の上位に表示される。」
(補足)
説明するまでもないが、検索語句に関連する文書が検索結果の上位に表示される。
ただ、注意してほしいのは、高いランクを持つという部分である。
後述するが、検索語句に関係なく、文書そのものが持つランクも影響を与えるのである。

「検索エンジンのランキングは、検索語句に対して独立性を帯びているか否かの基準に影響される。」
(補足)
検索エンジンアルゴリズムには、クエリ独立性とクエリ従属性の要素がある。
クエリ独立性とは、検索語句に関わらず、文書そのものが持つランクを決める性質を指す。

クエリ従属性とは、あくまでも検索語句に関わる基準を踏まえてランクを決める性質を指す。
例えば、「関連性」はクエリ従属性であり、HITSアルゴリズムは、検索語句に関連する文書の中でリンクに基づいたランクを決める意味において、クエリ従属性と言える。
(注)HITSアルゴリズムは、PageRankと同時期に出来たリンクスコアを算出するアルゴリズムだが、Googleの技術ではない。

「クエリに独立していない基準(クエリ従属性)は、一般的に意味に関して、クエリに関連する度合いを証明しようと試みます。一つの例として、単語が配分される頻度との一致を挙げる事が出来る。」
(補足)
検索ランキングを決める上で、意味における「関連性」がテーマになっていると説明している。
検索語句との「関連性」を判断する上で、単語(キーワード)の出現度合いや、配分される頻度を挙げる事が出来ると書いてあるが、以前、日本語解析において、n-gram解析や形態素解析などを取り上げた事があるが、
覚えている方がいるだろうか?

コンテンツSEOを標榜するウェブマスターであれば、最低限以下の項目は押さえておきたいところだ。
・形態素解析
・n-gram法
・転置ファイル(Google検索エンジンインデックスの形式:単語と文書にIDを付与する。わかりやすく言えば、図書館の蔵書につけられたラベルの様なものである。)
・if-idf(TFとは単語の出現頻度、IDFとは全文書の中で単語が一部の文書の中に集中している度合いである。tf-idfとは、両者を掛け合わせたスコアである。)

つまり、単語の出現度合いや、単語同士の繋がり具合などの統計データなどをもとに、
文書の適合性や、検索語句との適合性を計ろうというのがクエリ従属性の基準である。
もっと詳しい事は、別の稿で改めて説明をしたい。

「クエリに独立した基準は、文書が一般的に良性であるかの度合いを証明しようとします。
例えば、権威・明瞭さであり、それは人を欺く詐欺的なものではありません。」

(補足)
前月号で、Google検索ランキングに組み込まれる概念として挙げた『人気』『オーソリティ』『ハブ』『情報源』の内の『権威』がここで出てくる。

文書そのもののランクに対して、『権威』という概念が取り入れられている事はぜひ押さえておきたい。
本特許は更に踏み込み、文書のみならず、ウェブサイトの所有者や著者に対して、権威付けをしようとしているのである。
では、『権威』などという抽象的な概念を、どうやって数値化し、定量的な分析を加えるのか興味がわくところであるが、これは以下のくだりに出てくる。

「クエリに独立した基準の例として、文書群のリンク構造を検査するアルゴリズムやPageRankアルゴリズムによって計算された評価(評点)が挙げられる。」

(補足)
検索語句と関係がないところで、リンクに基づいたスコアが決定されているのである。

文書自体の良性を示す上でのランクと言えるだろう。

HITSアルゴリズムは、検索語句に関連する文書群のリンク構造を検査し、リンクに基づいたスコアリングを行う点において、クエリ従属性であり、PageRankとは明確に区分される。

「上記で言及した様に、クエリに独立した基準は、特定の情報源の権威を量る方法を提供します。例えば、情報源がある特定の情報源を指し示せば示すほど、(指示された)情報源はより高い検索順位の評価を得ることになり、より高い権威が付与される。」

(補足)
情報源を指すとは、発リンクであり、平たく言えば、被リンクを獲得したページは、

より高い順位とより高い権威を得る事が出来ると解説している。
「ある実証例において、検索ランキングアルゴリズムは繰り返し用いられる。その意味するところは、情報源の検索ランキングは、情報源を引用(参照)する情報源(いわゆる参照元)の検索ランキングにも基づく。言い換えれば、情報源の検索ランキングは、引用(参照)している情報源の数と質の両方に基づいている事を意味し、再帰的である。」

(補足)
平たく説明すると、ページのランキングは、被リンクの数を質に基づいている。
そのページにリンクしているリンク元ページの評価も内包していると説明しているのである。

つまり、リンク元ページがより多くのページから被リンクを獲得しているページならば、
その評価は、リンク先ページに引き継がれるのである。

再帰的とは、あるものを定義する時に、それ自身を定義に含むものを言うのであるが、反復計算によって、あるページのランキングは、リンク元ページの評価を内包する事から、再帰的と表現したのだと思う。

もっと平たく言えば、ページのランキングを上げたければ、評価の高いページからリンクをもらいなさいと言っているのだ。
更に言えば、評価の高いページからリンクをもらえなければ、リンク元のページの評価を上げてあげれば良いのである。

つまり、リンク元ページを育てろ!というのがこのくだりが示す対策の方針であると言えよう。
親のページを上げたければ、親ページにリンクしている子のページを育てなさい!
となる。

つまり、子のページに力を注ぎ、良質なリンクを集め、人気ページを作り上げれば、
親ページのランキングも上がり、Google流に言えば、反復計算によって、再帰的にサイト全体の評価が上がるのである。

【今回のポイント!】
評価の高いページからリンクをもらう。
リンク元ページのランキングが低ければ、自らが育てろ!
管理者が別であったり、自身でページ編集などのコントロール出来なかったりする場合は、そこにリンクを良質なリンクをつけてあげればよい。
例えば、ディレクトリ登録をしている場合は、掲載ページ(リンク元)にリンクをつけてあげると良い!
親のページを上げたければ、親にリンクしている子のページを育てろ!
子のページに良質なリンクを送るコストと努力を惜しむな!
子のページにこそ、人気のある良質コンテンツが存在する!
子のページのランキングが上がれば、親ページのランキングが上がり、更に反復計算によって、子のページのランキングが上がり、親のページのランキングが再び上がるというのがGoogleアルゴリズムの計算なのである。

『評価』と書いたが、一体『評価』とは何か?
具体的には、一番はPageRankであり、ページに配置されたリンクがクリックされる(トラフィックを生む)状態であり、訪問者が多い状態であり、更新頻度が高い状態である事などが挙げられる。

検索語句と関係がない基準(クエリ独立)において、文書そのものが持つランクは、
リンクやリンク構造によって支えられている。
そして、それは文書や著作者の権威を評価する基準としても用いられるのである。

Author Rank(著作者)を説明するために、Google特許文書『Agent Rank』を取り上げたが、今回は全く著作者については、具体的に言及しなかった。

理由は、冒頭で述べたとおり、特許技術の発明の背景にこそ、根幹をなす思想が隠されており、たとえ手段は違っても、価値基準については、一貫性や整合性が担保されているのだ。
そこを読み解く事が、しっかりとした方針を決める上で、重要であると判断し、この部分の解説を優先した次第である。

Agent Rankの原理については次回以降、特許文書が明示するフローチャートや図を使いながら、説明をしていきたい。

ただ、全く触れないものどうかと思うので、少し説明をしよう。
結論を言ってしまうと、Agent(所有者や著作者)の評価には、PageRankと同様のアルゴリズムが用いられている。

リンクに基づいたスコアリングにおいて評価の対象となるのは、あくまでもページ単位であり、あるページが獲得したリンク数やリンク構造に基づいて計算される。

対して、Agent Rankにおいては、ある著作者が獲得したリンクやリンク構造によって計算されるのである。

ある著作者がページAの一部分を作成し、ページBの一部分を担当し、ページCの一部分を担当したとする。
すると、その著作者は、3つのページにわたり、ページの該当箇所が獲得した部分の集積によるリンク構造に基づいた計算され、ランクが算出されるのである。
もう少し平たく言えば、ページはサイトの中に含まれ、ドメインの中に含まれる。
対して、著作者は、あるドメインに留まらず、複数のドメインに跨る場合がありえるのである。

例えば、ニュースサイトに投稿したものや、他社のサイトに寄稿したもの、
ある学術団体のサイトの寄稿したものなど、すべての媒体における著作者の該当箇所が対象になるのだ。
著作者に関わる全てのページが対象になるのである。(著作者が特定できた場合)

それらを全部集めてリンク構造を解析し、リンクマップを形成し、計算を行い、ランク付けしようとするのがAgent Rankの原理である。

全てが著者に紐付されてからデータが計算される原理であるのだ。

つまり、ウェブにおける『権威』という抽象的な概念は、『リンク』によって支えられ、
PageRankの原理が取り入れられているのである。

やはり、Googleの検索ランキングの中心にあるのは、リンクであると言わざるを得ない。
次号に続く


社団法人全日本SEO協会
特別研究員
郡司 武

Google検索技術特許研究に戻る>>

このエントリーをはてなブックマークに追加
PAGE TOP