Google検索の内部エンジニアリングドキュメント漏洩内容 by マイク・キング

2024.5.29

株式会社ブランディングワークス編集部

# SEO分析

以下は2024 年 5 月にリークされた Google 検索のコンテンツウェアハウス API の内部ドキュメントに基づいてマイク・キングが公開した記事に基づいています。

重要なポイント

ドキュメントには、14,014 個の属性を持つ 2,596 個のモジュールが記載されており、これらはランキングシステム、インデックス作成、クロール、レンダリングなど、Google 検索のさまざまなコンポーネントを表しています。
ドキュメントには、「NavBoost」や「FreshnessTwiddler」などの名前付きランキングシステムが多数記載されており、これらはユーザー行動、コンテンツの鮮度、その他の要因に基づいて結果を再ランク付けします。
ドキュメントには、”siteAuthority” や “lastValidClick” などの指標も記載されており、これらは、ウェブサイトの全体的な権威と個々のページの人気度を評価するために使用されます。
リークされた情報によると、Google は、以前は否定していた「サンドボックス」、「クリック」、そして「著者」シグナルを含む、さまざまな方法で SEO に関連する要素を依然として使用しています。

サマリ

SEO への影響

このリークは、SEO の世界に大きな影響を与える可能性があります。 SEO 担当者は、以下の点に特に注意する必要があります。

ランキングファクター: Google は、ランキングアルゴリズムに多くの異なる要素を使用しており、その重要性は時間とともに変化する可能性があります。 SEO 担当者は、これらの要素を最新の状態に保ち、コンテンツと Web サイトを最適化するためにそれらを使用する必要があります。
ユーザー行動: ユーザー行動は、Google のランキングシステムで重要な役割を果たします。 SEO 担当者は、ユーザーエンゲージメントを促進し、滞在時間を延ばし、クリック率を高めることにより、Web サイトのパフォーマンスを向上させることに重点を置く必要があります。
コンテンツの鮮度: 新鮮なコンテンツは、Google によって高く評価されます。 SEO 担当者は、定期的に新しいコンテンツを公開し、既存のコンテンツを更新することで、Web サイトを最新の状態に保つ必要があります。
著者シグナル: Google は、著者をコンテンツの品質指標として使用している可能性があります。 SEO 担当者は、高品質なコンテンツを作成し、著者名を明確に表示することで、Web サイトの権威を高める必要があります。
ンスを向上させることができます。

注意事項

この文書は、リークされた情報に基づいています。 Google は、この情報が正確であることを確認していません。

この記事の目次

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

出典元 Secrets from the Algorithm by Mike King

出典元：Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked
by Mike King on May 27, 2024

Google、これを読んでいるならもう手遅れです。😉

わかりました。指の関節を鳴らします。早速始めましょう。Google 検索のコンテンツウェアハウス API の内部ドキュメントが漏洩しました。Google の内部マイクロサービスは、Google Cloud Platform が提供するものを反映しているようですが、廃止された Document AI ウェアハウスの内部バージョンのドキュメントが、クライアントライブラリのコードリポジトリに誤って公開されました。このコードのドキュメントは、外部の自動ドキュメントサービスによってもキャプチャされました。

変更履歴によると、このコードリポジトリの間違いは 5 月 7 日に修正されましたが、自動化されたドキュメントはまだ有効です。潜在的な責任を制限するために、ここではリンクしませんが、そのリポジトリのすべてのコードは Apache 2.0 ライセンスの下で公開されているため、それを目にしたすべての人に、とにかくそれを使用、変更、配布する能力を含む広範な権利が付与されています。

Google が誤ってコンテンツウェアハウスを公開してしまった廃止された Document AI Warehouse の内部バージョンのドキュメントのスクリーンショット

私は API リファレンスドキュメントを確認し、他の過去の Google リークや DOJ の反トラスト法に関する証言と照らし合わせて、その文脈を整理しました。私はこれを、近々出版予定の著書「The Science of SEO」のために行った広範な特許およびホワイトペーパーの調査と組み合わせます。私が確認したドキュメントには Google のスコアリング機能に関する詳細は記載されていませんが、コンテンツ、リンク、ユーザーインタラクションについて保存されているデータに関する豊富な情報が記載されています。また、操作および保存されている機能に関する説明も、さまざまな程度 (がっかりするほどまばらなものから驚くほど詳細に記述されているものまで) あります。

これらを大まかに「ランキング要因」と呼びたくなるかもしれませんが、それは正確ではありません。多く、いやほとんどがランキング要因ですが、そうでないものもあります。ここで私がやろうとしているのは、私の徹底的な調査と、Google が長年にわたって私たちに伝えてきたこと/嘘をついてきたことに基づいて、最も興味深いランキングシステムと機能 (少なくとも、この大規模なリークをレビューした最初の数時間で見つけることができたもの) のいくつかを文脈化することです。

「嘘をついた」というのは厳しい表現だが、ここで使うのに適切な言葉はそれだけだ。Google の公的な代表者が自社の専有情報を守ることを必ずしも非難するわけではないが、再現可能な発見を発表したマーケティング、テクノロジー、ジャーナリズムの分野の人々を積極的に信用を失墜させようとする彼らの取り組みには異論がある。こうした話題について発言する将来の Google 社員へのアドバイスは、時には「それについては話せない」と単純に言う方が良いということだ。信頼性は重要であり、今回のような漏洩や司法省の裁判のような証言が出てくると、今後の発言を信頼することは不可能になる。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

この記事を読む上での注意点

このリークから得た私の調査結果と分析を信用できないものにしようとする人々が出てくることは、私たち全員が知っていると思います。なぜそれが重要なのか疑問に思い、「でも、それはすでにわかっていた」と言う人もいるでしょう。ですから、本題に入る前に、注意事項を整理しておきましょう。

限られた時間とコンテキスト –休日の週末のため、これらすべてに集中して取り組めた時間は 12 時間程度でした。私がすぐに理解を深められるよう、非常に協力的に洞察を共有してくれた匿名の関係者の方々に心から感謝しています。また、昨年取り上げた Yandex の漏洩と同様に、私は全体像を把握していません。Yandex の場合、解析すべきソースコードはあってもその背後にある考え方はまったくわかりませんでしたが、今回の場合は、数千の機能とモジュールの背後にある考え方の一部はありますが、ソースコードはありません。数週間後にこの資料にじっくり取り組んだ後、より体系化されていない形でこの情報を共有することをお許しください。
スコアリング機能なし –さまざまな下流のスコアリング機能で機能がどのように重み付けされているかはわかりません。利用可能なものがすべて使用されているかどうかはわかりません。一部の機能が廃止されていることはわかっています。明示的に示されていない限り、どのように使用されているかはわかりません。パイプラインのどこですべてが起こっているかはわかりません。Google の説明、SEO が実際のランキングを観察した方法、特許出願や IR 文献の説明と大まかに一致する、名前の付いたランキングシステムがいくつか存在します。最終的に、このリークのおかげで、SEO で今後何に重点を置き、何を無視するかを判断するのに役立つ、検討されている内容がより明確になりました。
おそらく複数回の投稿の最初の投稿 –この投稿は、私がレビューした内容の最初の試みになります。詳細を掘り下げ続けるにつれて、後続の投稿を公開する可能性があります。この記事によって、SEO コミュニティがこれらのドキュメントを解析するために競い合うようになり、私たちは今後数か月にわたって集合的に物事を発見し、再コンテキスト化することになると思います。
これは最新情報のようです –私の知る限り、このリークは、2024 年 3 月時点の Google 検索コンテンツストレージの現在のアクティブなアーキテクチャを表しています。(Google PR 担当者が私が間違っていると言っています。実際、歌と踊りはスキップしましょう)。コミット履歴に基づくと、関連コードは 2024 年 3 月 27 日にプッシュされ、2024 年 5 月 7 日まで削除されませんでした。

リポジトリコミットのスクリーンショットには、情報が 2024 年 5 月 7 日にコミットされたことが視覚的に証明されています。

相関関係は因果関係ではない– そうですね、これはここでは当てはまりませんが、念のため、すべての点をカバーしていることを確認したかったのです。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

ドキュメントには14,000のランキング機能などが記載されています

API ドキュメントには、次のような 14,014 個の属性 (機能) を持つ 2,596 個のモジュールが表されています。

次のテキストを含む API ドキュメントのスクリーンショット: GoogleApi.ContentWarehouse.V1.Model.CompressedQualitySignals 圧縮されて Mustang と TeraGoogle に含まれるドキュメントごとのシグナルを含むメッセージ。TeraGoogle の場合、このメッセージは perdocdata に含まれるため、予備スコアリングに使用できます。注意: TeraGoogle の場合、このデータは膨大な数のドキュメントに対して非常に限られたサービスメモリ (フラッシュストレージ) に存在します。次の id: 43 属性 * ugcDiscussionEffortScore (type: integer(), default: nil) - UGC ページ品質シグナル。(1000 倍して切り捨て) * productReviewPPromotePage (type: integer(), default: nil) - * experimentalQstarDeltaSignal (type: number(), default: nil) - このフィールドはシャードに伝播されません。これは、上記の experimental_nsr_team_wsj_data フィールドにあるバージョンのいずれかを使用して、サービス提供時に入力されることを目的としています (入力には ExperimentalNsrTeamDataOverridesParams オプションを使用します。http://source/search? ExperimentalNsrTeamDataOverridesParams%20file:ascorer.proto を参照してください)。このフィールドの目的は、新しいデルタコンポーネントを使用して LE をすばやく実行するために、実験的な Q* コンポーネントによって読み取られることです。詳細については、go/oDayLEs を参照してください。 * productReviewPDemoteSite (タイプ: integer()、デフォルト: nil) - 製品レビューの降格/昇格、信頼度。(1000 倍して切り捨て) * experimentalQstarSiteSignal (タイプ: number()、デフォルト: nil) - このフィールドはシャードに伝播されません。これは、上記の experimental_nsr_team_wsj_data フィールドにあるバージョンのいずれかを使用して、サービス提供時に入力されるものです (入力には ExperimentalNsrTeamDataOverridesParams オプションを使用します。http://source/search? ExperimentalNsrTeamDataOverridesParams%20file:ascorer.proto を参照してください)。このフィールドの目的は、新しいサイトコンポーネントで LE を迅速に実行するために、実験的な Q* コンポーネントによって読み取られることです。詳細については、go/oDayLEs を参照してください。 * exactMatchDomainDemotion (型: integer()、既定値: nil) - quality/q2/proto/quality-boost.proto の proto QualityBoost のフィールドから変換されたページ品質シグナル。インデックス作成スペースを節約するために、次のフィールドを変換します (切り捨てます)。

モジュールは、YouTube、アシスタント、ブック、動画検索、リンク、ウェブドキュメント、クロールインフラストラクチャ、内部カレンダーシステム、People API のコンポーネントに関連しています。Yandex と同様に、Google のシステムはモノリシックリポジトリ (または「モノレポ」) で動作し、マシンは共有環境で動作します。つまり、すべてのコードが 1 か所に保存され、ネットワーク上のどのマシンも Google のシステムの一部になることができます。

「共有環境」というタイトルの画像は、共有環境内のさまざまなコンポーネントとその配置を示すブロック図です。この図は複数のレイヤーに分かれており、それぞれが異なるタイプのアプリケーションとシステムサービスを表しています。詳細は次のとおりです。最上位レイヤー: ランダムアプリ #2 (シアンの背景)、CPU を集中的に使用するジョブ (シアンの背景)、ランダムアプリ (シアンの背景)、ランダム MapReduce #1 (シアンの背景)、Bigtable タブレットサーバー (シアンの背景)、中間レイヤー: その他のさまざまなシステムサービス (青色の背景)、最下位レイヤー: ファイルシステムチャンクサーバー (青色の背景)、スケジューリングシステム (青色の背景)、ベースレイヤー: Linux (青色の背景)。図全体が点線で囲まれており、共有環境を示しています。画像の右下隅に Google ロゴがあります。

漏洩したドキュメントには、API の各モジュールの概要が示されており、概要、タイプ、関数、属性に分類されています。私たちが確認している内容のほとんどは、ランキングシステム全体でアクセスされ、SERP (検索エンジン結果ページ – ユーザーがクエリを実行した後に Google が表示するページ) を生成するさまざまなプロトコルバッファー(または protobuf) のプロパティ定義です。

この画像は、プロトコルバッファー (PB) を使用してデータをシリアル化するプロセスを示したフローチャートです。フローチャートは 4 つの主なステップで構成され、各ステップはプロセスフローの方向を示す矢印の付いたブロックで表されます。 .proto ファイルを作成してデータ構造を定義する出力: .proto ファイル protoc コンパイラを使用してコードを生成する入力: .proto ファイル出力: .java、.py、.cc、またはその他のソースファイル PB コードをプロジェクトコードでコンパイルする入力: .java、.py、.cc、またはその他のソースファイル出力: コンパイル済みクラス PB クラスを使用してデータをシリアル化、共有、および逆シリアル化する入力: コンパイル済みクラス各ブロックは、ステップ間の依存関係を示すために、「入力」および「出力」というラベルの付いた矢印で接続されています。フローチャートは、.proto ファイルでデータ構造を定義することから、コンパイル済みクラスを使用してプロジェクトでデータのシリアル化と逆シリアル化を行うまでの手順を視覚的に説明しています。

残念ながら、要約の多くは、システムのさまざまな側面に関する追加情報を提供する Google の企業イントラネット上の URL である Go リンクを参照しています。ログインしてこれらのページを表示するための適切な Google 認証情報がなければ (これには、現在 Google 検索チームに所属している必要があります)、私たちは自分で解釈するしかありません。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

APIドキュメントがGOOGLEの注目すべき嘘を暴露

Google の広報担当者は、SEO 担当者の行動をコントロールするために、システムのさまざまな側面で私たちを誤解させ、ミスリードしようと努力してきました。この用語には重い歴史があるため、これを「ソーシャルエンジニアリング」と呼ぶことはしません。代わりに「ガスライティング」と呼びましょう。Google の公式声明は、意図的に嘘をつくのではなく、潜在的なスパマー (および多くの正当な SEO 担当者) を騙して、検索結果に影響を与える方法を私たちに悟らせないようにするためのものでしょう。

以下では、Google 社員の主張と、限られたコメントを添えてドキュメントからの事実を紹介しますので、ご自身で判断してください。

「ドメインオーソリティのようなものは存在しません」

Google の広報担当者は、「ドメインオーソリティ」は使用していないと何度も述べています。私は、これは省略とごまかしによる嘘だとずっと思ってきました。

ドメインオーソリティを使用しないと言っているということは、Moz の「ドメインオーソリティ」という指標を特に使用していないと言っている可能性があります (当然ですね 🙄)。また、Web サイトに関連する特定の主題 (またはドメイン) のオーソリティまたは重要性を測定していないと言っている可能性もあります。この意味論による混乱により、サイト全体のオーソリティ指標を計算または使用しているかどうかという質問に直接答えることができません。

ウェブサイト作成者を支援するための情報の公開に注力している Google 検索チームのアナリスト、ゲイリー・イリーズ氏は、この主張を何度も繰り返しています。

この画像は、Twitter の会話のスクリーンショットです。会話には 3 つのツイートが含まれており、バックリンクがドメインオーソリティに与える影響について議論しているようです。ツイートのテキストは次のとおりです。2016 年 10 月 27 日の //Andrew Rodgers (@AndyNRodgers) によるツイート: 「@JohnMu jpg URL へのバックリンクは、静的 URL と同様にアルゴリズムに影響しますか? @methode」エンゲージメント: いいね 1 件、リツイート 2 件2016 年 10 月 27 日の //Andrew Rodgers (@AndyNRodgers) によるツイート (最初のツイートへの返信): 「よくわかりません。ドメインオーソリティ全体にとって、jpg URL へのバックリンクは、Web ページの URL へのバックリンクと同じくらい影響があるでしょうか?」エンゲージメント: いいね 1 件 2016 年 10 月 27 日の Gary Illyes (@methode) によるツイート (Andrew Rodgers への返信): 「私たちは実際には「全体的なドメイン権限」を持っていません。ただし、アンカーテキスト付きのテキストリンクのほうが優れています」タイムスタンプ: 2016 年 10 月 27 日午前 8 時 34 分、インドネシア、Kebayoran Lama から画像には、会話の参加者のプロフィール写真と名前も含まれています。

そして、ゲイリーだけではありません。「Google 検索関係を調整する検索アドボケート」のジョン・ミューラーは、このビデオで「私たちにはウェブサイトの権威スコアはありません」と明言しました。

実際には、ドキュメントごとに保存される圧縮品質シグナルの一部として、Google は「siteAuthority」と呼ばれる機能を計算します。

画像には、属性「siteAuthority」を説明する技術文書のスニペットが含まれています。タイトル: siteAuthority タイプ: integer()、デフォルト: nil 説明: site_authority: quality_nsr.SiteAuthority から変換され、Qstar に適用されています。

この指標が下流のスコアリング機能でどのように計算され、どのように使用されるかは具体的にはわかりませんが、それが存在し、Q* ランキングシステムで使用されていることは確実にわかっています。Google は確かに総合的なドメインオーソリティを持っていることがわかりました。Google 社員が「私たちはそれを持っていますが、使用していません」または「それが何を意味するのか理解していません」と主張したり… 待ってください、私は「限定的な解説」と言いましたよね?先に進みます。

「クリックはランキングには使用しません」

これを永久に終わらせましょう。

最近、 DOJ 反トラスト裁判における Pandu Nayak の証言で、 Glue および NavBoost ランキングシステムの存在が明らかになりました。NavBoost は、クリック主導の手段を使用して Web 検索のランキングを上昇、下降、または強化するシステムです。Nayak は、Navboost は 2005 年頃から存在し、これまで 18 か月分のクリックデータを使用していたと述べています。このシステムは最近更新され、13 か月分のデータを使用するようになり、Web 検索結果に重点を置いています。一方、Glue と呼ばれるシステムは、他のユニバーサル検索結果に関連付けられています。しかし、その暴露以前から、クリックログを使用して結果を変更する方法を具体的に示す特許がいくつかありました (2007 年のTime Based Ranking特許を含む)。

また、クリック数を成功の尺度として用いることは、情報検索におけるベストプラクティスであることもわかっています。Google は機械学習主導のアルゴリズムに移行しており、ML ではパフォーマンスを改良するために応答変数が必要であることもわかっています。この驚くべき証拠にもかかわらず、Google の広報担当者の誤った指示や、検索マーケティングの世界全体で Google の公式声明を無批判に繰り返す記事が恥ずかしいほど共謀して公開されているため、SEO コミュニティでは依然として混乱が続いています。

ゲイリー・イリーズは、このクリック測定の問題に何度も言及しています。あるとき、彼は、Google 検索エンジニアのポール・ハールが 2016 年の SMX West でのライブ実験に関する講演で述べたことを補強し、「クリックをランキングに直接使用するのは間違いだ」と述べました。

この画像は、Google の品質アップデートと品質評価におけるクリックの役割について論じたインタビューまたは記事からの抜粋テキストのスクリーンショットです。テキストは次のとおりです。 DS: 先月、品質アップデートがありました。Google は品質をどのように評価しているのでしょうか。クリックはどのように考慮されるのでしょうか。 GI: クリックはさまざまな方法で使用されます。クリックを使用する主な目的は、評価と実験です。クリックにノイズを誘発しようとしている人はたくさんいます。たとえば、Rand Fishkin はクリックの実験を行っています。クリックを直接ランキングに使用するのは間違いです。パーソナライズされた結果で、apple を検索すると、おそらく曖昧さ回避ボックスが表示されます。会社名を言っているのか、食品名を言っているのかを判断する必要があります。次に、クリックを確認します。テキストの一部、具体的には「クリックを直接ランキングに使用するのは間違いです」が黄色で強調表示されています。

さらに後に、彼は自身のプラットフォームを利用して、Rand Fishkin (Moz の創設者兼 CEO であり、長年の SEO 実践者) をけなして、「滞在時間、CTR、Fishkin の新しい理論が何であれ、それらは大抵でっちあげの戯言だ」と言ったことで有名になりました。

この画像は、ユーザー名が「garyillyes」である Gary Illyes が Lyndon というユーザーに返信した Reddit の投稿のスクリーンショットです。この投稿は、36 件の賛成票、賞、および 24 件の返信があるスレッドの一部です。投稿のテキストは次のとおりです。 garyillyes OP • 5 年前やあ、Lyndon! 飛行機を待っているので暇なので、この質問には簡単に答えます (明日質問に答えることになっています)。RankBrain は、PR で魅力的な機械学習ランキングコンポーネントで、過去の検索データを使用して、ユーザーがこれまでに見たことのないクエリに対して何をクリックするかを予測します。これは、従来のアルゴリズムが「クエリ文字列に「not」があるぞ! 完全に無視しよう!」などと言ったときに何度も私たちを救ってくれた、本当にクールなエンジニアリングですが、通常は、ランディングページではなく、結果ページ自体で何が起こったかに関する (場合によっては) 数か月前のデータに頼っているだけです。滞在時間、CTR、フィッシュキンの新しい理論は、一般的にはでっちあげのナンセンスです。検索は人々が考えるよりもはるかに簡単です。テキストの「滞在時間、CTR、フィッシュキンの新しい理論は、一般的にはでっちあげのナンセンスです。検索は人々が考えるよりもはるかに簡単です」という部分は黄色で強調表示されています。

実際には、Navboost にはクリック信号に完全に焦点を当てた特定のモジュールがあります。

そのモジュールの概要では、これを「ランキングシステムの 1 つである Craps のクリックとインプレッションのシグナル」と定義しています。以下に示すように、悪いクリック、良いクリック、最後の最長クリック、圧縮されていないクリック、および圧縮されていない最後の最長クリックはすべて、メトリックとして考慮されます。Google の「場所の顕著性に基づいてローカル検索結果にスコアを付ける」特許によると、「圧縮は、1 つの大きなシグナルが他のシグナルを支配するのを防ぐ機能です。」つまり、システムはクリックデータを正規化して、クリックシグナルに基づく暴走操作が行われないようにします。Google の社員は、特許やホワイトペーパーに記載されているシステムが必ずしも実際のシステムと同じではないと主張していますが、NavBoost が Google の情報検索システムの重要な部分でなければ、構築して組み込むのは無意味なことです。

画像には、クリックに関連するいくつかの属性を説明する技術文書が含まれています。各属性は、そのタイプとデフォルト値とともに詳細に説明されています。テキストは次のとおりです: badClicks タイプ: float()、デフォルト: nil クリック (タイプ: float()、デフォルト: nil) - goodClicks タイプ: float()、デフォルト: nil インプレッション (タイプ: float()、デフォルト: nil) - lastLongestClicks タイプ: float()、デフォルト: nil unicornClicks (タイプ: float()、デフォルト: nil) - Unicorn ユーザーのイベントに関連付けられたクリックのサブセット。 unsquashedClicks タイプ: float()、デフォルト: nil これは現在の形式では入力されません。代わりに、CrapsClickSignals の 2 つのインスタンス (squashed/unsquashed) が使用されます。このフィールドが入力される新しい形式に移行しています。 unsquashedImpressions タイプ: float()、デフォルト: nil これは現在の形式では入力されません。代わりに、CrapsClickSignals の 2 つのインスタンス (squashed/unsquashed) が使用されます。このフィールドが入力される新しい形式に移行しています。 unsquashedLastLongestClicks タイプ: float()、デフォルト: nil これは現在の形式では入力されません。代わりに、CrapsClickSignals の 2 つのインスタンス (squashed/unsquashed) が使用されます。このフィールドが入力される新しい形式に移行しています。

クリックベースの測定の多くは、インデックスシグナルに関連する別のモジュールにも含まれています。測定の 1 つは、特定のドキュメントに対する「最後の有効なクリック」の日付です。これは、コンテンツの衰退 (または時間の経過によるトラフィックの減少) も、ランキングページがその SERP 位置で期待されるクリック数を獲得していないことによるものであることを示しています。

さらに、ドキュメントではユーザーを投票者として表し、そのクリックが投票として保存されます。システムは不正なクリックの数をカウントし、国とデバイスごとにデータをセグメント化します。

また、セッション中にどの結果が最も長くクリックされたかも保存されます。したがって、検索を実行して結果をクリックするだけでは不十分で、ユーザーはそのページでかなりの時間を費やす必要があります。長いクリックは、滞在時間と同様に検索セッションの成功の尺度ですが、このドキュメントには「滞在時間」と呼ばれる特定の機能はありません。それでも、長いクリックは事実上同じことの尺度であり、この件に関するGoogle の声明と矛盾しています。

さまざまな情報源によると、 NavBoost は「すでに Google の最も強力なランキングシグナルの 1 つ」だそうです。漏洩したドキュメントでは、「Navboost」という名前が 84 回指定されており、タイトルに Navboost を冠したモジュールが 5 つあります。また、サブドメイン、ルートドメイン、URL レベルでのスコアリングを検討しているという証拠もあり、これは本質的に、サイトの異なるレベルを異なる方法で扱っていることを示しています。サブドメインとサブディレクトリの議論には立ち入りませんが、システムのデータが Panda アルゴリズムにもどのように影響しているかについては、後ほど説明します。

したがって、確かに、Google はこのドキュメントで「CTR」や「滞在時間」をその言葉で正確には言及していませんが、Rand が証明した精神、つまり検索結果のクリック数と成功した検索セッションの測定が含まれています。証拠はかなり決定的であり、Google がクリック数とクリック後の行動をランキングアルゴリズムの一部として使用していることにほとんど疑いの余地はありません。

「サンドボックスはない」

Googleの広報担当者は、ウェブサイトが年齢や信頼シグナルの欠如に基づいて隔離されるサンドボックスは存在しないと断言している。現在は削除されたツイートで、ジョン・ミュラー氏は、ランキングの対象となるまでにどのくらいの時間がかかるかという質問に「サンドボックスは存在しない」と回答した。

この画像は、新しいウェブサイト用の Google サンドボックスのコンセプトについて議論している 2 人のユーザー間の Twitter でのやり取りのスクリーンショットです。ツイートのテキストは次のとおりです。Vijay Kumar (@VijayKumarIM) による 8 月 19 日のツイート: 「それはうれしいですね。通常、新しいウェブサイトの Google サンドボックスから解放されるにはどのくらいの時間がかかりますか?」エンゲージメント: いいね 1 件John (@JohnMu) による 8 月 19 日の返信: 「サンドボックスはありません。」タイムスタンプ: 2019 年 8 月 19 日午前 10 時 48 分エンゲージメント: いいね 7 件、リツイート 3 件返信はユーザーのプロフィール写真と認証チェックマークで強調表示されており、認証済みアカウントからの応答であることを示しています。

PerDocData モジュールのドキュメントには、特に「配信時に新しいスパムをサンドボックス化するために」使用される hostAge という属性が示されています。

結局、サンドボックスがあることがわかりました。誰が知っていたでしょうか?ああ、そうだ、ランドは知っていた。

「ランキングにはChromeのものは何も使用していません」

マット・カッツ氏は以前、Google は Chrome のデータをオーガニック検索の一部として使用していないと述べたと伝えられている。最近では、ジョン・ミューラー氏がこの考えを補強した。

ページ品質スコアに関連するモジュールの 1 つは、Chrome からのサイトレベルのビュー測定機能を備えています。サイトリンクの生成に関連していると思われる別のモジュールにも、Chrome 関連の属性があります。

2016 年 5 月に漏洩した RealTime Boost システムに関する内部プレゼンテーションでも、Chrome のデータが検索に利用されることが示されています。つまり、要点はおわかりでしょう。

Google の広報担当者は善意で言っているが、彼らを信頼できるだろうか?

秘密のソースに近づきすぎると、すぐに答えは出ません。

ここで引用した人々に対して、私は悪意を抱いていません。彼らは皆、許された範囲内でコミュニティにサポートと価値を提供するために最善を尽くしていると確信しています。しかし、これらの文書は、彼らの言うことを 1 つの情報として受け止め続けるべきであり、私たちのコミュニティは何が機能するかを試行錯誤し続けるべきであることを明確に示しています。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

GOOGLE のランキングシステムのアーキテクチャ

概念的には、「Google アルゴリズム」は、一連の重み付けされたランキング要因を持つ巨大な方程式であると考えるかもしれません。実際には、これは一連のマイクロサービスであり、多くの機能が前処理され、実行時に SERP を構成するために利用可能になります。ドキュメントで参照されているさまざまなシステムに基づくと、100 を超えるさまざまなランキングシステムがある可能性があります。これらがすべてのシステムではないと仮定すると、おそらく個別のシステムのそれぞれが「ランキングシグナル」を表しており、Google がよく話す 200 のランキングシグナルは、そのようにして得られたものなのかもしれません。

Jeff Dean 氏の「Google でのソフトウェアシステムの構築とそこから学んだ教訓」という講演では、Google の初期のバージョンでは、各クエリを 1,000 台のマシンに送信し、250 ミリ秒未満で処理して応答していたと述べられています。また、システムアーキテクチャの抽象化の初期バージョンを図式化しました。この図は、Super Root が Google 検索の頭脳であり、クエリを送信して最後にすべてをまとめることを示しています。

著名な研究エンジニアである Marc Najork 氏は、最近のGenerative Information Retrieval プレゼンテーションで、RAG システム (別名 Search Generative Experience/AI Overviews) を使用した Google 検索の抽象化モデルを紹介しました。この図は、結果のさまざまなレイヤーを処理する一連の異なるデータストアとサーバーを示しています。

Google の内部告発者、Zach Vorhies 氏が、Google 内のさまざまなシステムの関係を内部名で示すこのスライドをリークしました。これらのいくつかはドキュメントで参照されています。

これら 3 つの高レベルモデルを使用すると、これらのコンポーネントがどのように連携するかについて考え始めることができます。ドキュメントから収集した情報によると、この API はGoogle の Spanner上に存在しているようです。Spanner は基本的に、グローバルにネットワーク化された一連のコンピューターを 1 つとして扱いながら、コンテンツのストレージとコンピューティングの無限のスケーラビリティを可能にするアーキテクチャです。

確かに、ドキュメントだけからすべての関係をつなぎ合わせるのはやや困難ですが、Paul Haahr の履歴書には、いくつかの名前付きランキングシステムが何をするのかについての貴重な洞察が示されています。私が知っているものを名前でハイライトし、機能ごとに分類してみます。

クロール

Trawler – Web クロールシステム。クロールキューを備え、クロールレートを維持し、ページが変更される頻度を把握します。

インデックス作成

Alexandria –コアインデックスシステム。
SegIndexe r –階層化されたドキュメントをインデックス内の階層に配置するシステム。
TeraGoogle –ディスク上に長期保存されるドキュメントのセカンダリインデックスシステム。

レンダリング

HtmlrenderWebkitHeadless – JavaScript ページのレンダリングシステム。奇妙なことに、これは Chromium ではなく Webkit にちなんで名付けられています。ドキュメントには Chromium についての言及があるので、Google は当初 WebKit を使用していて、Headless Chrome の登場後に切り替えたと考えられます。

処理

LinkExtractor –ページからリンクを抽出します。
WebMirror –正規化と複製を管理するためのシステム。

サービング

Google Web Server – GWS は、Google のフロントエンドがやり取りするサーバーです。ユーザーに表示するデータのペイロードを受信します。
SuperRoot –これは Google 検索の頭脳であり、Google のサーバーにメッセージを送信し、結果の再ランク付けと表示のための後処理システムを管理します。
SnippetBrain –結果のスニペットを生成するシステム。
Glue –ユーザーの行動を利用して普遍的な結果をまとめるシステム。
クックブック –シグナルを生成するシステム。実行時に値が作成されるという兆候があります。

前述したように、これらのドキュメントにはさらに多くのシステムが概説されていますが、それらが何をするのかは完全には明らかではありません。たとえば、上の図の SAFT と Drishti もこれらのドキュメントに示されていますが、その機能は不明です。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

TWIDDLERS とは何ですか?

Twiddler 全般に関するオンライン情報は限られているため、ドキュメントで遭遇するさまざまな Boost システムをより適切に文脈化できるように、ここで説明する価値があると思います。

Twiddler は、主要な Ascorer 検索アルゴリズムの後に実行される再ランク付け機能です。WordPress のフィルターやアクションの動作に似ており、表示される内容はユーザーに表示される直前に調整されます。Twiddler は、ドキュメントの情報検索スコアを調整したり、ドキュメントのランクを変更したりできます。多くのライブ実験や、私たちが知っている名前付きシステムは、このように実装されています。この Xoogler が示すように、これらはさまざまな Google システムで非常に重要です。

Twiddlers はカテゴリ制約を提供できます。つまり、結果の種類を具体的に制限することで多様性を促進できます。たとえば、著者は特定の SERP にブログ投稿を 3 件だけ許可するように決定できます。これにより、ページ形式に基づいてランキングが絶望的である場合を明確にできます。

GoogleがPandaのようなものはコアアルゴリズムの一部ではないと言った場合、それはおそらく、再ランキングのブーストまたは降格の計算のためのTwiddlerとして開始され、その後、主要なスコアリング機能に移動されたことを意味します。サーバー側とクライアント側のレンダリングの違いに似ていると考えてください。

おそらく、Boost サフィックスを持つ関数はすべて、Twiddler フレームワークを使用して動作します。ドキュメントで特定されている Boost の一部を次に示します。

ナビブースト
品質向上
リアルタイムブースト
ウェブイメージブースト

命名規則により、それらはすべてかなり一目瞭然です。

私がレビューした Twiddlers に関する内部文書には、これについてより詳細に説明されているものもありますが、この投稿では、著者が私と同じ文書を見たようです。

SEO の実施方法に影響を与える可能性のある重要な発見

では、あなたが本当に知りたいことを見てみましょう。Google は私たちが知らなかった、または確信が持てなかったことを何を行っているのでしょうか。また、それが SEO の取り組みにどのような影響を与えるのでしょうか。

先に進む前に、ちょっと注意点があります。SEO 業界に新しい概念を紹介することが私の目標です。特定のユースケースでそれをどのように使用するか指示することが私の目標ではありません。それが目的であれば、SEO のために iPullRank を雇うべきです。そうでない場合は、独自のユースケースを推測して開発するには十分すぎるほどのものが常にあります。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

パンダアップデート（低品質コンテンツに関するアップデート）の仕組み

パンダアップデートがロールアウトされたとき、多くの混乱がありました。これは機械学習ですか? ユーザーシグナルを使用しますか? 回復するにはなぜ更新またはリフレッシュが必要ですか? サイト全体ですか? 特定のサブディレクトリのトラフィックが失われたのはなぜですか?といった疑問です。

パンダアップデートは Amit Singhal の指揮の下でリリースされました。Singhal は、観測可能性が限られているため、機械学習に断固として反対していました。実際、パンダアップデートのサイト品質に焦点を当てた一連の特許がありますが、私が注目したいのは、目立たない「検索結果のランク付け」です。この特許は、Panda が私たちが考えていたよりもはるかにシンプルであることを明確にしています。主に、ユーザーの行動と外部リンクに関連する分散信号に基づいてスコアリングモディファイアを構築することでした。このモディファイアは、ドメインレベル、サブドメイン、またはサブディレクトリレベルで適用できます。

「システムは、独立リンクの数と参照クエリの数からリソースグループの修正係数を生成します (ステップ 306)。たとえば、修正係数は、グループの独立リンクの数とグループの参照クエリの数の比率にすることができます。つまり、修正係数 (M) は次のように表すことができます。

M=IL/RQ、

ここで、IL はリソースグループに対してカウントされた独立リンクの数であり、RQ はリソースグループに対してカウントされた参照クエリの数です。」

独立リンクは基本的にルートドメインのリンクと考えられているものですが、参照クエリはもう少し複雑です。特許では次のように定義されています。

「特定のリソースグループに対する参照クエリは、特定のリソースグループ内のリソースを参照するものとして分類された、以前に送信された検索クエリである可能性があります。特定の以前に送信された検索クエリを特定のリソースグループ内のリソースを参照するものとして分類することは、特定の以前に送信された検索クエリに、特定のリソースグループ内のリソースを参照すると判断された 1 つ以上の用語が含まれているかどうかを判断することを含む可能性があります。」

このドキュメントにアクセスできるようになったので、参照クエリが NavBoost からのクエリであることは明らかです。

これは、Panda アップデートが、Core Web Vitals の計算機能と同様に、クエリのローリングウィンドウに対する更新に過ぎなかったことを示唆しています。また、リンクグラフの更新が Panda ではリアルタイムで処理されなかったことも意味している可能性があります。

繰り返しになりますが、Panda の別の特許である「サイト品質スコア」でも、参照クエリとユーザーの選択またはクリックの比率であるスコアが検討されています。

ここでの肝心なことは、ランキングを維持したいのであれば、より幅広いクエリを使用してより多くのクリックを成功させ、より多様なリンクを獲得する必要があるということです。概念的には、非常に強力なコンテンツがそれを実現するので、それは理にかなっています。より質の高いトラフィックを誘導してユーザーエクスペリエンスを向上させることに重点を置くと、ページがランキングに値するというシグナルが Google に送信されます。ヘルプフルコンテンツアップデートから回復するには、同じことに重点を置く必要があります。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

著者は明確な特徴である

EEAT については多くのことが書かれています。多くの SEO 担当者は、専門性と権威を評価することがいかに曖昧であるかという理由で、信じていません。また、私は以前、Web 上で著者マークアップが実際にどれほど少ないかを強調しました。ベクター埋め込みについて学ぶ前は、著者が Web 規模で十分に有効なシグナルであるとは信じていませんでした。

ただし、Google はドキュメントに関連付けられた著者をテキストとして明示的に保存します。

また、ページ上のエンティティがページの作成者でもあるかどうかを判断します。

これを、これらのドキュメントで紹介されているエンティティと埋め込みの詳細なマッピングと組み合わせると、著者の包括的な測定が行われていることは明らかです。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

降格の仕組み

ドキュメントでは、一連のアルゴリズムによる降格について説明されています。説明は限られていますが、言及する価値はあります。Panda についてはすでに説明しましたが、私が目にした残りの降格は次のとおりです。

アンカーの不一致 –リンクがリンク先のターゲットサイトと一致しない場合、そのリンクは計算で順位が下がります。前にも述べたように、Google はリンクの両側の関連性を求めています。
SERP 降格 – SERP から観察された要因に基づいて降格を示すシグナル。クリック数によって測定される可能性のある、ページに対するユーザーの潜在的な不満を示唆します。
ナビゲーションの降格 – おそらく、これはナビゲーション方法が不十分であったり、ユーザーエクスペリエンスに問題があるページに適用される降格です。
完全一致ドメインの降格 – 2012 年後半、Matt Cuttsは完全一致ドメインがこれまでほどの価値を得られないと発表しました。降格には特定の機能があります。
製品レビューの降格 –これについては具体的な情報はありませんが、降格としてリストされており、おそらく2023 年の最近の製品レビューアップデートに関連しています。
場所の降格 – 「グローバル」ページと「スーパーグローバル」ページが降格される可能性があるという兆候があります。これは、Google がページを場所に関連付け、それに応じてランク付けしようとしていることを示しています。
ポルノ業界の降格 –これはかなり明白です。
その他のリンクの降格 –次のセクションで説明します。

これらすべての潜在的な降格は戦略を策定する上で役立ちますが、正直に言えば、結局のところは強力なユーザーエクスペリエンスを備えた優れたコンテンツを作成し、ブランドを構築することに尽きます。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

リンクは依然としてかなり重要だと思われる

リンクはそれほど重要ではないとみなされているという最近の主張を反証する証拠は見当たりません。繰り返しますが、これは情報がどのように保存されるかではなく、スコアリング関数自体で処理される可能性が高いです。とはいえ、リンクグラフを深く理解するために、特徴を抽出して設計することに細心の注意が払われてきました。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

インデックス鮮度という考えがあり、リンクの価値に影響を与える

ページがインデックスされている場所とその価値の間の緩やかな関係を示す、sourceType と呼ばれる指標。簡単に説明すると、Google のインデックスは階層化されており、最も重要で、定期的に更新され、アクセスされるコンテンツはフラッシュメモリに保存されます。重要度の低いコンテンツはソリッドステートドライブに保存され、不定期に更新されるコンテンツは標準のハードドライブに保存されます。

つまり、階層が高ければ高いほど、リンクの価値が高くなります。「新鮮」とみなされるページは、高品質ともみなされます。つまり、リンクは新鮮なページか、上位階層で取り上げられているページから取得する必要があります。これは、ランキングの高いページやニュースページからランキングを取得すると、ランキングパフォーマンスが向上する理由を部分的に説明しています。ご覧ください。デジタル PR が再びクールになりました!

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

リンクスパム速度シグナル

スパムアンカーテキストの急増の識別に関する一連の指標があります。 phraseAnchorSpamDays 機能に注目すると、Google はスパムのリンク速度を効果的に測定できることがわかります。

これを使えば、サイトがスパム行為を行っているかどうかを簡単に特定し、ネガティブ SEO 攻撃を無効にすることができます。後者について懐疑的な人のために説明すると、Google はこのデータを使用してリンク検出のベースラインを現在の傾向と比較し、どちらの方向のリンクもカウントしないようにすることができます。

Googleはリンクを分析する際に、特定のURLの最後の20件の変更のみを使用します。

以前、Google のファイルシステムが Wayback Machine と同様にページのバージョンを時間の経過とともに保存できることについて説明しました。私の理解では、Google はインデックスしたものを永久に保持します。これは、ページを無関係なターゲットにリダイレクトするだけではリンクエクイティが流れると期待できない理由の 1 つです。

ドキュメントはこの考えを強化し、ページに対してこれまでに確認されたすべての変更を保持することを示唆しています。

DocInfo を取得して比較のためにデータを表面化させる場合、ページの最新の 20 バージョンのみを考慮します。

これにより、Google で「クリーンな状態」を得るために、ページを何回変更してインデックスに登録する必要があるかがわかります。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

ホームページのPageRankはすべてのページに適用されます

すべてのドキュメントには、ホームページの PageRank (Nearest Seed バージョン) が関連付けられています。これは、新しいページが独自の PageRank を取得するまで、新しいページのプロキシとして使用される可能性があります。

新しいページで独自の PageRank が計算されるまで、これと siteAuthority が新しいページのプロキシとして使用される可能性があります。

ホームページの信頼

Google は、ホームページをどれだけ信頼しているかに基づいてリンクを評価する方法を決定します。

いつものように、リンクの量ではなく、リンクの品質と関連性に重点を置く必要があります。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

用語とリンクのフォントサイズは重要です

2006 年に SEO を始めたとき、私たちが行っていたことの 1 つは、テキストを太字にしたり下線を引いたり、特定の文章を大きくして、より重要に見えるようにすることでした。過去 5 年間で、それは今でも行う価値があると言う人を目にしてきました。私は懐疑的でしたが、今では Google がドキュメント内の用語の平均重み付けフォントサイズを追跡していることがわかりました。

リンクのアンカーテキストについても同様のことを行っています。

一部の内部リンクはカウントされない

アンカー関連のモジュールの多くでは、「ローカル」という概念は同じサイトを意味します。この droppedLocalAnchorCount は、一部の内部リンクがカウントされていないことを示しています。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

否認について言及した箇所は一つもなかった

否認データは他の場所に保存することもできますが、この API には特に保存されていません。品質評価者のデータがここから直接アクセスできるため、特にそう感じます。これは、否認データがコアランキングシステムから切り離されていることを示しています。

私の長年の仮説は、否認は Google のスパム分類器を訓練するためのクラウドソース機能エンジニアリングの取り組みであるということです。データが「オンライン」ではないことから、これが真実である可能性が示唆されます。

リンクについてさらに話を続け、IndyRank、PageRankNS などの機能について話すこともできますが、Google はリンク分析を非常にうまく行っており、Google が行っていることの多くは、当社のリンクインデックスでは近似できないと言えば十分でしょう。今読んだ内容に基づいて、リンク構築プログラムを再検討する絶好の機会です。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

重要なコンテンツを先頭に配置する必要がある

Google はトークンの数と、本文の合計語数と固有トークン数の比率をカウントします。ドキュメントには、Mustang システムでは特にドキュメントに考慮できるトークンの最大数があることが示されており、作成者は引き続き最も重要なコンテンツを先頭に配置する必要があることが強調されています。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

短いコンテンツは独創性で評価される

OriginalContentScore は、短いコンテンツは独創性に基づいてスコア付けされることを示しています。おそらくこれが、薄いコンテンツが必ずしも長さの関数ではない理由です。

逆に、キーワードスタッフィングスコアもあります。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

ページタイトルは依然としてクエリに基づいて評価される

ドキュメントには、titlematchScore があることが示されています。説明によると、ページタイトルがクエリとどの程度一致するかは、Google が積極的に評価している点です。

ターゲットキーワードを最初に配置することは、依然として有効な手段です。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

metaデータの文字数カウント手段は持っていない

ゲイリー・イリーズ氏は、 SEO がメタデータの最適な文字数をすべて決めていると述べています。このデータセットには、ページタイトルやスニペットの長さをカウントするメトリックはありません。ドキュメントで見つけた唯一の文字数カウントの指標は、スニペットの一部として何が使用できるかを決定するために設定されていると思われる snippetPrefixCharCount です。

これは、私たちが何度もテストしてきたことを裏付けるもので、長いページタイトルはクリックを促進するには最適ではありませんが、ランキングを促進するには適しています。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

日付は非常に重要

Google は最新の結果に非常に重点を置いており、文書には日付とページを関連付ける多数の試みが示されています。

bylineDate –これはページ上で明示的に設定された日付です。

syntacticDate –これは URL またはタイトルから抽出された日付です。

semanticDate –これはページのコンテンツから派生した日付です。

ここで最も良いのは、日付を指定して、構造化データ、ページタイトル、XML サイトマップ全体で一貫性を保つことです。ページの他の場所の日付と競合する日付を URL に入れると、コンテンツのパフォーマンスが低下する可能性があります。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

ドメイン登録情報（レジストラ情報）をページ評価の参考にしている

Google がレジストラとしてその地位にあることがアルゴリズムに情報を与えているという陰謀説は、長年続いてきました。これは陰謀の事実にまで昇華できます。Google は最新の登録情報を複合ドキュメントレベルで保存しています。

前述のように、これは新しいコンテンツのサンドボックス化を通知するために使用される可能性があります。また、所有権が変更された以前に登録されたドメインをサンドボックス化するために使用される場合もあります。期限切れのドメインの不正使用スパムポリシーの導入により、最近、これの重要性が高まったのではないかと思います。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

動画に特化したサイトは異なる扱いを受ける

サイト上のページの 50% 以上に動画が含まれている場合、そのサイトは動画中心であるとみなされ、異なる扱いを受けます。

YMYL領域は特にスコア化されます

ドキュメントによると、Google には YMYL Health と YMYL News のスコアを生成する分類器があるようです。

また、これまでに見たことのない「周辺クエリ」についても予測を行い、それが YMYL かどうかを判断します。

最後に、YMYL はチャンクレベルでコア化されており、これはシステム全体が埋め込みに基づいていることを示唆しています。

「golden（ゴールデン）」なる判定を受ける対象コンテンツがある

これが何を意味するのかは示されていませんが、説明には「人間がラベル付けしたドキュメント」と「自動的にラベル付けされた注釈」について書かれています。これは品質評価の機能なのだろうかと思いますが、Google によると品質評価はランキングに影響しないそうです。ですから、私たちには永遠に分からないかもしれません。🤔

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

埋め込みコンテンツは、ページがトピックに沿っているかどうかを測定するために使用される

埋め込みについては後続の投稿で詳しく説明しますが、Google はページとサイトを具体的にベクトル化し、ページの埋め込みとサイトの埋め込みを比較して、ページがどの程度トピックから外れているかを確認していることは注目に値します。

siteFocusScore は、サイトが 1 つのトピックにどれだけ忠実であるかを示します。サイト半径は、サイト用に生成された site2vec ベクトルに基づいて、ページがコアトピックからどれだけ離れているかを示します。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

Google は意図的に小規模サイトに特別な対応をしている可能性がある

Google には、サイトが「小規模な個人サイト」であることを示す特定のフラグがあります。このようなサイトの定義はありませんが、私たちが知っていることすべてに基づくと、Google がそのようなサイトを昇格させたり降格させたりした Twiddler を追加することは難しくないでしょう。

ヘルプフルコンテンツアップデートによって打撃を受けた中小企業や反発を考えると、彼らがこの機能を使って何か対策を講じているのは不思議です。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

Mike King 未解決の疑問

まだ話を続けられますし、そうするつもりですが、そろそろ休憩の時間です。その間に、他の人たちがこのリークに飛びついて、独自の結論を導き出すのは避けられないのではないかと思います。現時点では、皆さんに検討していただきたい未解決の質問がいくつかあります。

ヘルプフルコンテンツアップデートはベビーパンダとして知られていますか?

圧縮品質シグナルには、「ベイビーパンダ」と呼ばれるものへの言及が 2 つあります。ベイビーパンダは、最初のランキング後に調整される Twiddler です。

Panda 上で動作することについては言及されていますが、ドキュメントにはその他の情報はありません。

ヘルプフルコンテンツアップデートには、パンダと同じ動作が数多くあるという点については、私たちは概ね同意していると思います。これが参照クエリ、リンク、クリックを使用するシステム上に構築されている場合、コンテンツを改善した後は、それらに重点を置く必要があります。

NSR は Neural Semantic Retrieval を意味しますか?

命名規則の一部として NSR を含むモジュールと属性への参照が多数あります。これらの多くは、サイトチャンクと埋め込みに関連しています。Google は以前、「ニューラルマッチング」を大きな改善点として取り上げました。私の推測では、NSR はニューラルセマンティックリトリーバルの略で、これらはすべてセマンティック検索に関連する機能です。ただし、いくつかの例では、「サイトランク」の横に言及しています。

反抗的な Google 社員がgo/NSRに行って、匿名のメールアドレスか何かから「君の言う通りだ」というコメントを送ってくれると嬉しいです。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

SEO担当者が実行可能なもの

先ほど言ったように、私はあなたに処方箋を持っていません。ただし、戦略的なアドバイスはいくつかあります。

Rand Fishkin にエールを送る – PubCon での「Google が私たちに嘘をついたことすべて」という基調講演以来、私は NavBoost に関連して Rand の名誉を回復するためのキャンペーンを行ってきました。Rand は、私たちの業界の向上に何年にもわたって尽力するという、報われない仕事をしてきました。彼は、Google 側と SEO 側から多くの非難を浴びました。時には物事を正しく行えなかったこともありますが、彼の心は常に正しい場所にあり、私たちの仕事が尊重され、より良いものになるよう懸命に努力しました。具体的には、クリック実験の結論、Google Sandbox の存在を示すための繰り返しの試み、Google がサブドメインを異なる方法でランク付けしていることを示すケーススタディ、そして Google がサイト全体の権威スタイルのシグナルを採用しているという長い間軽視されてきた信念について、彼は間違っていませんでした。この分析についても、ドキュメントを私と共有してくれたのは彼なので、彼に感謝しなければなりません。今こそ、皆さんがThreads で彼に愛を示す良い機会です。
素晴らしいコンテンツを作り、それをうまく宣伝する –冗談ですが、本気でもあります。Google はそのようなアドバイスをし続けていますが、私たちはそれを実行不可能として躊躇しています。一部の SEO 担当者にとっては、それは制御不能なことです。Google に利点をもたらすこれらの機能を確認すると、より良いコンテンツを作り、それを共感するオーディエンスに宣伝することが、これらの指標に最も大きな影響を与えることは明らかです。リンクとコンテンツ機能の指標は確かにかなり役立ちますが、Google で長期的に勝ちたいのであれば、ランク付けに値するものを作り続ける必要があります。
相関関係の調査を復活させる – Google がランキング構築に使用している多くの機能について、私たちは今やはるかによく理解しています。クリックストリームデータと機能抽出を組み合わせることで、以前よりも多くのことを再現できます。業種別の相関関係の調査を復活させる時期が来ていると思います。
テストと学習 –すでに Y 軸のビジビリティとトラフィックチャートを十分にご覧になっているはずです。SEO で読んだり聞いたりしたことはどれも信用できないことがおわかりでしょう。このリークは、入力内容を取り入れて実験し、自分の Web サイトに何が効果的かを見極める必要があることのもう 1 つの兆候です。事例レビューを見て、それが Google のやり方だと決めつけるだけでは十分ではありません。組織に SEO の実験計画がない場合は、今が始めるのに良いタイミングです。

SEO対策・コンテンツマーケからWeb制作・Webマーケティングのことまで。お気軽にご連絡ください。連絡は無料相談・お問い合わせよりどうぞ。

SEO担当者がやってきたことは正しいことか

このことから私たち全員が学べる重要なことは、SEO 担当者は自分が何をしているかわかっているということです。何年もの間、SEO 担当者は間違っていると言われ続けてきましたが、裏側を見て、自分たちがずっと正しかったとわかるのは良いことです。また、これらのドキュメントには Google の仕組みに関する興味深いニュアンスが書かれていますが、私が戦略的に SEO を行う方法に劇的な変化をもたらすようなものはありません。

詳しく調べる人にとって、これらのドキュメントは主に、経験豊富な SEO 担当者が長年主張してきたことを実証するのに役立つでしょう。オーディエンスを理解し、彼らが何を求めているかを特定し、それに合わせて可能な限り最善のものを作成し、技術的にアクセスできるようにし、ランクされるまで宣伝します。

SEO に携わっていて、何をやっているかよくわからないという皆さん、テストを続け、学習を続け、ビジネスを成長させ続けてください。Google は私たちなしでは何もできません。

サイトの強みと弱みが一目瞭然

サイトSEO診断書プレゼント

お気軽にお申し込みください

1週間
以内に対応
いたします

サイトSEO診断結果を手に入れる

SEO支援は1業界あたり1社までの先着順となります為、お断りさせていただく場合もございます。ご了承ください。

Web業界10年以上の知見を持って、無料にてご相談へ対応いたします。
情報収集目的でも歓迎です。お気軽にご連絡ください。

人材育成領域

サイト流入

2.3倍
（6,843セッション→16,001セッション）

反響

2.1倍（12→25件）

上位表示キーワード例

「人材育成（検索Vol.8,100）」
婚活領域

サイト流入

2.1倍
（52,945セッション→110,164セッション）

反響

1.3倍（412→536件）

上位表示キーワード例

「婚活（検索Vol.40,500）」
日常用品領域

サイト流入

3.3倍
（31,874セッション→105,514セッション）

反響

3.4倍（84→293件）

上位表示キーワード例

「お水（検索Vol.4,400）」

Web集客・制作・PRのご相談はこちらよりどうぞ

以下の内容でよろしければ、送信ボタンを押して下さい。

会社名
氏名
メールアドレス必須
電話番号
お問い合わせの種類	無料相談お問い合わせその他
お問い合わせ内容

個人情報保護方針に同意の上、
送信ください

個人情報保護方針に同意する

この記事の監修者

株式会社ブランディングワークス編集部

SEO対策・コンテンツマーケティングの支援事業者。SEO支援を中心に、伴うWeb制作修正やコンテンツ制作まで一気通貫した支援を実施。実績のあるパートナー会社と連携してその他Webマーケティング（広告運用・SNS・メディアのマネタイズetc.）も幅広くカバーし、戦略立案から実行までを総合的に支援も可能。

HOME > SEO分析 > Google検索の内部エンジニアリングドキュメント漏洩内容 by マイク・キング

Google検索の内部エンジニアリングドキュメント漏洩内容 by マイク・キング

出典元 Secrets from the Algorithm by Mike King

この記事を読む上での注意点

ドキュメントには14,000のランキング機能などが記載されています

APIドキュメントがGOOGLEの注目すべき嘘を暴露

「ドメインオーソリティのようなものは存在しません」

「クリックはランキングには使用しません」

「サンドボックスはない」

「ランキングにはChromeのものは何も使用していません」

GOOGLE のランキング システムのアーキテクチャ

クロール

インデックス作成

レンダリング

処理

ランキング

サービング

TWIDDLERS とは何ですか?

パンダアップデート（低品質コンテンツに関するアップデート）の仕組み

著者は明確な特徴である

降格の仕組み

リンクは依然としてかなり重要だと思われる

インデックス鮮度という考えがあり、リンクの価値に影響を与える

リンクスパム速度シグナル

Googleはリンクを分析する際に、特定のURLの最後の20件の変更のみを使用します。

ホームページのPageRankはすべてのページに適用されます

ホームページの信頼

用語とリンクのフォントサイズは重要です

一部の内部リンクはカウントされない

否認について言及した箇所は一つもなかった

重要なコンテンツを先頭に配置する必要がある

短いコンテンツは独創性で評価される

ページタイトルは依然としてクエリに基づいて評価される

metaデータの文字数カウント手段は持っていない

日付は非常に重要

ドメイン登録情報（レジストラ情報）をページ評価の参考にしている

動画に特化したサイトは異なる扱いを受ける

YMYL領域は特にスコア化されます

「golden（ゴールデン）」なる判定を受ける対象コンテンツがある

埋め込みコンテンツは、ページがトピックに沿っているかどうかを測定するために使用される

Google は意図的に小規模サイトに特別な対応をしている可能性がある

Mike King 未解決の疑問

ヘルプフルコンテンツアップデートはベビーパンダとして知られていますか?

NSR は Neural Semantic Retrieval を意味しますか?

SEO担当者が実行可能なもの

SEO担当者がやってきたことは正しいことか

サイトSEO診断書プレゼント

人材育成領域

婚活領域

日常用品領域

Share

この記事の監修者

無料相談受付中!

GOOGLE のランキングシステムのアーキテクチャ