Googlebotによるクロールは最初の15MBまで!画像・動画コンテンツは制限される?

Googlebotの「15MB制限」ってどんなもの?ガジェット
Googlebotの「15MB制限」ってどんなもの?

Googleはネット上に無数にあるコンテンツ情報を「Googlebot」というクローラーを使って集めています。

Googlebot
Googlebot

その「Googlebot」については Google公式の技術ドキュメント(英語)に記載があります。

What Is Googlebot | Google Search Central  |  Documentation  |  Google Developers
Googlebot is the generic name of Google's web crawler. Discover what Googlebot is, how it accesses your site, and how to block Googlebot.

さらに補足情報として「15MB制限」に関する詳細も公開されました。

Googlebot and the 15 MB thing  |  Google Search Central Blog  |  Google Developers

わー、これらの公式ドキュメントって全部英語なのね・・

サイト運営者がSEO対策をする上で、Googlebotの動作を理解しておくことはとても大切です。

そこで本記事では、上記の公式情報に記載された内容についてまとめておきます。

よろしければ参考にどうぞ。

スポンサーリンク

Googlebotの「15MB制限」とは?

もし特定のページが15MBを超えていた場合、「Googlebot」は最初の15MBのみをクロールし、(内容に問題なければ)インデックスします。
15MBより後ろの内容はクロールされません。

最初の15MBのみがクロール対象
最初の15MBのみがクロール対象
スポンサーリンク

15MBを超えたコンテンツはどうなる?

Googlebotにクロールされないので、その部分がインデックスされることはありません。

スポンサーリンク

「15MB制限」はどんな種類のコンテンツが対象になる?

Googleによるインデックス登録が可能なファイル形式については以下の記載をご覧ください。

ここにある形式のコンテンツに「15MB制限」が適用されます。

File types indexable by Google - Search Console Help
Google can index the content of most types of pages and files. The most common file types we index include: Adobe Portable Document Format (.pdf) Adobe PostScri...read more

通常のサイトでしたらHTMLファイルが本体でしょうから、そのサイズが15MBを超えていなければ制限に引っかかることはありません。

コンテンツ内にPDFやOfficeファイルがある場合は、15MB制限の対象になることもあるでしょう。

画像や動画を含んだコンテンツは「15MB制限」に引っかかるのでは?

画像や動画をたくさん含んだコンテンツだと

15MBくらい簡単にオーバーしちゃうんじゃないの?

Googlebotは画像や動画を認識する際、ファイル本体ではなく、HTMLに書かれた

<img src="https://sample.com/images/photo01.jpg" />

という記載を見ています。

そのため画像や動画そのものの合計サイズが15MBを超えていても、HTML本体が15MBを超えていなければ制限に引っかかることはありません。

画像や動画を含んだコンテンツ
画像や動画を含んだコンテンツ

データURLはHTMLファイルサイズに含まれるのか?

データURLは小さな画像ファイルなどをHTMLに含ませたものです。

データ URL - HTTP | MDN
データ URL は data: スキームが先頭についた URL で、小さなファイルをインラインで文書に埋め込むことができます。以前、 WHATWG で取り下げられるまでは "data URIs" と呼ばれていました。

そのためHTMLのファイルサイズは大きくなり、15MB制限の対象となり得ます。

実際に「15MB制限」によってどんな影響があるのか?

「15MB制限」による影響はほとんどないと考えて大丈夫でしょう。

というのもネット上にあるHTMLファイルのサイズの中央値は30KBで、15MBを超えるものはあまりないからです。

よかったー。

ページのサイズを調べるには?

念のため15MBを超えないかを調べたいんですが、

ページのサイズはどうやったら分かりますか?

Chromeブラウザの「デベロッパーツール」を利用すると簡単ですよ。

WindowsでChromeのデベロッパーツールを起動する

Windowsの場合、次のいずれかの方法でデベロッパーツールを起動します。

  • Chromeのメニューから「その他のツール」ー「デベロッパーツール」を選択する。
  • ショートカットキーの「Ctrl」 + 「Shift」 + 「 i 」を使う。
WindowsでChromeのデベロッパーツールを起動
WindowsでChromeのデベロッパーツールを起動

MacでChromeのデベロッパーツールを起動する

Macの場合、次のいずれかの方法でデベロッパーツールを起動します。

  • Chromeのメニューから「その他のツール」ー「デベロッパーツール」を選択する。
  • ショートカットキーの「command」 + 「option」 + 「 i 」を使う。
MacでChromeのデベロッパーツールを起動
MacでChromeのデベロッパーツールを起動

デベロッパーツールを使ったファイルサイズの確認

デベロッパーツールを起動後、「Newtwork」タブを表示すると、コンテンツ内の各ファイルのサイズを確認することができます。

ファイルサイズの確認
ファイルサイズの確認

まとめ

Googleはネット上に無数にあるコンテンツ情報を「Googlebot」というクローラーを使って集めています。

このとき特定のページが15MBを超える場合は最初の15MBのみをクロールし、15MBより後ろの内容をクロールすることはありません。

クロールの対象となるのは主にHTMLファイルです。

ページに画像や動画がある場合など、コンテンツ全体としてのサイズが大きくても、HTML本体が15MBを超えていなければこの制限に引っかかることはありません。

実際のところ15MBを超えるHTMLなど稀なため、「15MB制限」を心配する必要はほとんどないでしょう。