NỘI DUNG

Hosting tốc độ cao Vietnix - tốc độ tải trang trung bình dưới 1 giây
VPS siêu tốc Vietnix - trải nghiệm mượt mà, ổn định
30/09/2023
Lượt xem

Hướng dẫn sửa lỗi Page indexed without content trong Google Search Console

30/09/2023
14 phút đọc
Lượt xem

Đánh giá

5/5 - (179 bình chọn)

Lỗi page indexed without content trong Google Search Console vốn dĩ là một lỗi không quá phổ biến. Do đó, nếu có bất kỳ trang nào trên website gặp phải vấn đề này, bạn cần kiểm tra và tìm cách khắc phục nhanh chóng để tránh gây ảnh hưởng đến hiệu quả SEO tổng thể. Để tìm hiểu chi tiết, hãy tham khảo ngay cách sửa lỗi page indexed without content trong Google Search Console qua bài viết sau đây.

Nguyên nhân lỗi page indexed without content trong Google Search Console

Trạng thái page indexed without content trong Google Search Console là trạng thái cho biết Googlebot đã lập chỉ mục (index) một trang web nhưng không thể tìm thấy hoặc truy cập vào nội dung trên trang đó.

Nguyên nhân:

  • Trang web không có nội dung.
  • Trang web bị chặn bởi file robots.txt hoặc thẻ noindex.
  • Trang web có nội dung lỗi hoặc spam.
  • Trang web có nội dung không hợp lệ.
  • Googlebot gặp sự cố khi truy cập hoặc xử lý nội dung trên trang web.
Nguyên nhân xuất hiện lỗi Page indexed without content
Nguyên nhân xuất hiện page indexed without content trong Google Search Console

Google không thể truy cập hoặc xử lý nội dung

Một trong những nguyên nhân khiến Google không thể truy cập hoặc xử lý nội dung ở website là do trang được xuất bản ở định dạng mà Google không thể đọc. Theo tài liệu chính thức của Google, để Google có thể xem được nội dung văn bản thì người dùng cần xuất bản nội dung đó dưới các định dạng file có thể được lập chỉ mục. Chi tiết bạn có thể xem tại: https://developers.google.com/search/docs/crawling-indexing/indexable-file-types.

Ngoài ra, còn một nguyên nhân nữa dẫn tới tình trạng page indexed without content trong Google Search Console là khi xuất hiện trục trặc từ phía server. Đó có thể là do sự cố về phân phối website hoặc CDN, port hay server đang lỗi hoạt động.

Lúc này, Google không thể xử lý nội dung trên trang vì server có thể đang chặn bot xem nội dung đó. Nói cách khác, Google dường như không có bất kỳ thông tin bổ sung nào về trang, chẳng hạn Google có thể không nhận ra loại nội dung hoặc phản hồi HTTP.

Tab Thông tin thêm trong Công cụ kiểm tra URL trong Google Search Console.
Tab Thông tin thêm trong Công cụ kiểm tra URL trong Google Search Console.

Nếu gặp phải tình trạng trên, hãy liên hệ với nhà phát triển để tìm ra nguyên nhân gây ra sự cố. 

Cloaking

Một nguyên nhân khiến trang được Google chỉ định sang trạng thái page indexed without content trong Google Search Console là do giữa nội dung hiển thị tới người dùng và bot tìm kiếm không giống nhau. Ở một số trường hợp ngoại lệ, điều này được xem là kỹ thuật cloaking và vi phạm nguyên tắc của Google.

Khi đó, Google có thể xem nội dung trên trang, nhưng thực tế, bot lại phát hiện đến 2 phiên bản ở trang đó – một dành cho người dùng và một dành cho bot. Chính vì vậy, Google nghi ngờ và đánh giá hành vi đó như một dạng spam với mục đích thao túng thứ hạng tìm kiếm và đánh lừa người dùng. Điều đó khiến bot tìm kiếm không muốn lập chỉ mục nội dung với trang đã xem đó. 

Theo chuyên gia từ Google, kỹ thuật cloaking có thể ảnh hưởng tiêu cực đến trải nghiệm người dùng vì nội dung họ thấy khác với nội dung họ mong đợi trên SERP (trang kết quả tìm kiếm). 

Ngoài ra, kỹ thuật cloaking còn được một số quản trị viên web sử dụng để hiển thị nội dung chứa lượng lớn từ khóa (hoặc cụm từ khóa) liên quan đến chủ đề/lĩnh vực cụ thể cho bot tìm kiếm với mong muốn được nâng cao thứ hạng xếp loại trên Google. Tuy nhiên, việc đánh lừa Google có thể gây ra những hậu quả nghiêm trọng.

Cuối cùng, dù là sử dụng cloaking vì mục đích gì thì kỹ thuật này có thể khiến website nhận hình phạt thủ công từ Google.

Lỗi Rendering 

Để hiểu rõ ngữ cảnh trang và phân phối chúng tới người dùng trên SERPS, các bot tìm kiếm cần render nội dung trong website. Tuy nhiên, điều này có thể không khả thi nếu bạn đang chặn một số file quan trọng trong robots.txt. 

Mặc dù tài liệu chính thức của Google về báo cáo Page Index (Index Coverage) xác định trạng thái page indexed without content trong Google Search Console không phải bị chặn bởi file robots.txt. Thế nhưng, nếu bạn chặn các tài nguyên quan trọng như JavaScript hoặc CSS bằng cách sử dụng file robots.txt, điều này có thể gây ra lỗi ‘Page indexed without content‘. 

Nói cách khác, nếu URL có thể thu thập được dữ liệu và lập chỉ mục, nhưng bạn lại chặn các file quan trọng trong file robots.txt thì Googlebot sẽ không hiển thị toàn bộ trang vì bạn không cấp quyền truy cập vào các tài nguyên quan trọng của trang đó. 

Lưu ý: Ngay cả khi bạn không chặn bất kỳ file quan trọng nào trong robots.txt thì trang vẫn có thể gặp sự cố hiển thị khiến Google không thể nhìn thấy nội dung. 

Điều này còn đặc biệt đúng trong trường hợp bạn không tối ưu hóa cách phân phối nội dung dựa trên JavaScript cho các công cụ tìm kiếm. Bởi vì đôi khi, Googlebot không đủ khả năng tự xử lý nội dung JavaScript. Kết quả là, thay vì hiển thị nội dung có giá trị, bot tìm kiếm chỉ nhìn thấy một trang trắng không chứa gì cả. Tình trạng này sẽ gây ảnh hưởng nghiêm trọng đến khả năng hiển thị tự nhiên của website vì Google không thể hiểu đầy đủ nội dung trên trang. 

Cách tìm trạng thái page indexed without content trong Google Search Console

Bạn có thể tìm thấy trạng thái ‘Page indexed without content‘ ở cuối báo cáo Page index (Index Coverage) trên Google Search Console trong phần ‘Improve page appearance‘.

Danh sách URL đang gặp lỗi
Danh sách URL đang gặp lỗi

Nhấp vào để xem danh sách URL đang gặp tình trạng page indexed without content trong Google Search Console. Tại đây sẽ hiển thị biểu đồ minh họa sự thay đổi về số lượng trang bị ảnh hưởng theo thời gian.

Một cách giải quyết khác cho vấn đề này là sử dụng công cụ URL Inspection bằng cách: Nhập một URL cụ thể trên website và kiểm tra trạng thái hiện tại của URL đó.

Lưu ý: Nếu có lỗi ‘Page indexed without content‘ sẽ hiển thị thông ‘URL is on Google‘ và ‘Page indexed without content‘.

Bên cạnh đó, bạn có thể kiểm tra cách Googlebot nhìn thấy một trang cụ thể bị ảnh hưởng bằng cách nhấp vào ‘View crawled page‘. Tuy nhiên, trong trường hợp trang bị lỗi ‘Page indexed without content‘, thông tin bổ sung như code HTML của trang, ảnh chụp màn hình hoặc thông tin khác về tài nguyên trang có thể không có sẵn. 

Kiểm tra URL
Kiểm tra URL

Cách khắc phục lỗi page indexed without content trong Google Search Console

Dưới đây là một số biện pháp giúp khắc phục lỗi page indexed without content trong Google Search Console mà bạn có thể tham khảo:

1. Lập danh sách các trang bị ảnh hưởng trong Google Search Console

Phân tích ban đầu về các URL có tình trạng page indexed without content trong Google Search Console có thể giúp bạn quyết định các bước tiếp theo. Thông thường, nguyên nhân gây tình trạng ‘Page indexed without content‘ bắt nguồn từ các trang trống. Trường hợp trang gặp điều tương tự như vậy, bạn nên xem lại chiến lược lập chỉ mục của mình và quyết định có nên tiếp tục lập chỉ mục cho các trang này hay không. 

Internal và external link có thể khiến Google bị nhầm lẫn và gặp khó khăn trong việc lập chỉ mục nếu bạn xuất bản nhầm một trang không có nội dung hoặc xóa bỏ nội dung mà không thực hiện bất kỳ hành động nào để tối ưu hóa URL đó. Lý do là bởi khi Google nhìn thấy nhiều liên kết dẫn đến một trang cụ thể, Google sẽ đánh giá đó là một trang quan trọng và muốn lập chỉ mục ngay cả khi trang không chứa bất kỳ nội dung nào. 

Phân tích internet và external link
Phân tích internet và external link

Khi đó, các bot tìm kiếm có thể sử dụng hết tài nguyên cho các trang không có nội dung giá trị. Điều này gây lãng phí ngân sách thu thập dữ liệu và giảm khả năng xuất hiện các trang quan trọng trên kết quả hiển thị. 

Để phân tích kỹ cách các bot tìm kiếm di chuyển qua website, bạn hãy thực hiện phân tích nhật ký (log analytics) thông qua trình thu thập thông tin SEO như Screaming Frog. 

Screaming Frog
Screaming Frog

Để giải quyết tình trạng page indexed without content trong Google Search Console do internal và external link, bạn có thể cân nhắc đến các giải pháp khác: 

Nếu không muốn các trang bị ảnh hưởng được Googlebot lập chỉ mục hoặc muốn thay đổi các trang này, bạn cần: 

  • Xóa các trang trên khỏi sitemap
  • Cân nhắc vai trò của các trang đó trong cấu trúc website. 
  • Đánh giá quy mô của vấn đề và cách mà nó ảnh hưởng tới website.
  • Quyết định xem bạn có muốn thêm thẻ noindex, chuyển hướng hay xóa các trang bị ảnh hưởng.

Nếu muốn các trang bị ảnh hưởng được lập chỉ mục thì hãy làm như sau:

  • Giữ lại chúng trong sitemap. 
  • Thêm nội dung và yêu cầu Google thu thập lại thông tin các trang sau khi xuất bản URL không có nội dung một lần nữa.
  • Đợi Google phát hiện các thay đổi đã thực hiện.

Lưu ý: Không thể kiểm tra tình trạng ‘Page indexed without content‘ trong thử nghiệm trực tiếp.

So sánh cách trang hiển thị đối với người dùng vs Googlebot

Dù website trông hoàn toàn bình thường thì cách hiển thị trang trên trình duyệt người dùng có thể khác biệt so với khi nó hiển thị tới Googlebot. Điều này đặc biệt nguy hiểm nếu Google đánh giá hành vi này là cloaking. 

Bạn có thể mô phỏng User Agent của Googlebot trong Chrome Dev Tools để tìm hiểu cách mà Google sẽ nhìn thấy những trang bị ‘Page indexed without content‘. Cụ thể:

  • Đầu tiên, di chuyển đến tab ‘Network’ và mở ‘Network conditions‘. Sau đó, bỏ nhấp mục ‘Use browser default‘ trong phần User-agent và chọn ‘Googlebot Smartphone’ từ danh sách thả xuống.
  • Tiếp theo đó, sử dụng tổ hợp phím tắt Ctrl + Shift + R trên windows để tải lại trang nhằm yêu cầu trình duyệt cung cấp phiên bản trang mà Googlebot nhìn thấy. 
Hướng dẫn từng bước về cách mô phỏng Tác nhân người dùng Googlebot trong Công cụ dành cho nhà phát triển Chrome.
Hướng dẫn từng bước về cách mô phỏng tác nhân người dùng Googlebot trong Công cụ dành cho nhà phát triển Chrome.

Nếu phiên bản này của khác biệt một cách đáng kể so với website mà bạn hiển thị cho người dùng thì cũng có thể Google đang nghi ngờ bạn đang thực hiện cloaking. Để khắc phục vấn đề, bạn nên điều chỉnh nội dung trên website sao cho người dùng và Googlebot thấy cùng một phiên bản hiển thị trên website. 

Khắc phục lỗi Render

Ngăn chặn các tài nguyên quan trọng trong file robots.txt có thể gây ra tình trạng lỗi hiển thị trên website. Do đó, để khắc phục, bạn hãy xem và kiểm tra file robots.txt nhằm đảm bảo rằng bạn không chặn bất kỳ tài nguyên quan trọng nào mà Googlebot cần để website được hiển thị một cách chính xác. 

Tuy nhiên, nếu đang quản lý một website lớn, việc đánh giá thủ công các chỉ thị Disallow trong robots.txt không chỉ tốn nhiều thời gian mà còn dễ xảy ra lỗi. Trong trường hợp này, bạn có thể sử dụng công cụ Mobile-Friendly Test để kiểm tra cách mã nguồn được hiển thị dưới góc nhìn của Google. Công cụ này còn cung cấp cho bạn ảnh chụp màn hình của phiên bản di động của trang đã được hiển thị. Điều này có thể giúp bạn hiểu nội dung hiển thị dưới góc nhìn của Googlebot có khác với người dùng hay không. 

Các bước thực hiện như sau:

  • Truy cập vào link: https://search.google.com/test/mobile-friendly
  • Nhập URL vào công cụ và chọn ‘View Tested Page’. 
  • Ở bên phải bảng điều khiển, hãy chú ý đến phần ‘Page resources‘. Phần này sẽ hiển thị cho bạn bất kỳ tài nguyên nào không thể tải được và thông báo cho bạn biết về những trường hợp Googlebot bị chặn bởi robots.txt. 
Kiểm tra tính thân thiện với thiết bị di động
Kiểm tra tính thân thiện với thiết bị di động

Các file JavaScript quan trọng bị chặn là một lỗi khá phổ biến mà nhiều website gặp phải, kể website lớn.

Một điều nữa mà bạn cần biết khi thấy trang xuất hiện tình trạng page indexed without content trong Google Search Console nhưng lại tự động biến mất mà không cần bạn thực hiện bất kỳ hành động cụ thể nào. Điều này được lý giải rằng Google đã cân nhắc và thay đổi lại cách đánh giá đối với các trang. Trong trường hợp này, bot có thể đặt các URL đó ở trạng thái ‘Crawled, currently not indexed‘. 

Một điều khác là Google đồng nhất trong việc gán vấn đề đối với những trạng thái tương tự trong Google Search Console. Điều này đồng nghĩa, bạn có thể bắt gặp các trang thuộc các trạng thái khác nhau nhưng được Googlebot gắn thẻ ‘Page indexed without content‘.

Lời kết

Trên đây là những thông tin hữu ích về nguyên nhân thường gặp và cách sửa lỗi page indexed without content trong Google Search Console. Hy vọng bài viết sẽ giúp bạn hiểu rõ hơn các tính năng của công cụ GSC và có thể áp dụng vào quá trình tối ưu website của mình một cách hiệu quả.

THEO DÕI VÀ CẬP NHẬT CHỦ ĐỀ BẠN QUAN TÂM

Đăng ký ngay để nhận những thông tin mới nhất từ blog của chúng tôi. Đừng bỏ lỡ cơ hội truy cập kiến thức và tin tức hàng ngày

Chọn chủ đề :

Hoàng Vui

SEO Specialist
tại

Kết nối với mình qua

Kết nối với mình qua

Tăng tốc độ website - Nâng tầm giá trị thương hiệu

Tăng tốc tải trang

95 điểm

Nâng cao trải nghiệm người dùng

Tăng 8% tỷ lệ chuyển đổi

Thúc đẩy SEO, Google Ads hiệu quả

Tăng tốc ngay

SẢN PHẨM NỔI BẬT

7 NGÀY DÙNG THỬ HOSTING

NẮM BẮT CƠ HỘI, THÀNH CÔNG DẪN LỐI

Cùng trải nghiệm dịch vụ hosting tốc độ cao được hơn 100,000 khách hàng sử dụng

ĐĂNG KÝ NHẬN TÀI LIỆU THÀNH CÔNG
Cảm ơn bạn đã đăng ký nhận tài liệu mới nhất từ Vietnix!
ĐÓNG

ĐĂNG KÝ DÙNG THỬ HOSTING

7 NGÀY MIỄN PHÍ

ĐĂNG KÝ DÙNG THỬ HOSTING

7 NGÀY MIỄN PHÍ

XÁC NHẬN ĐĂNG KÝ DÙNG THỬ THÀNH CÔNG
Cảm ơn bạn đã đăng ký thông tin thành công. Đội ngũ CSKH sẽ liên hệ trực tiếp để kích hoạt dịch vụ cho bạn nhanh nhất!
ĐÓNG