Lỗi “Blocked due to access forbidden (403)” trong Google Search Console là trạng thái page không được lập chỉ mục vì server đã từ chối quyền truy cập của Googlebot. Đây là một trong số ít những lỗi hiếm khi xảy ra trên website và quá trình khắc phục thường chú trọng đến khía cạnh technical SEO. Cùng Vietnix tham khảo qua bài viết sau đây để tìm hiểu chi tiết.
Nguyên nhân xuất hiện lỗi “Blocked due to access forbidden (403)”
Thông thường, bước đầu tiên trong quá trình lập chỉ mục (index) sẽ bắt đầu bằng việc Googlebot khám phá URL. Tuy nhiên, Google không đưa URL vào chỉ mục ngay lập tức mà sẽ thu thập thông tin để tìm hiểu thêm càng nhiều thông tin về nội dung của URL đó. Nhờ những thông tin bot thu thập được mà công cụ tìm kiếm có thể biết được những truy vấn nào đáng để hiển thị page và những page này có giá trị cho người dùng tham khảo hay không.
Để thu thập dữ liệu một page, Google phải hoạt động tương tự như một trình duyệt dành cho người dùng. Tại đây, Googlebot sẽ gửi yêu cầu liên quan về URL đến server. Sau đó, server phản hồi lại những yêu cầu này thông qua HTTP status codes nhằm mục đích thông báo cho trình duyệt và trình thu thập thông tin biết khả năng và cách thức truy cập vào nội dung của URL đó.
403 status code là một trong những câu trả lời có thể có của server, với ý nghĩa:
- Server đã hiểu yêu cầu được gửi đến và biết nơi page có thể hiển thị trên kết quả tìm kiếm.
- Trình duyệt hoặc trình thu thập thông tin thực hiện yêu cầu cần được cấp quyền truy cập vào tài nguyên cụ thể này.
- Server đã từ chối yêu cầu vì thông tin xác thực được trình bày không đảm bảo để hệ thống cấp quyền truy cập.
403 status code có thể là một trạng thái bình thường và như một biện pháp nhằm bảo vệ dữ liệu nhạy cảm trước sự xâm nhập của những người truy cập trái phép. Tuy nhiên, khi server trả về status code này cho Googlebot, điều này đồng nghĩa rằng page đang xuất hiện vấn đề.
Googlebot không bao giờ cung cấp bất kỳ thông tin xác thực nào trong quá trình gửi yêu cầu. Vì vậy, trong trường hợp này, 401 status code thích hợp được gán thay cho 403 status code. 401 status code mang nghĩa là yêu cầu chưa được hoàn thành vì thiếu thông tin xác thực hợp lệ.
Có 2 khả năng gây ra lỗi “Blocked due to access forbidden (403)” trong Google Search Console:
- Không có công cụ tìm kiếm và server nào là hoàn hảo, do đó, lỗi có thể xảy ra khi server trả về 403 code thay vì 401 code. Mặc dù page 401 không được lập chỉ mục nhưng sự cố này có thể giải quyết bằng cách thay đổi thiết lập server.
- Phía sau 403 response tồn tại một vấn đề kỹ thuật chuyên sâu hơn trên website và nguồn của vấn đề này cần được điều tra.
Cách khắc phục sự cố page Blocked due to access forbidden (403) trong Google Search Console
Bạn có thể phát hiện ra các page bị ảnh hưởng bởi trạng thái “Blocked due to access forbidden (403)” trong Page Index bằng cách truy cập từ thanh điều hướng bên trái trong Google Search Console.
Sau khi nhấp vào tên trạng thái, bạn sẽ thấy một biểu đồ hiển thị số lượng page bị ảnh hưởng đã thay đổi theo thời gian và một bao gồm danh sách các URL. Bạn có thể xuất danh sách này bằng cách nhấn vào nút “Export” nằm ở góc trên bên phải màn hình.
Bằng cách này, bạn có thể dễ dàng phát hiện URL nào cần được điều chỉnh ngay lập tức. Bởi vì bạn đã đưa URL vào trong sitemap nên chúng đóng vai trò quan trọng về mặt chiến lược và cần được lập chỉ mục để mang lại organic traffic – lưu lượng truy cập tự nhiên cho website.
Có nên lập chỉ mục cho những page hiển thị lỗi “Blocked due to access forbidden (403)” ?
Bước đầu tiên trong quy trình xử lý sự cố lỗi “Blocked due to access forbidden (403)” là đánh giá URL nào quan trọng nhất nhằm quyết định những page bị ảnh hưởng có nên xuất hiện trong chỉ mục Google hay không. Có 3 trường hợp có thể xảy ra:
1. Không lập chỉ mục những page chứa dữ liệu không nên được hiển thị trên Google Search
Tuy nhiên, việc server trả về 403 status không phải là cách tốt nhất để loại bỏ page ra khỏi chỉ mục. Nếu muốn các page chưa lập chỉ mục không gây thêm sự hỗn loạn cho website, hãy chặn chúng bằng noindex tag.
2. Có thể có các page trên website mà bạn muốn hiển thị trên Google Search nhưng lại chặn khả năng xem tất cả nội dung của những người dùng chưa đăng nhập. Chẳng hạn như một bài tin tức có thu phí.
Googlebot sẽ không bao giờ đăng nhập vào website, do đó, để lập chỉ mục những page đó, bạn cần cấp quyền truy cập cho Google vào các page của mình mà không sử dụng lệnh wall để chặn đăng nhập. Điều này đồng nghĩa với việc thay đổi thiết lập server và xử lý trình thu thập thông tin khác với trình duyệt người dùng.
Bạn có thể tìm hướng dẫn sử dụng của Google để thêm dữ liệu cấu trúc cho những nội dung có đăng ký hoặc nội dung có giới hạn trả phí. Nếu không tuân thủ, bạn có nguy cơ bị phạt thủ công.
3. Cuối cùng, có một số page trên website mà bạn muốn hiển thị công khai nhưng vẫn bị trả lại 403 status code cho Googlebot.
Điều chỉnh lại các page này có thể tiêu hao nhiều thời gian của bạn, bởi vì không phải lúc nào cũng có thể phát hiện ra lỗi ngay lập tức.
Nguyên nhân khiến các page công khai trả về 403 status code
Nguyên nhân | Cách khắc phục |
---|---|
Lỗi trong file .htaccess: File .htaccess cung cấp các thay đổi cấu hình cho server khi sử dụng dịch vụ shared hosting. Thông thường, file này sẽ được tạo tự động bởi hệ thống Content Management System – CMS. | Bước 1: Vô hiệu hóa file .htaccess cũ và tạo một file mới. Bước 2: Thu thập dữ liệu các page bằng user-agent của Googlebot để xem website từ góc nhìn của Googlebot và kiểm tra lỗi đã được khắc phục chưa. |
Lỗi từ plugin WordPress: Trạng thái “Blocked due to access forbidden (403)” trên các page WordPress có thể xuất hiện do sử dụng plugin không tương thích. | Tắt từng plugin được sử dụng trên website để phát hiện nguyên nhân gây lỗi. |
Sai địa chỉ IP: Lỗi có thể xảy ra trong trường hợp tên miền trỏ sai địa chỉ IP. | Xác minh bản ghi A. |
Nhiễm phần mềm độc hại: Phần mềm độc hại có thể tạo và duy trì lỗi trong file .htaccess. | Quét website để tìm dấu hiệu page bị nhiễm phần mềm độc hại. |
Giải pháp dài hạn đối với vấn đề lập chỉ mục cho các page trên website
Các biện pháp đề cập trên có thể giải quyết được vấn đề lập chỉ mục các page cụ thể, cũng như khắc phục được tạm thời tình trạng lỗi “Blocked due to access forbidden (403)” trong Google Search Console. Tuy nhiên, những cách xử lý này không đảm bảo 100% sẽ không xuất hiện trở lại trên các page của bạn. Cách khắc phục tốt nhất nhằm duy trì mức độ bao phủ chỉ mục phù hợp là tiến hành kiểm tra technical SEO thường xuyên.
Lời kết
Trên đây là những thông tin về nguyên nhân và cách khắc phục sự cố lỗi “Blocked due to access forbidden (403)” trong Google Search Console. Hy vọng bài viết sẽ giúp bạn có thêm kiến thức hữu ích về quản trị website để lập chỉ mục các page và nâng cao thứ hạng website trên công cụ tìm kiếm.