Nếu nội dung trang web hoặc bài viết bị trùng lặp ở nhiều vị trí trên trang, deindex có thể giúp tránh việc bị xem là có nội dung trùng lặp, từ đó cải thiện hiệu suất SEO. Trong bài viết dưới đây Vietnix sẽ giúp bạn hiểu rõ hơn deindex là gì kèm theo những bí kíp tối ưu deindex để gia tăng truy cập vào website.
Deindex là gì?
Deindex là thuật ngữ dùng để mô tả quy trình loại bỏ một trang web khỏi hệ thống lập chỉ mục hoặc danh sách chỉ mục.
Deindex có thể được thực hiện theo nhiều cách khác nhau, bao gồm sử dụng thẻ noindex, disallow trong robots.txt hoặc yêu cầu Google deindex trang thông qua Google Search Console.
Vai trò của deindex
Khi triển khai SEO, nếu lạm dụng một kỹ thuật nào đó bởi nó mang lại hiệu quả vượt trội cho website thì khả năng cao sẽ khiến xếp hạng website của bạn bị ảnh hưởng. Cho nên, bạn cần thực hiện ở mức độ vừa phải và phù hợp.
Ở một số trường hợp, có thể bạn cần loại bỏ một trang web (hoặc một phần nào đó) khỏi hệ thống crawl và index của bộ máy tình kiếm. Phổ biến nhất có thể kể đến việc ngăn chặn các nội dung trùng lặp trong (duplicate content) website được index.
Nhìn chung, deindex có vai trò quan trọng trong SEO khi giúp cải thiện thứ hạng của các trang bằng cách:
- Giảm thiểu lượng truy cập không mong muốn: Deindex có thể được sử dụng để loại bỏ các trang lỗi, trang spam khỏi danh sách chỉ mục của máy tìm kiếm. Điều này sẽ giúp giảm thiểu lượng truy cập không mong muốn đến các trang này, từ đó cải thiện trải nghiệm người dùng và tăng thứ hạng của các trang quan trọng khác.
- Nâng cao chất lượng SEO: Deindex có thể giúp cải thiện chất lượng SEO của một trang web bằng cách loại bỏ các trang không liên quan hoặc trùng lặp khỏi danh sách chỉ mục. Điều này sẽ giúp Google tập trung vào các trang chất lượng cao và có liên quan hơn, từ đó cải thiện thứ hạng của các trang này trên SERPs.
- Tăng cường bảo mật: Deindex có thể được sử dụng để bảo vệ các trang web khỏi các cuộc tấn công bảo mật. Ví dụ, các trang web có chứa thông tin nhạy cảm có thể được deindex để ngăn chặn các tin tặc truy cập và khai thác thông tin này.
Hướng dẫn cách kiểm tra deindex
Dưới đây là hướng dẫn cách kiểm tra xem một trang web đã bị deindex (loại bỏ khỏi chỉ mục tìm kiếm) hay chưa:
Cách 1: Kiểm tra theo cách thủ công
Sử dụng cú pháp site:url nếu số lượng trang mà bạn muốn kiểm tra ít. Hãy thay “url” bằng địa chỉ URL cụ thể của trang mà bạn muốn kiểm tra.
Ví dụ, để kiểm tra trang “example.com/page”, bạn có thể nhập vào công cụ tìm kiếm: site:example.com/page. Nếu kết quả không hiển thị trang đó, có thể trang đã bị deindex.
Cách 2: Sử dụng spineditor
- Bước 1: Lấy URL ở sitemap website của bạn, tiếp theo copy toàn bộ URL ra 1 file.
- Bước 2: Truy cập sSpineditor > Menu nằm bên trái “Kiểm tra tên miền” > Sau đó dán danh sách URL vào > Bấm tải link > Tiếp đến nhấn vào Tự động nhập captcha > Và nhấn Check index > Sau đó kiểm tra cột Google index để biết có URL nào bị mất index hay không.
Với cách này bạn cần lưu ý nếu số lượng URL kiểm tra quá lớn thì trong quá trình thực hiện có thể gặp tình trạng Spineditor kiểm tra mã captcha liên tục.
Hướng dẫn 4 cách index lại trang bị deindex
Sau khi đã kiểm tra xem trang nào đang gặp tình trạng deindex, bạn có thể index lại những trang này (nếu muốn) một cách nhanh chóng theo 4 cách dưới đây:
1. Không làm gì cả
Nếu trang bất ngờ bị mất index đột ngột, bạn có thể index lại trang này bằng cách “không làm gì cả”. Đây có thể chỉ là một lỗi từ phía máy chủ Google. Và sau một khoảng thời gian thì trang đó có thể tự động index trở lại vào danh sách kết quả tìm kiếm. Tuy nhiên, cũng cần lưu ý rằng tỷ lệ trang tự index lại khá thấp nên bạn có thể tới với cách tiếp theo.
2. Submit index bằng Google Search Console
Đây là cách bạn nên thực hiện đầu tiên vì hoàn toàn chính thống và miễn phí. Sau khi submit lại trên Google Search Console, URL của bạn có thể được index lại và hiển thị trên trang kết quả tìm kiếm. Tuy nhiên, nếu bạn gửi lại URL để index hoặc yêu cầu index mới mà không thành công, có một số lý do có thể xảy ra.
Rất nhiều người hiểu lầm rằng sau khi gửi URL trong Google Search Console, trang web của họ sẽ được index ngay lập tức. Nhưng thực tế là việc gửi yêu cầu chỉ là cách thông báo cho Google rằng bạn muốn trang web của mình được index. Google sau đó sẽ xem xét và sắp xếp lịch index dựa trên nhiều yếu tố.
Một trong những yếu tố quan trọng nhất là chất lượng của trang web. Google sẽ ưu tiên index các trang web có chất lượng cao hơn trước.
3. Sử dụng các tips để index nhanh hơn
Cách 1: Đặt backlink của trang cần index trên các trang web chất lượng cao có Domain Authority (điểm xếp hạng của website) càng cao càng tốt. Sau đó, gửi URL của trang cần index lên các trang web chất lượng đó. Nếu không có trang web chất lượng cao hoặc không có backlink, bạn có thể mua backlink và yêu cầu người bán gửi yêu cầu index hoặc sử dụng một trang web như Blogspot đã được xác minh trong Google Search Console để gửi yêu cầu index.
Cách 2: Chạy quảng cáo Google Ads. Thử nghiệm trên một số dự án cho thấy khi chạy quảng cáo Google Ads, tỷ lệ index trang web nhanh hơn đáng kể.
Cách 3: Sử dụng các công cụ hỗ trợ index như Larindex.
Kết hợp các mẹo này có thể giúp trang web của bạn index nhanh hơn và đạt được vị trí mong muốn trên công cụ tìm kiếm.
4. “Trick” để index nhanh hơn
Đây là một cách chưa được kiểm chứng hiệu quả nhưng bạn có thể thử nghiệm. Đầu tiên, hãy sử dụng một tài khoản Gmail lâu đời và thêm quyền quản trị vào Google Search Console. Sau đó bạn có thể gửi yêu cầu index mà không bị yêu cầu xác minh bằng “captcha” và tỷ lệ index có thể cao hơn. Điều này cho thấy rằng việc sử dụng tài khoản Gmail đã tồn tại và có lịch sử có thể ảnh hưởng đến quy trình index của Google và làm tăng tỷ lệ index nhanh chóng hơn.
Để thêm 1 tài khoản Gmail khác để vào tài khoản GSC bạn thực hiện như sau:
Một vài lưu ý khi deindex
Khi bạn quyết định thực hiện việc deindex trang web hoặc nội dung, hãy lưu ý các điểm sau để đảm bảo rằng quyết định này không ảnh hưởng đến hiệu suất tìm kiếm website của bạn:
Không sử dụng đồng thời cả thẻ meta noindex và thẻ disallow trong robots.txt
Khi bạn đặt thẻ meta noindex cho một nhóm trang cụ thể và đồng thời sử dụng thẻ disallow trong tệp robots.txt để ngăn bot truy cập các trang đó, thì thẻ noindex có thể bị bỏ qua bởi bot (vì bot không được phép truy cập trang). Vì vậy, để đạt kết quả tốt nhất bạn không nên sử dụng cả hai thẻ này cùng một lúc.
Ngoài ra, để Google có thể deindex một trang đã được index thì cần đợi hệ thống thực hiện quét và thu thập lại dữ liệu (re-crawl) trên trang đó. Để giúp công việc này diễn ra nhanh hơn, bạn nên giữ nguyên sitemap của website trong một khoảng thời gian. Sitemap giúp bot dễ dàng nhận biết sự thay đổi trên website của bạn.
Ngoài ra, còn một phương pháp khác để ngăn website không bị thu thập dữ liệu nhưng vẫn cho phép Google AdSense có thể hoạt động trên các trang đó. Điều này thực sự cần thiết, đặc biệt là ở các trang Liên hệ hoặc trang Chính sách hoàn tiền, Chính sách bảo mật. Danh mục những trang này thường xuất hiện ở menu chính đầu trang (header) hoặc chân trang (footer) và xuất hiện trên mọi trang trong website.
Sẽ có rất nhiều link equity (hoặc còn gọi là link juice, thuật ngữ này ám chỉ sức mạnh của liên kết) truyền tới những trang này. Bạn không muốn những dòng này bị lãng phí, đặc biệt là khi nó được truyền từ menu chính hoặc footer menu của bạn. Chính vì vậy, hãy đến với giải pháp tiếp theo.
Không đưa các trang đã chặn trong robots.txt vào XML sitemap của website
Nếu bạn chặn một trang trong tệp robots.txt nhưng sau đó lại thêm trang đó vào trong XML Sitemap, thì bạn đang tạo ra một tình huống mâu thuẫn cho Google. Sitemap cho biết rằng bạn muốn trang đó được index, trong khi tệp robots.txt lại ngăn chặn trang đó. Điều này có thể gây hiểu lầm cho Google và làm cho quá trình index trang web trở nên không hiệu quả.
Hãy phân loại nội dung trên trang web của bạn thành hai nhóm riêng biệt:
Không có lý do gì cần phải chặn các nội dung thuộc nhóm 1 bằng tệp robots.txt. Các nội dung này không nên được đánh dấu bằng thẻ noindex. Thay vào đó, hãy đưa tất cả những trang này trong tệp XML Sitemap website của bạn.
Bạn nên chặn tất cả nội dung thuộc nhóm thứ hai bằng cách sử dụng thẻ noindex, nofollow hoặc thông qua tệp robots.txt. Không nên đưa các nội dung này trong sitemap website của bạn.
Google sẽ sử dụng tất cả thông tin bạn cung cấp trong tệp XML Sitemap để hiểu về những phần nào quan trọng trên trang web của bạn. Tuy nhiên, nếu một trang không có trong Sitemap thì cũng không có nghĩa là Google sẽ hoàn toàn bỏ qua nó. Bạn có thể sử dụng toán tử “site:” trong tìm kiếm để xem tất cả các trang trên website đã được Google lập chỉ mục và kiểm tra xem có bất kỳ trang nào mà bạn có thể đã bỏ qua hay quên đi không.
Các trang xuất hiện cuối cùng trong kết quả tìm kiếm khi sử dụng toán tử “site:” là những trang yếu trên website của bạn và đang được Google index. Bạn cũng có thể xem số lượng các trang đã được submit và được lập chỉ mục thông qua công cụ Google Webmaster Tools một cách dễ dàng.
Một số câu hỏi thường gặp
1. Thẻ noindex và nofollow là gì?
Thẻ noindex và nofollow là 2 thẻ meta phổ biến nhất được sử dụng để ngăn một trang xuất hiện trong kết quả tìm kiếm (SERPs). Bạn có thể sử dụng chúng độc lập hoặc kết hợp chúng với nhau để kiểm soát cách các công cụ tìm kiếm xử lý trang web của bạn.
2. Robots.Txt là gì? Cách truy cập Robots.Txt
Tệp Robots.txt (đôi khi được viết tắt là robots.txt) là một tệp văn bản đặc biệt mà các trang web sử dụng để chỉ định các quy tắc cho các robot tìm kiếm và web crawler về cách họ nên tìm kiếm và quét trang web. Tệp này giúp quản lý việc chỉ định các phần của trang web mà bạn muốn cho phép hoặc ngăn các công cụ tìm kiếm truy cập.
Cách truy cập Robots.Txt
Để kiểm tra xem website của bạn đã có tệp robots.txt hay chưa, hãy truy cập vào địa chỉ: www.yourwebsite.com/robots.txt.
Lúc này, bạn có thể tạo một tệp robots.txt thông qua bất cứ trình soạn thảo văn bản nào. Cấu trúc tổng thể của một tệp robots.txt chứa 2 mục:
- User-agent: [tên_của_công_cụ_tìm_kiếm]
- Disallow: [đường_dẫn_cần_bị_từ_chối]
Trong đó:
- “User-agent” xác định công cụ tìm kiếm mà các quy tắc áp dụng cho nó. Ví dụ, “User-agent: Googlebot” sẽ áp dụng quy tắc cho Googlebot, công cụ tìm kiếm của Google.
- “Disallow” chỉ định các đường dẫn mà các công cụ tìm kiếm không được phép truy cập. Nếu bạn muốn cho phép tất cả trang web được quét, bạn có thể sử dụng “Disallow: /” để không giới hạn truy cập nào.
Ngoài ra, tệp robots.txt còn có thể chứa các hướng dẫn khác nhau như “Allow” để cho phép truy cập vào một số đường dẫn cụ thể hoặc “Sitemap” để chỉ định nơi sitemap của trang web được đặt.
3. Tại sao các trang vẫn xuất hiện trên SERPs trong thời gian đầu?
Nếu các trang vẫn xuất hiện trong kết quả tìm kiếm sau khi đã thêm các thẻ noindex và nofollow, có thể là do Google vẫn chưa quét lại website của bạn sau khi bạn thực hiện thay đổi. Để yêu cầu Google quét lại website, bạn có thể sử dụng công cụ Fetch as Google. Hãy nhập URL của trang, sau đó nhấp để xem kết quả và kiểm tra trạng thái của URL đó.
Một lý do khác có thể là do tệp robots.txt của bạn có một số lỗi. Bạn có thể sửa hoặc kiểm tra tệp robots.txt của mình bằng cách sử dụng công cụ “robots.txt Tester.”
Lời kết
Trên đây là toàn bộ thông tin mà Vietnix muốn chia sẻ với bạn về khái niệm deindex là gì và các bí kíp deindex tối ưu, tăng truy cập website. Mong rằng những thông tin này sẽ giúp bạn hiểu rõ hơn về deindex và áp dụng hiệu quả vào website của mình. Nếu có bất kỳ câu hỏi hoặc cần thêm thông tin, đừng ngần ngại liên hệ để được hỗ trợ thêm.