NỘI DUNG

Hosting tốc độ cao Vietnix - tốc độ tải trang trung bình dưới 1 giây
VPS siêu tốc Vietnix - trải nghiệm mượt mà, ổn định
27/09/2023
Lượt xem

Duplicate content là gì? Cách kiểm tra và hướng phục hồi

27/09/2023
17 phút đọc
Lượt xem

Đánh giá

5/5 - (131 bình chọn)

Google và các công cụ tìm kiếm khác không ưa thích nội dung trùng lặp (duplicate content), vì có thể khiến kết quả tìm kiếm trở nên không chất lượng và thiếu ý nghĩa đối với người dùng. Vậy duplicate content là gì? Làm sao để kiểm tra và khắc phục tình trạng này này? Hãy cùng theo dõi bài viết dưới đây nếu bạn cũng đang gặp rắc rối vì duplicate content.

Duplicate content là gì?

Duplicate content là nội dung trùng lặp hoặc gần giống với những nội dung đã xuất hiện trong nội bộ hoặc bên ngoài website trên internet. Tình trạng này thường xảy ra trên một trang web hay Cross – Domain. 

Phần lớn duplicate content xuất hiện do sự vô tình trùng hợp hoặc xảy ra lỗi kỹ thuật. Đặc biệt, ngay cả trang AMP cũng có thể gặp lỗi này nếu không được liên kết chính xác.

Ví dụ: Bạn xuất bản một bài ra mắt sản phẩm mới trong mục Danh mục sản phẩm, sau đó lại đăng lên mục Tin tức. Và đây sẽ được gọi là nội dung trùng lặp. Thậm chí, kể cả bạn đăng lại bài viết này lên một website khác thì vẫn được xem là duplicate content. 

Duplicate content là gì?
Duplicate content là gì?

Tại sao duplicate content không tốt cho SEO? 

Sau khi đã hiểu rõ về khái niệm của duplicate content, tiếp theo hãy cùng tìm hiểu những ảnh hưởng đối với hoạt động SEO. Đây cũng là những lý do mà bạn phải khắc phục vấn đề này nếu chúng đang xảy ra trên website của bạn.

Tạo URL không mong muốn trong SERP tìm kiếm 

Có nhiều trường hợp một trang chứa nội dung như nhau lại xuất hiện trên cùng 3 URL khác nhau. Cụ thể như sau:

  • URL số 1: thân thiện với người dùng, cũng là URL gốc của bài viết và có dạng domain.com/page/.
  • URL số 2: domain.com/page/?utm_content=buffer&utm_medium=social.
  • URL số 3: domain.com/category/page/.

Tất nhiên, bạn sẽ muốn URL số 1 xuất hiện trong kết quả tìm kiếm. Tuy nhiên Google cũng có thể không lựa chọn URL này để đưa lên top mà lại chọn một trong hai link bên dưới. Khi điều này xảy ra, tỉ lệ URL mà bạn không mong muốn thay thế URL ban đầu là rất cao.

Trong khi đó URL được thay thế sẽ không thân thiện bởi chứa quá nhiều thành tố nhưng lại không có keyword chính. Điều này khiến người dùng cảm thấy không tin tưởng, phân vân và không muốn click vào và gây ảnh hưởng trực tiếp tới lưu lượng truy cập tự nhiên của web.

URL không mong muốn sẽ xuất hiện trên SERP
URL không mong muốn sẽ xuất hiện trên SERP

Khi nội dung được đăng lên nhiều trang với các URL khác nhau thì từng URL đó sẽ thu hút các backlink cho riêng mình và dẫn tới sự phân chia liên kết (Link Equity) giữa những URL với nhau. 

Ảnh hưởng tới tần suất thu thập dữ liệu 

Thông qua các Bot thu thập thông tin, Google sẽ quét và hiểu nội dung mới trên trang web của bạn. Theo đó, chúng sẽ đi theo những liên kết từ trang có sẵn để đến những trang mới. Đồng thời, Bot cũng thực hiện thu thập dữ liệu ở những trang cũ để đánh giá xem có sự thay đổi nào thêm không. 

Khi duplicate content xuất hiện, các Bot sẽ phải thực hiện nhiều công việc hơn. Điều này gây ảnh hưởng đến tần suất và tốc độ thu thập thông tin tại những trang mới hay những cập nhật bạn vừa thực hiện. Website của bạn sẽ bị index chậm hơn hoặc bị index lại những nội dung đã cập nhật.

Tần suất thu thập dữ liệu bị ảnh hưởng
Tần suất thu thập dữ liệu bị ảnh hưởng

Ảnh hướng tới việc tối ưu thứ hạng 

Việc để một trang web xuất bản lại nội dung (dù được phép hoặc chưa) đều sẽ dẫn đến việc trùng lặp nội dung trên nhiều tên miền nhưng không gây ảnh hưởng nghiêm trọng tới web. Tuy nhiên cần đặc biệt lưu ý nếu nội dung được xuất bản lại và đạt thứ hạng cao hơn nội dung gốc trên website. Khi đó, việc xuất bản lại không còn mang đến bất cứ giá trị nào và bạn cần yêu cầu những trang đánh cắp đó gỡ bài viết xuống.

Thứ hạng từ khóa bị ảnh hưởng
Thứ hạng từ khóa bị ảnh hưởng

Duplicate content có bị Google phạt không? 

Tất nhiên, duplicate content sẽ gây ảnh hưởng xấu đến hiệu quả SEO. Nhưng nếu chỉ vô tình duplicate content do kỹ thuật thì website của bạn sẽ không bị Google phạt. Ngược lại, nếu bạn cố tình sao chép lượng lớn nội dung của website khác thì khả năng cao bạn sẽ bị Google chú ý. 

Duplicate content gây sự chú ý cho Google
Duplicate content gây sự chú ý cho Google

Điều này đã từng được Google lên tiếng như sau: “Duplicate content không phải là một tiêu chí để áp dụng hình phạt. Google chỉ phạt những website cố tình dùng duplicate content để thao túng và đánh lừa kết quả trên công cụ tìm kiếm. Trường hợp website của bạn đang có vấn đề về duplicate content và không chấp nhận những cảnh cáo của Google đưa ra thì Google sẽ chọn phiên bản nội dung có chất lượng tốt nhất để hiển thị trong kết quả tìm kiếm”. 

Một số nguyên nhân phổ biến gây duplicate content 

URL 

Tính năng Filter

Tính năng Filter được sử dụng phổ biến trên website thương mại điện tử vì giúp người dùng có thể sắp xếp và lọc những mục tiêu trên trang. Khi sử dụng tính năng này, URL sẽ được thêm vào các tham số đo lường ở phía sau.

Do người dùng thường kết hợp nhiều tiêu chí lọc khác nhau, mỗi bộ lọc sẽ đi kèm một tham số riêng nên dẫn tới tình trạng URL trùng lặp hoặc gần trùng lặp.

URL có và không có gạch chéo

Thực tế, Google đánh giá tách biệt những URL có và không có gạch chéo ở cuối.

Ví dụ: vietnix.vn/page/ và vietnix.vn/page sẽ được Google xem là 2 URL khác nhau.

Nếu muốn kiểm tra xem đây có phải là 2 URL khác nhau hay không, bạn chỉ cần load lại chúng:

  • Khi URL không gồm dấu “/” được chuyển hướng sang URL có dấu “/”, thì đó không được xem là duplicate.
  • Nhưng nếu 2 URL trên dẫn tới 2 trang khác nhau thì đồng nghĩa với việc bạn đang gặp vấn đề về trùng lặp nội dung. 
URL có và không có chứa dấu gạch chéo
URL có và không có chứa dấu gạch chéo có thể gây trùng lặp

Trang web có phiên bản dành cho di động

Những URL thân thiện với thiết bị di động có thể trùng lặp với URL trên máy tính để bàn. Để xử lý tình trạng này, bạn cần thiết lập phiên bản dành cho di động thành phiên bản gốc bằng cách sử dụng Rel = “Alternate”. Rel này sẽ giúp Google hiểu rằng URL trên thiết bị di động chính là phiên bản thay thế của nội dung trên máy tính để bàn. 

URL thân thiện cho thiết bị di động có thể gây trùng lặp với phiên bản máy tính
URL thân thiện cho thiết bị di động có thể gây trùng lặp với phiên bản máy tính

HTTP, HTTPs, WWW 

Các trang web hiện nay thường có URL nằm trong 4 biến thể sau:

  • https, không có www (https://example.com). 
  • https, www (https://www.example.com). 
  • http, không có www (http://example.com). 
  • http, www (http://www.example.com). 

Nếu bạn không thực hiện cấu hình cho máy chủ của mình một cách chính xác thì website của bạn có thể truy cập được qua nhiều biến thể kể trên. Điều này gây tình trạng duplicate content ở URL. 

Các yếu tố Onpage cơ bản 

Kiểm tra trùng lặp thẻ heading 

Để hạn chế những vấn đề liên quan đến duplicate content, hãy chắc chắn rằng mỗi trang trên website của bạn chỉ có duy nhất một tiêu đề trong code HTML của trang. Mặt khác, những tiêu đề H1, H2, H3,… giữa các trang trên website không được giống nhau. 

Thẻ heading có thể gây trùng lặp
Thẻ heading có thể gây trùng lặp

Thẻ meta description 

Việc chắc chắn rằng meta description không bị trùng lặp cũng rất quan trọng. Nếu bạn sử dụng một nội dung meta description cho toàn bộ bài viết sẽ dẫn đến duplicate content và khiến Google gặp khó khăn trong việc thu thập thông tin cũng như hiểu được nội dung của những trang khác nhau. 

Trường hợp bạn không thể viết meta description riêng cho từng trang thì nên để trống phần này. Khi đó, Google sẽ lấy những đoạn trích có trong trang làm meta description.

Duplicate có thể từ meta description
Duplicate có thể từ meta description

Content có khả năng trùng lặp cao 

Dù việc trùng lặp nội dung là do vô tình hoặc cố ý thì đều gây ảnh hưởng nhất định đến hiệu quả SEO. Lý do dẫn tới duplicate content trong trường hợp này là bạn đã đăng một bài viết lên nhiều trang của mình hoặc một trang web khác đăng lại nội dung trên trang của bạn. Nếu nhận thấy duplicate content ảnh hưởng đến kết quả SEO thì bạn cần loại bỏ chúng ngay lập tức.

5 công cụ kiểm tra duplicate content phổ biến nhất 

Để đảm bảo nội dung trên website của mình có đang trùng lặp hay không bạn nên tham khảo một số công cụ hỗ trợ kiểm tra độ trùng lặp phổ biến hiện nay gồm:

Copyscape 

Copyscape giúp người dùng tìm kiếm URL miễn phí nhanh chóng chỉ trong vài giây. Tuy phiên bản miễn phí hạn chế người dùng không thực hiện tìm kiếm sâu hơn nhưng kết quả vẫn ở mức chính xác cao. 

Công cụ kiểm tra duplicate Copyscape 
Công cụ kiểm tra duplicate Copyscape 

Dupli Checker

Dupli Checker cho phép người dùng kiểm tra trùng lặp tệp văn bản, văn bản hay URL chỉ trong vài giây. Bạn chỉ cần đăng ký thì có thể dùng công cụ này mà không gặp bất kỳ giới hạn nào.

Siteliner 

Để sử dụng Siteliner bạn chỉ cần dán URL của website vào công cụ, chúng sẽ tiến hành kiểm tra nội dung trùng lặp, số từ trên mỗi trang, thời gian tải trang, liên kết bên ngoài và nội bộ,… Quá trình này sẽ nhanh hoặc chậm dựa trên kích thước của trang web, thông thường sẽ mất khoảng vài phút. 

Công cụ Siteliner 
Công cụ Siteliner 

Small SEO tool 

Small SEO tool là một phần mềm kiểm tra đạo văn miễn phí được nhiều người sử dụng. Phần mềm này cho phép người dùng biết được đâu là nội dung trùng lặp và tỷ lệ trùng lặp là bao nhiêu phần trăm một cách nhanh chóng.

Tuy nhiên, phần mềm này giới hạn một lần kiểm tra chỉ tối đa 1000 từ và giao diện vẫn còn nhiều quảng cáo xuất hiện. 

Plagiarism Detector 

Plagiarism Detector là một phần mềm chứa nhiều công cụ giúp người dùng có thể nhanh chóng phát hiện những văn bản, đoạn văn được sao chép từ nhiều nguồn khác nhau. 

Với giao diện trực quan dễ sử dụng, Plagiarism Detector giúp bạn dễ dàng so sánh được các văn bản hoặc tài liệu dài có số lượng trang lớn. Bên cạnh đó, phần mềm này cùng giúp bạn so sánh được những mẫu câu hay cú pháp có sự tương đồng giữa những văn bản với nhau. 

Tuy nhiên, Plagiarism Detector vẫn tồn tại một số hạn chế như nhiều quảng cáo xuất hiện trong quá trình sử dụng và đôi lúc có những kết quả sai lệch khi bản mẫu không chuẩn. 

Ngoài ra, bạn có thể tham khảo thêm tại:

6 cách khắc phục duplicate content trên website nhanh chóng 

Google sẽ tiến hành điều chỉnh xếp hạng hoặc quá trình index của những website mà họ cho rằng có sử dụng nội dung trùng lặp với mục đích đánh lừa người dùng hoặc thao túng thứ hạng. Lúc này, website có thể bị tụt hạng nhanh chóng, thậm chí có thể bị xóa hoàn toàn khỏi chỉ mục của Google và không được hiển thị trong kết quả tìm kiếm. Để tránh gặp phải điều này, bạn có thể xử lý vấn đề duplicate content trên website bằng những cách sau:

Sử dụng redirect 301 

Đầu tiên bạn có thể áp dụng redirect 301 (chuyển hướng 301) trong tệp “.htaccess” của mình để xử lý duplicate content. Bạn có thể thực hiện việc này trong IIS bằng bảng điều khiển quản trị hoặc trong Apache thông qua tệp .htaccess. 

Cách này sẽ giúp bạn chuyển hướng của Google,  người dùng và các trình thu thập dữ liệu khác theo mong muốn. Khi người dùng truy cập vào một URL có chứa nội dung bị trùng lặp thì họ sẽ được điều hướng sang trang gốc hoặc landing page theo ý muốn của bạn.

Khắc phục duplicate content bằng redirect 301 
Khắc phục duplicate content bằng redirect 301 

Hãy cố gắng duy trì sự nhất quán trong các liên kết nội bộ của bạn. Tránh tình trạng xuất hiện URL kết thúc bằng có hoặc không có dấu gạch chéo (/), hoặc nội dung trùng lặp trong các URL có các phiên bản khác nhau như WWW, HTTP và HTTPS.

Xây dựng internal link chất lượng
Xây dựng internal link chất lượng

Dùng TLD ( Top Level Domain)

Để được Google cung cấp phiên bản thích hợp cho những bài viết, tài liệu,… thì bạn nên sử dụng Top Level Domain (tên miền cao cấp) để đăng tải những nội dung phù hợp với quốc gia, lĩnh vực của web. Top Level Domain chính là phần mở rộng nằm cuối tên miền.

Ví dụ, website có domain “https://domain.vn” sẽ được Google ưu tiên hiển thị hơn so với web có domain “https://domain.com/vn” trên kết quả tìm kiếm của người dùng tại Việt Nam.

Lựa chọn TLD phù hợp
Lựa chọn TLD phù hợp

Phân phối nội dung ở nhiều nền tảng 

Trường hợp bạn đang phân phối nội dung của mình trên nhiều trang web khác nhau, Google sẽ ưu tiên hiển thị phiên bản mà họ nghĩ là tối ưu và đáp ứng tốt cho người dùng. Và có thể kết quả hiển thị sẽ không phải là phiên bản mà bạn mong muốn. 

Do đó, để xử lý trường hợp này cần chắc chắn rằng ở mỗi trang phân phối nội dung đã được gắn backlink trỏ về bài viết gốc của bạn. Ngoài ra, bạn cũng có thể đề nghị những người sử dụng nội dung của bạn dùng thẻ Meta Noindex để chặn những công cụ tìm kiếm index phiên bản nội dung đó của họ. 

Hạn chế để Google index nội dung chưa hoàn thiện 

Người dùng thường không hứng thú với những trang chưa hoàn thiện nội dung hay trang trống không chứa nội dung. Do đó, nên hạn chế xuất bản những trang mà bạn chưa hoàn thành. Trường hợp bạn cần tạo trang với mục đích giữ chỗ thì hãy dùng thẻ Meta Noindex để ngăn việc lập chỉ mục cho những trang này. 

Hạn chế index nội dung chưa hoàn thiện
Hạn chế index nội dung chưa hoàn thiện

Hạn chế tối đa content tương tự nhau 

Hãy cân nhắc mở rộng hoặc hợp nhất các trang có nội dung tương tự nhau. 

Ví dụ: Bạn đang có một website du lịch với nhiều trang khác nhau cho 2 thành phố, tuy nhiên thông tin trên 2 trang này lại giống nhau. Lúc này, bạn nên cân nhắc hợp nhất các trang thành một trang nói về cả 2 thành phố. Hoặc tạo ra nội dung có sự khác biệt, mở rộng trang để chúng chỉ chứa nội dung duy nhất về 1 thành phố. 

Không nên để nội dung tương tự nhau
Không nên để nội dung tương tự nhau

Ngoài nội dung trên, có thể bạn quan tâm:

Lời kết 

Bài viết trên đây đã cung cấp nội dung chi tiết về duplicate content, kèm theo cách triển khai và khắc phục khi gặp phải. Hy vọng trong quá trình sản xuất nội dung cho website bạn sẽ chú ý hơn để không gặp các vấn đề liên quan đến duplicate content gây ảnh hưởng đến kết quả SEO. Cảm ơn bạn đã theo dõi bài viết, nếu cảm thấy bài viết này bổ ích thì hãy chia sẻ đến mọi người nhé. 

THEO DÕI VÀ CẬP NHẬT CHỦ ĐỀ BẠN QUAN TÂM

Đăng ký ngay để nhận những thông tin mới nhất từ blog của chúng tôi. Đừng bỏ lỡ cơ hội truy cập kiến thức và tin tức hàng ngày

Chọn chủ đề :

Hoàng Vui

SEO Specialist
tại

Kết nối với mình qua

Kết nối với mình qua

Tăng tốc độ website - Nâng tầm giá trị thương hiệu

Tăng tốc tải trang

95 điểm

Nâng cao trải nghiệm người dùng

Tăng 8% tỷ lệ chuyển đổi

Thúc đẩy SEO, Google Ads hiệu quả

Tăng tốc ngay

SẢN PHẨM NỔI BẬT

7 NGÀY DÙNG THỬ HOSTING

NẮM BẮT CƠ HỘI, THÀNH CÔNG DẪN LỐI

Cùng trải nghiệm dịch vụ hosting tốc độ cao được hơn 100,000 khách hàng sử dụng

ĐĂNG KÝ NHẬN TÀI LIỆU THÀNH CÔNG
Cảm ơn bạn đã đăng ký nhận tài liệu mới nhất từ Vietnix!
ĐÓNG

ĐĂNG KÝ DÙNG THỬ HOSTING

7 NGÀY MIỄN PHÍ

ĐĂNG KÝ DÙNG THỬ HOSTING

7 NGÀY MIỄN PHÍ

XÁC NHẬN ĐĂNG KÝ DÙNG THỬ THÀNH CÔNG
Cảm ơn bạn đã đăng ký thông tin thành công. Đội ngũ CSKH sẽ liên hệ trực tiếp để kích hoạt dịch vụ cho bạn nhanh nhất!
ĐÓNG