Duplicate Content – Nội dung trùng lặp là gì? Cách xử lý?

Nội dung trùng lặp là gì?

Nội dung trùng lặp (Duplicate Content) là một nội dung xuất hiện ở nhiều nơi. “Một nơi” được định nghĩa là địa điểm có địa chỉ URL duy nhất – vì vậy, nếu cùng một nội dung xuất hiện ở nhiều địa chỉ URL, bạn đã có nội dung trùng lặp.

Mặc dù không phải là một hình phạt, nhưng nội dung trùng lặp đôi khi vẫn có thể ảnh hưởng đến bảng xếp hạng của công cụ tìm kiếm. Khi có nhiều phần, nội dung “tương đối giống nhau” ở nhiều nơi, thì các công cụ tìm kiếm có thể quyết định phiên bản nào phù hợp hơn với một truy vấn tìm kiếm nhất định.

Nội dung trùng lặp có quan trọng?

1. Đối với công cụ tìm kiếm

Nội dung trùng lặp trong Website có ba vấn đề chính với công cụ tìm kiếm:

Họ không biết phiên bản nào chính xác là nguồn gốc => loại trừ khỏi chỉ số của họ.

Họ không biết liệu nên chỉ đạo các số liệu liên kết (tin cậy, thẩm quyền, văn bản neo, liên kết vốn chủ sở hữu, v.v.) vào một trang hoặc giữ nó tách ra giữa nhiều phiên bản.

Họ không biết phiên bản nào sẽ xếp hạng cho kết quả truy vấn.

2. Đối với chủ trang web

Khi website bị trùng lặp nội dung, Trang web có thể bị rớt xếp hạng và giảm traffic. Những tổn thất này thường xuất phát từ hai vấn đề chính:

Để cung cấp trải nghiệm tìm kiếm tốt nhất, các công cụ tìm kiếm sẽ hiếm khi hiển thị nhiều URL của cùng một nội dung và do đó buộc phải chọn URL nào có thể sẽ là kết quả tốt nhất. Điều này làm loãng hiệu quả của nội dung và mất công sức để tạo Contents mới.

Khi Link Building bạn phải đưa về nhiều URL khác nhau nhưng cùng một nội dung ứng các cụm từ tìm kiếm đó. Thay vì tất cả các liên kết gửi đến tới một nội dung. Bởi vì các liên kết là một yếu tố xếp hạng, điều này có thể ảnh hưởng đến khả năng hiển thị tìm kiếm của một mẩu nội dung phù hợp.

Vì sao vấn đề trùng lặp nội dung xảy ra?

Trong phần lớn các trường hợp, chủ sở hữu trang web không chủ ý tạo nội dung trùng lặp. Nhưng, điều đó không có nghĩa là không có vấn đề trong trang web đó. Thực tế theo một con số ước tính, có đến 29% của web thực sự là trùng lặp nội dung!

Những lý do phổ biến nhất để nội dung trùng lặp được tạo ra không chủ ý:

1. Các biến thể URL

Các thông số URL, chẳng hạn như theo dõi nhấp chuột và một số mã phân tích, có thể gây ra sự cố nội dung trùng lặp. Đây có thể là một vấn đề không chỉ gây ra bởi các thông số, mà còn là thứ tự mà các thông số xuất hiện trong chính URL.

2. Không tối ưu chuyển hướng HTTP đến HTTPS hoặc www. và Non-www

Nếu trang web của bạn có các phiên bản riêng biệt tại “www.site.com” và “site.com” (“có và không có www”) và cùng một nội dung ở cả hai phiên bản, bạn đã vô tình tạo ra các bản sao nội dung trên 2 trang.

Tương tự với các trang web duy trì các phiên bản ở cả http: // và https: //. Nếu cả hai phiên bản của một trang được hiển thị trực tiếp và hiển thị cho các công cụ tìm kiếm, bạn có thể gặp vấn đề nội dung trùng lặp.

3. Sử dụng lại nội dung hoặc copy

Vấn đề bị các copywriter tái xuất bản nội dung của bạn trên các website/blog của họ có thể là một nguồn mà nội dung của bạn bị trùng lặp. Nhưng cũng có một vấn đề phổ biến đối với các trang web thương mại điện tử: thông tin sản phẩm.

Nhiều trang web khác nhau bán cùng một mặt hàng và tất cả họ đều sử dụng mô tả của nhà sản xuất về những mặt hàng đó, nội dung giống nhau trên nhiều địa điểm trên web.

Cách khắc phục vấn đề nội dung trùng lặp trong trang

Để xử lý các vấn đề về nội dung trùng lặp trong trang thì có ba cách chính để thực hiện việc này: Sử dụng chuyển hướng 301 tới đúng URL, sử dụng thuộc tính rel = canonical, hoặc sử dụng công cụ xử lý thông số trong Google Search Console.

Chuyển hướng 301

Cách tốt nhất để xử lý nội dung trùng lặp là thiết lập chuyển hướng 301 từ trang “trùng lặp” tới trang nội dung ban đầu.

Khi nhiều trang với khả năng xếp hạng tốt được kết hợp thành một trang duy nhất, chúng tạo ra một sự liên quan mạnh mẽ hơn và phổ biến tín hiệu tổng thể. Điều này sẽ tác động tích cực đến khả năng xếp hạng của trang đích.

Rel = “canonical”

Một tùy chọn khác để đối phó với nội dung trùng lặp là sử dụng thuộc tính rel = canonical. Điều này nói với các công cụ tìm kiếm rằng một trang nhất định phải được coi như là một bản sao của URL đã chỉ định và tất cả các liên kết, chỉ số nội dung và “quyền lực xếp hạng” mà các công cụ tìm kiếm áp dụng cho trang này thực sự sẽ được ghi có vào URL.

Tham khảo: Thẻ Canonical là gì? Cách sử dụng canonical tag hiệu quả?

Meta Robots Noindex

Một thẻ meta có thể đặc biệt hữu ích khi đối phó với nội dung trùng lặp là các robot meta, khi được sử dụng với các giá trị “noindex, follow”. Thẻ này có thể được thêm vào đầu HTML của mỗi trang riêng lẻ cần được loại trừ khỏi chỉ mục của một công cụ tìm kiếm.

Xử lý tên miền và thông số ưa thích trong Google Search Console

Google Search Console cho phép bạn thiết lập miền ưa thích của trang web của bạn (ví dụ: http://yoursite.com thay vì http://www.yoursite.com) và chỉ định Googlebot nên thu thập thông tin URL khác theo cách khác không (xử lý thông số).

Tùy thuộc vào cấu trúc URL của bạn và nguyên nhân gây ra sự cố nội dung trùng lặp của bạn, việc thiết lập miền hoặc xử lý thông số ưa thích của bạn để tìm ra giải pháp phù hợp.

Các phương pháp bổ sung để đối phó với nội dung trùng lặp

Duy trì sự nhất quán khi liên kết nội bộ giữa một trang web. Ví dụ: nếu quản trị viên web xác định phiên bản chính thức của tên miền là www.example.com/, thì tất cả các liên kết nội bộ nên đi đến http://www.example.com/example.

Khi cung cấp nội dung, hãy đảm bảo rằng trang cung cấp tổng hợp thêm một liên kết về nội dung gốc và không phải là biến thể trên URL.

Biện pháp bảo vệ bổ sung đối với một số đứa ăn cấp nội dung nội dung của bạn, bạn nên thêm liên kết rel = canonical tự tham chiếu đến các trang hiện tại của bạn hoặc sử dụng DMCA để xác thực những thông tin của bạn.

Khi bị ăn cắp nội dung thì bạn có thể khiến kiện về nội dung gốc. Các URL trùng lặp sẽ không được index trên Google. Nhưng bạn là đứa ăn cắp thì DMCA chả giúp gì được bạn đâu. =)).