Hiển thị các bài đăng có nhãn Robots.txt. Hiển thị tất cả bài đăng
Hiển thị các bài đăng có nhãn Robots.txt. Hiển thị tất cả bài đăng

11/06/2018

Tối ưu Trùng Lặp Nội Dung - Seo Audit #3

Trùng lặp nội dung là hiện tượng Google Index nhiều trang trên một Website có nội dung giống nhau hoặc trùng phần lớn nội dung.

Qua tìm hiểu thì trùng nội dung này xuất hiện là do phần lớn bạn không am hiểu đến nền tảng Website mà bạn đang sử dụng nên sử dụng các hàm gọi tiêu đề (tiêu đề website, tiêu đề bài viết)/ mô tả (meta description).. y chang nhau ở nhiều trang mà không phân điều kiện hiển thị ở từng trang...

Một phần nữa là phân trang, hay sắp xếp nội dung thông qua các tham số xuất hiện trong URL nên tự động sản sinh ra URL mới được Google cập nhật.

Trùng lặp nội dung phổ biến nhất (hầu hết mọi nền tảng)

  1. Trùng lặp tiêu đề/mô tả trên các phân trang tin tức (lỗi phổ biến nhất xuất hiện hầu hết các nền tảng)
  2. Trùng lặp nội dung trên các trang Catelogy/Label
  3. Tham số url sinh ra để lọc và sắp xếp nội dung
Chủ yếu loanh quanh về Tiêu đề và Mô tả Meta Description.

Hiện trượng trùng tiêu đề Mô tả tại các phân trang thuộc trường hợp 1

20/04/2018

Fix lỗi trùng lặp nội dung, tiêu đề mô tả chuẩn trong Blogger

Blogger là nền tảng "Trùm" nổi tiếng về lỗi trùng lặp nội dung. Tức là 2 hay nhiều URL cùng nhận tiêu đề/ mô tả/ nội dung y như nhau và để cho Google Index.
Nếu khái niệm Canonical khai báo cho Google biết đâu là URL muốn index là link chính nhưng quá nhiều trang sinh ra như vậy thì ta dùng biện pháp chặn index các link còn lại mà không thể dùng Canonical được. Bạn có thể xem phương pháp này tại Fix lỗi trùng lặp nội dung bằng Canonical mà mình chia sẻ trước đó.
Hiện nay cụm từ "Trùng lặp nội dung" theo dân Viết Content và cách nhiều người hiểu là nội dung đi copy 100% của trang khác dẫn đến trùng nội dung, không Unique 100%. Xong ít ai biết trùng lặp nội dung còn tự trùng lặp trên chính trang web của mình.

lỗi trùng lặp nội dung, tiêu đề mô tả
lỗi trùng lặp nội dung, tiêu đề mô tả

19/03/2018

Robots.txt chuẩn cho Blogger/Blogspot 2018

Robots.txt là một tài liệu cho các con bọ (SE: Search Engine) đọc trang này (index) dữ liệu website ở trang nào, và không cho đọc trang nào lên các máy chủ tìm kiếm.

Các con bọ tìm kiếm đều phải tuân thủ nội dung trong Robots.txt trước khi lập chỉ mục các nội dung trong website.

Việc thiết lập Robots.txt chuẩn cho công cụ lập chỉ mục (index) nhanh chóng hoặc index các nội dung không muốn cho lập chỉ mục.
Robot.txt chuẩn cho Blogspot 2018
Robots.txt chuẩn cho Blogspot 2018

Robots.txt mà Toilaquantri.com đang dùng

Bạn thay link https://www.toilaquantri.com/ ở các code bên dưới nhé!
Hoặc tham khảo robots.txt mà toilaquantri đang dùng tại https://toilaquantri.com/robots.txt

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /search
Disallow: /search*
Allow: /
Allow: *max-results=10
Allow: /search/label/
Disallow: *archive.html
Disallow: *?updated-max*
Disallow: *?m=0
Sitemap: https://www.toilaquantri.com/posts/default?orderby=UPDATED
Sitemap: https://www.toilaquantri.com/sitemap.xml
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1&max-results=500

Giải thích cách hoạt động của Robot.txt

  • User-agent: Mediapartners-Google
  • Disallow: //Mình chặn index các trang đối tác của Google (Google Adsense)
  • User-agent: * //Khai báo cho tất cả bộ máy tìm kiếm (SE)
  • Allow: /        //Cho phép đọc trang domain.com/ (Khác với domain.com không có / phía sau .com)
  • Disallow: /search* //Chặn trang tìm kiếm
  • Allow: /search  //Cho phép đọc trang bài viết mới
  • Disallow: *archive.html //Chặn index trang lưu trữ
  • Disallow: *?m=0 // chặn index trang có giá trị domain.com?m=0
  • Allow: /search/label/   //Cho phép index trang nhãn
  • Allow: *max-results=10 //Cho phép Index trang nhãn có max-results=10 (vì mình muốn như thế)
Dành cho các site không index các trang *max-results=*
Disallow: *max-results=*  // Chặn index đuôi max-results=10, max-results=20, max-results=xxx. Thường dùng cho code phân trang.

Riêng đối với Blogger sử dụng cấp dữ liệu qua atom và mỗi lần cấp là tối đa 500 bài nên ta mới khai báo sitemap: như sau

Sitemap: https://www.toilaquantri.com/posts/default?orderby=UPDATED
Sitemap: https://www.toilaquantri.com/sitemap.xml
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=501&max-results=500
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1001&max-results=500
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1501&max-results=500
Sitemap: https://www.toilaquantri.com/p/map.html

Trong đó các link sau:

Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=501&max-results=500
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1001&max-results=500
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1501&max-results=500

= Được khai báo trong Google Webmaster Tools

Sitemap: https://www.toilaquantri.com/p/map.html
Sitemap dành cho người dùng nhưng cũng khai báo link để Google (SE) vào đó đọc link cho nhanh.

Cách khai báo Robots.Txt

1. Cho phép dò và index toàn bộ trang và các thư mục, các file

Allow: /

2. Chặn không cho phép tất cả bot (SE) truy cập và index toàn bộ

Disallow: /

3. Chặn toàn bộ một thư mục và các file, thư mục con trong nó

Disallow: /abc/

4. Chặn một trang cố định

Disallow: /abc.html

5. Chặn một loại file cố định từ một bot của công cụ tìm kiếm

User-agent: Googlebot
Disallow: /*.doc$ (thay doc bằng jpg hoặc bất kì file nào muốn chặn)

6. Chặn một hình không cho Googlebot-Image index

User-agent: Googlebot-Image
Disallow: /abc/def.jpg

7. Chặn không cho một bot bất kì truy cập:

User-agent: Googlebot
Disallow: /

Lưu ý khi sử dụng và tạo file Robots.txt

  1. Phân biệt chữ hoa, chữ thường
  2. Không được viết thừa hoặc thiếu khoảng trắng
  3. Mỗi lệnh viết trên một dòng
  4. Không tự ý thêm các ký tự đặc biệt dễ gây nhầm lẫn cho bot
  5. Hết sức thận trọng khi sử dụng khi bạn chưa hiểu thường tận
  6. Kiểm tra thường xuyên file robots.txt