Breaking News

Thứ Ba, 23 tháng 12, 2014

Cách quản lý file Robots.txt của bạn một cách hiệu quả



Đúng dịp kỷ niệm 20 năm ra đời của file robots.txt thì Google Webmaster Tools đã cho bản cập nhật mới là mục URL bị chặn trong file này nhằm giúp bạn kiểm tra những lỗi hoặc cảnh báo mà Google tìm thấy.Đối với những người làm Marketing online đặc biệt là các SEOer thì tầm quan trọng của file robots.txt không cần phải nói nhiều.Nhưng đối với những người có ít kiến thức về file này thì dễ mắc sai lầm và kéo theo là các công cụ tìm kiếm có thể index rất ít hoặc không bao giờ index website của họ.Điều này quả thật hết sức tai hại vậy:

Robots.txt là gì và Tại sao chúng ta cần nó?

Các file robots.txt là cơ sở giúp cho các công cụ tìm kiếm thu thập dữ liệu trang web của bạn một cách hiệu quả.File này sẽ thông báo tới các công cụ tìm kiếm rằng những nội dung nào được phép truy cập, những mục không được phép truy cập, các đường dẫn có nội dung trùng lặp, xóa những đường dẫn hỏng, hay khai báo địa chỉ sitemap của website.Đây là một công cụ cực kỳ hữu ích để quản trị website của bạn nên bạn cần phải hiểu làm thế nào để sử dụng và kiểm tra nó.Có ba loại cấp độ trong file robots.txt:
+Cấp Trang
Disallow: /trangvidu.html
+Cấp thư mục
Disallow: /thư mục ví dụ/
+Chỉ thị ký tự đại diện
Bất cứ một trang con nào của một thư mục (Disallow: /thư mục ví dụ/*)
Một loại file (Disallow: / *.Pdf)
Dưới đây là nhưng sai lầm phổ biến mà bạn dễ mắc phải trong file robots.txt:
Disallow: /
Không cho các công cụ tìm kiếm thu thập bất cứ điều gì từ website của bạn
Disallow: /image/
Disallow: /video/
Không cho phép công cụ tìm kiếm thu thập nội dung hình ảnh hoặc video từ website của bạn
Disallow: / *.css.
Disallow: / *.js.
Không cho phép công cụ tìm kiếm truy cập vào CSS và JavaScript của bạn.
Disallow: /*.pdf
Disallow: /*.doc.
Không cho phép thu thập những file dạng này.Nếu quản trị viên không muốn người dùng đến với trang web của mình qua những kết quả có dạng file doc hay pdf này.

Quản lý Robots.txt

Google hiện tại đã giúp bạn quản lý tập tin robots.txt một cách rất tốt.Nhưng, trước tiên chúng ta hãy xem qua công cụ Bing.
Webmaster Tools của Bing thu thập thông tin theo nội dung file robots.txt là  khá tốt bởi vì bạn có thể xem tất cả các trang bị loại khỏi xem công cụ tìm kiếm và các liên kết trang đó không được tính.Bạn xem ví dụ dưới đây sẽ thấy:
Công cụ bing webmaster toolss

Bên cạnh Bing Webmaster Tools, bạn cũng có thể xem lại các URL đã disallow trong robots.txt bằng công cụ SEMRush Beta Audit.
Công cụ SEMRush
Trong khi SEMRush đang cảnh báo giúp bạn các vấn đề mà bạn đang mắc phải trên trang web của mình, thì công cụ Siteliner: http://www.siteliner.com/ cho phép bạn kiểm tra vấn đề trùng lặp nội dung trên trang web mình để từ đó sửa lại file robots.txt.
Công cụ Siteliner
Cuối cùng, là công cụ Google Webmaster Tools Robots.txt Tester.Các công cụ khác giúp bạn hiểu những gì đang tồn tại trong file robots.txt của bạn, nhưng công cụ này sẽ giúp bạn thấy những gì Google nhận thấy là lỗi trong file đó.
Công cụ Google webmaster Tools
Kết luận
Robots.txt sử dụng đúng cách có thể giúp bạn hỗ trợ công cụ tìm kiếm thu thập dữ liệu.File này sẽ không xóa ngay nội dung từ các công cụ tìm kiếm như các thẻ meta noindex, nhưng trên các trang tìm kiếm tại thời điểm đó các mục hay đường dẫn này sẽ không còn được index và bắt đầu rớt hạng và biến mất dần.
Hy vọng qua bài viết nhỏ này sẽ góp phần giúp các bạn nắm được những mục cơ bản của file robots.txt những sai lầm dễ mắc phải để từ đó sử dụng quản lý nó một cách hiệu quả

Không có nhận xét nào:

Đăng nhận xét