Robots.txt là một công cụ hữu ích và mạnh mẽ để hướng dẫn trình thu thập dữ liệu của công cụ tìm kiếm về cách bạn muốn chúng thu thập dữ liệu trang web của bạn. Quản lý tập tin này là một thành phần quan trọng của kỹ thuật SEO tốt .
Nó không phải là toàn năng – theo cách nói của Google , “nó không phải là một cơ chế để loại một trang web ra khỏi Google” – nhưng nó có thể giúp ngăn trang web hoặc máy chủ của bạn khỏi bị quá tải bởi các yêu cầu của trình thu thập thông tin.
Nếu bạn có khối thu thập thông tin này trên trang web của mình, bạn phải chắc chắn rằng nó đang được sử dụng đúng cách.
Điều này đặc biệt quan trọng nếu bạn sử dụng URL động hoặc các phương pháp khác tạo ra số lượng trang vô hạn về mặt lý thuyết.
Trong hướng dẫn này,bài viết sẽ xem xét một số vấn đề phổ biến nhất với tệp robots.txt, tác động của chúng đối với trang web và sự hiện diện tìm kiếm của bạn cũng như cách khắc phục những vấn đề này nếu bạn cho rằng chúng đã xảy ra.
Nhưng trước tiên, chúng ta hãy xem nhanh robots.txt và các lựa chọn thay thế của nó.
Robots.txt là gì?
Robots.txt sử dụng định dạng tệp văn bản thuần túy và được đặt trong thư mục gốc của trang web của bạn.
Nó phải nằm trong thư mục trên cùng của trang web của bạn. Công cụ tìm kiếm sẽ đơn giản bỏ qua nó nếu bạn đặt nó trong thư mục con.
Mặc dù có sức mạnh to lớn nhưng robots.txt thường là một tài liệu tương đối đơn giản và tệp robots.txt cơ bản có thể được tạo trong vài giây bằng trình chỉnh sửa như Notepad . Bạn có thể giải trí với chúng và thêm thông điệp bổ sung để người dùng tìm thấy.
Có nhiều cách khác để đạt được một số mục tiêu tương tự như robots.txt thường được sử dụng.
Các trang riêng lẻ có thể bao gồm thẻ meta robot trong chính mã trang.
Bạn cũng có thể sử dụng tiêu đề HTTP X-Robots-Tag để tác động đến cách thức (và liệu) nội dung có được hiển thị trong kết quả tìm kiếm hay không.
Robots.txt có thể làm gì?
Robots.txt có thể đạt được nhiều kết quả khác nhau trên nhiều loại nội dung khác nhau:
Các trang web có thể bị chặn thu thập thông tin
Chúng có thể vẫn xuất hiện trong kết quả tìm kiếm nhưng sẽ không có mô tả văn bản. Nội dung không phải HTML trên trang cũng sẽ không được thu thập thông tin.
Các tệp phương tiện có thể bị chặn xuất hiện trong kết quả tìm kiếm của Google
Điều này bao gồm các tập tin hình ảnh, video và âm thanh.
Nếu tệp ở chế độ công khai, tệp sẽ vẫn “tồn tại” trực tuyến và có thể được xem cũng như liên kết nhưng nội dung riêng tư này sẽ không hiển thị trong các tìm kiếm của Google.
Các tệp tài nguyên như các tập lệnh bên ngoài không quan trọng có thể bị chặn
Nhưng điều này có nghĩa là nếu Google thu thập dữ liệu một trang yêu cầu tải tài nguyên đó thì robot Googlebot sẽ “nhìn thấy” một phiên bản của trang đó như thể tài nguyên đó không tồn tại, điều này có thể ảnh hưởng đến việc lập chỉ mục.
Bạn không thể sử dụng robots.txt để chặn hoàn toàn một trang web xuất hiện trong kết quả tìm kiếm của Google.
Để đạt được điều đó, bạn phải sử dụng một phương pháp thay thế, chẳng hạn như thêm thẻ meta ngăn lập chỉ mục vào đầu trang.
Những lỗi trong Robots.txt nguy hiểm đến mức nào?
Một sai sót trong robots.txt có thể gây ra những hậu quả không lường trước được, nhưng nó thường không phải là ngày tận thế.
Tin vui là bằng cách sửa tệp robots.txt, bạn có thể khôi phục mọi lỗi một cách nhanh chóng và (thường là) đầy đủ.
Hướng dẫn của Google dành cho các nhà phát triển web nêu điều này về chủ đề lỗi robots.txt:
“Các trình thu thập dữ liệu web nhìn chung rất linh hoạt và thường sẽ không bị ảnh hưởng bởi những lỗi nhỏ trong tệp robots.txt. Nói chung, điều tồi tệ nhất có thể xảy ra là các lệnh không chính xác [hoặc] không được hỗ trợ sẽ bị bỏ qua.
Tuy nhiên, hãy nhớ rằng Google không thể đọc được suy nghĩ khi diễn giải tệp robots.txt; chúng tôi phải diễn giải tệp robots.txt mà chúng tôi đã tìm nạp. Điều đó có nghĩa là nếu bạn biết có vấn đề trong tệp robots.txt của mình thì chúng thường dễ khắc phục.”
8 lỗi thường gặp trong Robots.txt
- Robots.txt không có trong thư mục gốc.
- Sử dụng ký tự đại diện kém.
- Noindex trong Robots.txt.
- Tập lệnh và bảng định kiểu bị chặn.
- Không có URL Sơ đồ trang web.
- Truy cập vào các trang web phát triển.
- Sử dụng URL tuyệt đối.
- Các phần tử không được dùng nữa và không được hỗ trợ.
Nếu trang web của bạn hoạt động bất thường trong kết quả tìm kiếm thì tệp robots.txt của bạn là nơi phù hợp để tìm kiếm mọi lỗi, lỗi cú pháp và quy tắc phản ứng thái quá.
Chúng ta hãy xem xét từng lỗi trên một cách chi tiết hơn và xem cách đảm bảo bạn có tệp robots.txt hợp lệ.
1. Robots.txt không có trong thư mục gốc
Robot tìm kiếm chỉ có thể khám phá tệp nếu nó nằm trong thư mục gốc của bạn.
Đó là lý do tại sao chỉ nên có dấu gạch chéo lên giữa .com (hoặc tên miền tương đương) của trang web và tên tệp ‘robots.txt’ trong URL của tệp robots.txt.
Nếu có thư mục con trong đó thì tệp robots.txt của bạn có thể không hiển thị với robot tìm kiếm và trang web của bạn có thể hoạt động như thể không có tệp robots.txt nào cả.
Để khắc phục sự cố này, hãy di chuyển tệp robots.txt vào thư mục gốc của bạn.
Cần lưu ý rằng điều này sẽ yêu cầu bạn có quyền truy cập root vào máy chủ của mình.
Theo mặc định, một số hệ thống quản lý nội dung sẽ tải tệp lên thư mục con “phương tiện” (hoặc thư mục tương tự), vì vậy, bạn có thể cần phải tránh điều này để đưa tệp robots.txt của mình vào đúng vị trí.
2. Sử dụng ký tự đại diện kém
Robots.txt hỗ trợ hai ký tự đại diện:
- Dấu hoa thị (*) – đại diện cho mọi trường hợp của một nhân vật hợp lệ, chẳng hạn như Joker trong bộ bài.
- Ký hiệu đô la ($) – biểu thị phần cuối của URL, cho phép bạn chỉ áp dụng các quy tắc cho phần cuối cùng của URL, chẳng hạn như phần mở rộng kiểu tệp.
Việc áp dụng cách tiếp cận tối giản để sử dụng ký tự đại diện là điều hợp lý vì chúng có khả năng áp dụng các hạn chế cho phần rộng hơn nhiều trên trang web của bạn.
Việc chặn quyền truy cập của robot từ toàn bộ trang web của bạn bằng dấu hoa thị được đặt sai vị trí cũng tương đối dễ dàng.
Kiểm tra các quy tắc ký tự đại diện của bạn bằng công cụ kiểm tra robots.txt để đảm bảo chúng hoạt động như mong đợi. Hãy thận trọng với việc sử dụng ký tự đại diện để tránh vô tình chặn hoặc cho phép quá nhiều.
3. Noindex trong Robots.txt
Điều này phổ biến hơn trên các trang web đã hơn một vài năm tuổi.
Google đã ngừng tuân theo các quy tắc noindex trong tệp robots.txt kể từ ngày 1 tháng 9 năm 2019.
Nếu tệp robots.txt của bạn được tạo trước ngày đó hoặc chứa hướng dẫn noindex, bạn có thể sẽ thấy các trang đó được lập chỉ mục trong kết quả tìm kiếm của Google.
Giải pháp cho vấn đề này là triển khai một phương pháp “noindex” thay thế.
Một tùy chọn là thẻ meta robot, bạn có thể thêm thẻ này vào phần đầu của bất kỳ trang web nào bạn muốn ngăn Google lập chỉ mục.
4. Tập lệnh và bảng định kiểu bị chặn
Có vẻ hợp lý khi chặn quyền truy cập của trình thu thập thông tin vào các JavaScript bên ngoài và biểu định kiểu xếp tầng (CSS).
Tuy nhiên, hãy nhớ rằng Googlebot cần quyền truy cập vào các tệp CSS và JS để “xem” các trang HTML và PHP của bạn một cách chính xác.
Nếu các trang của bạn hoạt động bất thường trong kết quả của Google hoặc có vẻ như Google không nhìn thấy chúng một cách chính xác, hãy kiểm tra xem bạn có đang chặn quyền truy cập của trình thu thập thông tin vào các tệp bên ngoài được yêu cầu hay không.
Một giải pháp đơn giản cho vấn đề này là xóa dòng khỏi tệp robots.txt đang chặn quyền truy cập.
Hoặc, nếu bạn có một số tệp cần chặn, hãy chèn một ngoại lệ để khôi phục quyền truy cập vào CSS và JavaScript cần thiết.
5. Không có URL Sơ đồ trang web XML
Đây là về SEO nhiều hơn bất cứ điều gì khác.
Bạn có thể đưa URL của sơ đồ trang web XML vào tệp robots.txt của mình.
Bởi vì đây là nơi đầu tiên Googlebot nhìn vào khi thu thập dữ liệu trang web của bạn, điều này giúp trình thu thập thông tin có khởi đầu thuận lợi trong việc biết cấu trúc và các trang chính trên trang web của bạn.
Mặc dù đây không hẳn là một lỗi – vì việc bỏ qua sơ đồ trang web sẽ không ảnh hưởng tiêu cực đến chức năng cốt lõi thực tế và sự xuất hiện của trang web của bạn trong kết quả tìm kiếm – bạn vẫn nên thêm URL sơ đồ trang web của mình vào robots.txt nếu bạn muốn nỗ lực SEO của mình tăng.
6. Truy cập vào các trang web phát triển
Chặn trình thu thập thông tin khỏi trang web trực tiếp của bạn là điều không nên, nhưng việc cho phép chúng thu thập dữ liệu và lập chỉ mục các trang vẫn đang được phát triển của bạn cũng vậy.
Cách tốt nhất là thêm hướng dẫn không cho phép vào tệp robots.txt của trang web đang được xây dựng để công chúng không nhìn thấy nó cho đến khi nó hoàn tất.
Tương tự, điều quan trọng là phải xóa hướng dẫn không cho phép khi bạn khởi chạy một trang web hoàn chỉnh.
Quên xóa dòng này khỏi robots.txt là một trong những lỗi phổ biến nhất của các nhà phát triển web; nó có thể ngăn toàn bộ trang web của bạn được thu thập thông tin và lập chỉ mục chính xác.
Nếu trang web phát triển của bạn dường như đang nhận được lưu lượng truy cập trong thế giới thực hoặc trang web mới ra mắt gần đây của bạn không hoạt động tốt trong tìm kiếm, hãy tìm quy tắc không cho phép tác nhân người dùng phổ quát trong tệp robots.txt của bạn: Nếu bạn thấy điều này khi bạn nên ‘ t (hoặc không nhìn thấy nó khi bạn cần), thực hiện các thay đổi cần thiết đối với tệp robots.txt của bạn và kiểm tra xem giao diện tìm kiếm trên trang web của bạn có cập nhật tương ứng hay không.
User-Agent: *
Disallow: /
7. Sử dụng URL tuyệt đối
Mặc dù sử dụng URL tuyệt đối trong những thứ như chuẩn và hreflang là cách tốt nhất, nhưng đối với URL trong robots.txt, điều ngược lại là đúng.
Sử dụng đường dẫn tương đối trong tệp robots.txt là phương pháp được đề xuất để chỉ ra những phần nào của trang web không được phép truy cập bởi trình thu thập dữ liệu.
Điều này được trình bày chi tiết trong tài liệu robots.txt của Google, trong đó nêu rõ:
Một thư mục hoặc trang, liên quan đến miền gốc, có thể được thu thập thông tin bởi tác nhân người dùng vừa đề cập.
Khi bạn sử dụng URL tuyệt đối, không có gì đảm bảo rằng trình thu thập thông tin sẽ diễn giải URL đó như dự định và quy tắc không cho phép/cho phép sẽ được tuân thủ.
8. Các phần tử không được dùng nữa và không được hỗ trợ
Mặc dù nguyên tắc dành cho tệp robots.txt không thay đổi nhiều trong những năm qua nhưng hai yếu tố thường được đưa vào là:
- Trì hoãn thu thập thông tin.
- Không lập chỉ mục.
Mặc dù Bing hỗ trợ độ trễ thu thập dữ liệu, nhưng Google thì không, nhưng nó thường được quản trị viên web chỉ định. Trước đây, bạn có thể đặt cài đặt thu thập thông tin trong Google Search Console nhưng cài đặt này đã bị xóa vào cuối năm 2023 .
Google đã thông báo rằng họ sẽ ngừng hỗ trợ lệnh noindex trong tệp robots.txt vào tháng 7 năm 2019. Trước ngày này, quản trị viên web có thể sử dụng lệnh noindex trong tệp robots.txt của họ.
Đây không phải là phương pháp được tiêu chuẩn hóa hoặc hỗ trợ rộng rãi và phương pháp noindex ưa thích là sử dụng rô-bốt trên trang hoặc các biện pháp x-robot ở cấp độ trang.
Cách khôi phục sau lỗi Robots.txt
Nếu một lỗi trong robots.txt gây ra những ảnh hưởng không mong muốn đến giao diện tìm kiếm trên trang web của bạn thì bước đầu tiên là sửa robots.txt và xác minh rằng các quy tắc mới có tác dụng như mong muốn.
Một số công cụ thu thập thông tin SEO có thể giúp bạn không phải đợi công cụ tìm kiếm thu thập dữ liệu trang web của bạn tiếp theo.
Khi bạn tin tưởng rằng robots.txt đang hoạt động như mong muốn, bạn có thể thử thu thập lại dữ liệu trang web của mình càng sớm càng tốt.
Các nền tảng như Google Search Console và Bing Webmaster Tools có thể trợ giúp.
Gửi sơ đồ trang web được cập nhật và yêu cầu thu thập dữ liệu lại bất kỳ trang nào đã bị xóa một cách không thích hợp.
Thật không may, bạn đang tùy ý sử dụng Googlebot – không có gì đảm bảo về việc mất bao lâu để bất kỳ trang bị thiếu nào xuất hiện lại trong chỉ mục tìm kiếm của Google.
Tất cả những gì bạn có thể làm là thực hiện hành động chính xác để giảm thiểu thời gian đó nhiều nhất có thể và tiếp tục kiểm tra cho đến khi Googlebot triển khai robots.txt đã sửa.
Kết luận
Khi liên quan đến lỗi robots.txt, phòng bệnh luôn tốt hơn chữa bệnh.
Trên một trang web tạo doanh thu lớn, ký tự đại diện sai sẽ xóa toàn bộ trang web của bạn khỏi Google có thể tác động ngay lập tức đến thu nhập. Các chỉnh sửa đối với robots.txt phải được thực hiện cẩn thận bởi các nhà phát triển có kinh nghiệm, được kiểm tra kỹ và – nếu thích hợp – phải tuân theo ý kiến thứ hai.
Nếu có thể, hãy kiểm tra trong trình chỉnh sửa hộp cát trước khi phát trực tiếp trên máy chủ trong thế giới thực của bạn để tránh vô tình tạo ra các vấn đề về tính khả dụng.
Hãy nhớ rằng, khi điều tồi tệ nhất xảy ra, điều quan trọng là đừng hoảng sợ. Chẩn đoán sự cố, thực hiện các sửa chữa cần thiết cho robots.txt và gửi lại sơ đồ trang web của bạn để thu thập dữ liệu mới.