Το σωστό robots.txt

Το αρχείο robots.txt — αυτό είναι το κύριο αρχείο που περιγράφει τους κανόνες επεξεργασίας σελίδες αναζήτησης ρομπότ. Αυτό το αρχείο χρειάζεται για να καθορίσετε το κύριο όνομα της ιστοσελίδας, χάρτες τοποθεσίας (sitemap.xml), ανοικτά και κλειστά τμήματα της ιστοσελίδας.
Το αρχείο robots.txt περιλαμβάνει τις ακόλουθες κατευθυντήριες γραμμές:

  • User-agent — οδηγία δείχνει για ποιο ρομπότ ακόλουθοι κανόνες
    • * - όλα τα ρομπότ
    • Yandex — κύρια ρομπότ Yandex
    • Googlebot — κύρια ρομπότ της Google
    • StackRambler — crawler Рамблер
    • Aport — crawler Апорт
    • Slurp — ρομπότ Yahoo
    • MSNBot — ρομπότ MSN
  • Απαγόρευση — οδηγία απαγόρευσης μέρος της ιστοσελίδας
  • Allow — οδηγία για τα δικαιώματα μέρος της ιστοσελίδας
  • Host — οδηγία οδηγίες κύριο όνομα ιστοσελίδας
  • Sitemap— οδηγία οδηγίες του χάρτη της ιστοσελίδας (sitemap.xml)
  • Crawl-delay — οδηγία δείχνει πόσα δευτερόλεπτα ρομπότ μπορεί να περιμένει μια απάντηση από το site σας (απαιτείται σε ιδιαίτερα φορτωμένο πόρους, για να το ρομπότ δεν υπολόγισα το site σας μη διαθέσιμο)
  • Clean-param — οδηγία περιγράφει δυναμικές παράμετροι δεν επηρεάζουν το περιεχόμενο της ιστοσελίδας

Помимо директив в robots.txt используются спец символы:

  • * - любай (συμπεριλαμβανομένων και κενή) ακολουθία χαρακτήρων
  • $ — είναι το όριο κανόνες

Για τη σύνταξη robots.txt χρησιμοποιούνται τα παραπάνω οδηγία και спет χαρακτήρες σύμφωνα με την ακόλουθη αρχή:

  • Αναφέρει το όνομα του ρομπότ για τον οποίο γράφεται η λίστα κανόνων
    (User-agent: * κανόνας για όλα τα ρομπότ)
  • Γράφεται λίστα απαγορευμένων τμήματα του site για το συγκεκριμένο ρομπότ
    ( Απαγόρευση: / - απαγόρευση ευρετηρίαση ιστοσελίδα της)
  • Γράφεται λίστα επιτρεπόμενων ενότητες του site
    (Allow: /home/ — επιτρέπεται το τμήμα home)
  • Αναφέρει το όνομα του site
    (Host: crazysquirrel.ru — κύριο όνομα ιστοσελίδας crazysquirrel.ru)
  • Δείχνει απόλυτη διαδρομή προς το αρχείο sitemap.xml
    (Sitemap: https:// crazysquirrel.ru/sitemap.xml)

Εάν στην περιοχή δεν υπάρχει απαγορευμένων τμήματα, robots.txt πρέπει να αποτελείται τουλάχιστον από 4 γραμμές:

User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml

Ελέγξτε robots.txt και πώς έχει επιπτώσεις για την ευρετηρίαση της ιστοσελίδας με τη χρήση εργαλείων Yandex

Να δούμε και να αφήσει σχόλια