วิธีเปิดใช้งานการจัดทำดัชนีใน robots txt ยิ่งมีการจัดทำดัชนีหน้าเว็บน้อยลง ปริมาณการเข้าชมก็จะยิ่งมากขึ้น

ส่วนของเว็บไซต์

ตัวเลือกของบรรณาธิการ:

การโฆษณา

โรบ็อตส่วนใหญ่ได้รับการออกแบบมาอย่างดีและไม่ก่อให้เกิดปัญหาใดๆ กับเจ้าของเว็บไซต์ แต่ถ้าบอทเขียนโดยมือสมัครเล่นหรือ "มีบางอย่างผิดพลาด" ก็สามารถสร้างภาระที่สำคัญบนไซต์ที่รวบรวมข้อมูลได้ อย่างไรก็ตาม สไปเดอร์ไม่ได้เข้าสู่เซิร์ฟเวอร์เหมือนไวรัสเลย - พวกมันเพียงแค่ขอเพจที่ต้องการจากระยะไกล (อันที่จริงสิ่งเหล่านี้คือเบราว์เซอร์ที่คล้ายคลึงกัน แต่ไม่มีฟังก์ชันการดูเพจ)

Robots.txt - คำสั่งตัวแทนผู้ใช้และบอทเครื่องมือค้นหา

Robots.txt มีไวยากรณ์ที่เรียบง่าย ซึ่งมีการอธิบายอย่างละเอียด เช่น ใน ยานเดกซ์ช่วยด้วยและ Google ช่วยด้วย- โดยปกติจะบ่งชี้ว่าคำสั่งต่อไปนี้มีไว้สำหรับบอทการค้นหาใด: ชื่อบอท (" ผู้ใช้ตัวแทน") อนุญาต (" อนุญาต") และห้าม (" ไม่อนุญาต") และ "แผนผังไซต์" ยังถูกใช้อย่างแข็งขันเพื่อระบุให้เครื่องมือค้นหาทราบอย่างชัดเจนว่าไฟล์แผนที่นั้นอยู่ที่ใด

มาตรฐานนี้ถูกสร้างขึ้นเมื่อนานมาแล้วและมีบางอย่างถูกเพิ่มเข้ามาในภายหลัง มีคำสั่งและกฎการออกแบบที่โรบ็อตของเครื่องมือค้นหาบางประเภทเท่านั้นที่จะเข้าใจได้ ใน RuNet มีเพียง Yandex และ Google เท่านั้นที่สนใจซึ่งหมายความว่าคุณควรทำความคุ้นเคยกับความช่วยเหลือในการรวบรวม robots.txt ในรายละเอียดโดยเฉพาะ (ฉันได้ให้ลิงก์ไว้ในย่อหน้าก่อนหน้า)

ตัวอย่างเช่น ก่อนหน้านี้เครื่องมือค้นหา Yandex มีประโยชน์ในการระบุว่าโครงการเว็บของคุณเป็นโครงการหลักในคำสั่ง "โฮสต์" พิเศษซึ่งมีเพียงเครื่องมือค้นหานี้เท่านั้นที่เข้าใจ (รวมถึง Mail.ru ด้วยเนื่องจากการค้นหาของพวกเขามาจาก Yandex ). จริงอยู่ที่ต้นปี 2561 ยานเดกซ์ยังคงยกเลิกโฮสต์และตอนนี้ฟังก์ชันต่างๆ ของมันก็เหมือนกับเครื่องมือค้นหาอื่นๆ ที่ดำเนินการโดยการเปลี่ยนเส้นทาง 301

แม้ว่าทรัพยากรของคุณจะไม่มีมิเรอร์ แต่ก็มีประโยชน์ในการระบุว่าตัวเลือกการสะกดคำใดเป็นตัวเลือกหลัก - .

ตอนนี้เรามาพูดถึงไวยากรณ์ของไฟล์นี้กันสักหน่อย คำสั่งใน robots.txt มีลักษณะดังนี้:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

รหัสที่ถูกต้องควรมี คำสั่ง "ไม่อนุญาต" อย่างน้อยหนึ่งคำสั่งหลังแต่ละรายการ “User-agent” ไฟล์ว่างจะถือว่าได้รับอนุญาตให้จัดทำดัชนีทั้งไซต์

ผู้ใช้ตัวแทน

คำสั่ง "ตัวแทนผู้ใช้"ต้องมีชื่อของบอทการค้นหา คุณสามารถกำหนดค่ากฎพฤติกรรมสำหรับเครื่องมือค้นหาแต่ละอันได้ (เช่น สร้างการห้ามการสร้างดัชนีโฟลเดอร์แยกต่างหากสำหรับ Yandex เท่านั้น) ตัวอย่างการเขียน “User-agent” ที่ส่งถึงบอททั้งหมดที่เยี่ยมชมทรัพยากรของคุณมีลักษณะดังนี้:

ตัวแทนผู้ใช้: *

หากคุณต้องการตั้งค่าเงื่อนไขบางอย่างใน "User-agent" สำหรับบอทตัวเดียวเท่านั้น เช่น Yandex คุณจะต้องเขียนสิ่งนี้:

ตัวแทนผู้ใช้: Yandex

ชื่อของโรบ็อตเครื่องมือค้นหาและบทบาทในไฟล์ robots.txt

บอทของทุกเครื่องมือค้นหามีชื่อเป็นของตัวเอง (เช่น StackRambler สำหรับนักเดินเตร่) ที่นี่ฉันจะให้รายชื่อผู้ที่มีชื่อเสียงที่สุด:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

เครื่องมือค้นหาสำคัญๆ ในบางครั้ง ยกเว้นบอทหลักนอกจากนี้ยังมีอินสแตนซ์แยกต่างหากสำหรับการจัดทำดัชนีบล็อก ข่าวสาร รูปภาพ ฯลฯ คุณสามารถรับข้อมูลมากมายเกี่ยวกับประเภทของบอท (สำหรับ Yandex) และ (สำหรับ Google)

จะทำอย่างไรในกรณีนี้? หากคุณต้องการเขียนกฎสำหรับการห้ามการจัดทำดัชนีซึ่งโรบ็อตของ Google ทุกประเภทต้องปฏิบัติตาม จากนั้นใช้ชื่อ Googlebot และสไปเดอร์อื่น ๆ ทั้งหมดของเครื่องมือค้นหานี้ก็จะต้องปฏิบัติตามเช่นกัน อย่างไรก็ตาม คุณสามารถแบนได้เฉพาะการจัดทำดัชนีรูปภาพโดยระบุบ็อต Googlebot-Image เป็น User-agent ตอนนี้ยังไม่ชัดเจนนัก แต่ด้วยตัวอย่าง ฉันคิดว่ามันจะง่ายกว่านี้

ตัวอย่างการใช้คำสั่ง Disallow และ Allow ใน robots.txt

ฉันจะให้สิ่งง่ายๆสองสามข้อแก่คุณ ตัวอย่างการใช้คำสั่งพร้อมคำอธิบายถึงการกระทำของเขา

โค้ดด้านล่างอนุญาตให้บอททั้งหมด (ระบุด้วยเครื่องหมายดอกจันใน User-agent) จัดทำดัชนีเนื้อหาทั้งหมดโดยไม่มีข้อยกเว้น สิ่งนี้มอบให้ คำสั่งว่าง Disallow- ตัวแทนผู้ใช้: * ไม่อนุญาต:
ในทางตรงกันข้ามรหัสต่อไปนี้ห้ามมิให้เครื่องมือค้นหาทั้งหมดเพิ่มหน้าของทรัพยากรนี้ลงในดัชนีโดยสิ้นเชิง ตั้งค่านี้เป็น Disallow ด้วย "/" ในช่องค่า
ในกรณีนี้ บอททั้งหมดจะถูกห้ามไม่ให้ดูเนื้อหาของไดเร็กทอรี /image/ (http://mysite.ru/image/ เป็นพาธสัมบูรณ์ไปยังไดเร็กทอรีนี้) User-agent: * Disallow: /image/
หากต้องการบล็อกไฟล์เดียว ก็เพียงพอที่จะลงทะเบียนเส้นทางที่แน่นอนของมัน (อ่าน): User-agent: * Disallow: /katalog1//katalog2/private_file.html
เมื่อมองไปข้างหน้าฉันจะบอกว่าการใช้เครื่องหมายดอกจัน (*) ง่ายกว่าเพื่อไม่ให้เขียนเส้นทางแบบเต็ม:
ไม่อนุญาต: /*private_file.html
ในตัวอย่างด้านล่าง ไดเร็กทอรี "image" จะไม่ได้รับอนุญาต เช่นเดียวกับไฟล์และไดเร็กทอรีทั้งหมดที่ขึ้นต้นด้วยอักขระ "image" เช่น ไฟล์: "image.htm", "images.htm", ไดเร็กทอรี: "image", “ images1", "image34" ฯลฯ): User-agent: * Disallow: /image ความจริงก็คือตามค่าเริ่มต้นที่ส่วนท้ายของรายการจะมีเครื่องหมายดอกจันซึ่งจะแทนที่อักขระใด ๆ รวมถึงการขาดหายไปด้วย อ่านเกี่ยวกับเรื่องนี้ด้านล่าง
โดยการใช้ อนุญาตคำสั่งเราอนุญาตให้เข้าถึงได้ เติมเต็ม ไม่อนุญาต อย่างดี ตัวอย่างเช่น ด้วยเงื่อนไขนี้ เราห้ามมิให้หุ่นยนต์ค้นหา Yandex ดาวน์โหลด (จัดทำดัชนี) ทุกอย่าง ยกเว้นหน้าเว็บที่ที่อยู่ขึ้นต้นด้วย /cgi-bin: User-agent: Yandex Allow: /cgi-bin Disallow: /
หรือตัวอย่างที่ชัดเจนของการใช้ชุดค่าผสม Allow และ Disallow:
ตัวแทนผู้ใช้: * Disallow: /catalog Allow: /catalog/auto
เมื่ออธิบายเส้นทางสำหรับคำสั่ง Allow-Disallow คุณสามารถใช้สัญลักษณ์ได้ "*" และ "$"ดังนั้นการกำหนดนิพจน์เชิงตรรกะบางอย่าง
1. เครื่องหมาย "*"(ดาว)หมายถึงลำดับอักขระใดๆ (รวมถึงว่างด้วย) ตัวอย่างต่อไปนี้ห้ามไม่ให้เครื่องมือค้นหาทั้งหมดจัดทำดัชนีไฟล์ที่มีนามสกุล “.php”: User-agent: * Disallow: *.php$
2. เหตุใดจึงต้องมีในตอนท้าย? เครื่องหมาย $- ความจริงก็คือตามตรรกะของการรวบรวมไฟล์ robots.txt เครื่องหมายดอกจันเริ่มต้นจะถูกเพิ่มที่ส่วนท้ายของแต่ละคำสั่ง (ไม่มีอยู่ แต่ดูเหมือนว่าจะอยู่ที่นั่น) ตัวอย่างเช่น เราเขียน: Disallow: /images
  หมายความว่านี่เป็นเช่นเดียวกับ:
  ไม่อนุญาต: /images*
  เหล่านั้น. กฎนี้ห้ามมิให้สร้างดัชนีของไฟล์ทั้งหมด (หน้าเว็บ รูปภาพ และไฟล์ประเภทอื่นๆ) ที่มีที่อยู่ขึ้นต้นด้วย /images แล้วตามด้วยสิ่งใดก็ตาม (ดูตัวอย่างด้านบน) ดังนั้น, สัญลักษณ์ $มันจะยกเลิกเครื่องหมายดอกจันเริ่มต้นในตอนท้าย ตัวอย่างเช่น:
  ไม่อนุญาต: /images$
  ป้องกันการจัดทำดัชนีของไฟล์ /images เท่านั้น แต่ไม่ใช่ /images.html หรือ /images/primer.html ในตัวอย่างแรก เราห้ามไม่ให้สร้างดัชนีเฉพาะไฟล์ที่ลงท้ายด้วย .php (มีนามสกุลดังกล่าว) เพื่อไม่ให้จับสิ่งที่ไม่จำเป็น:
  ไม่อนุญาต: *.php$

ในเอ็นจิ้นจำนวนมาก ผู้ใช้ (URL ที่มนุษย์สามารถอ่านได้) ในขณะที่ URL ที่สร้างโดยระบบจะมีเครื่องหมายคำถาม "?" ในที่อยู่ คุณสามารถใช้ประโยชน์จากสิ่งนี้และเขียนกฎต่อไปนี้ใน robots.txt: User-agent: * Disallow: /*?

เครื่องหมายดอกจันหลังเครื่องหมายคำถามบ่งบอกถึงตัวมันเอง แต่อย่างที่เราพบข้างต้น มันถูกบอกเป็นนัยแล้วในตอนท้าย ดังนั้น เราจะห้ามการจัดทำดัชนีหน้าการค้นหาและหน้าบริการอื่น ๆ ที่สร้างโดยเครื่องมือค้นหา ซึ่งโรบ็อตการค้นหาสามารถเข้าถึงได้ มันจะไม่ฟุ่มเฟือย เนื่องจาก CMS มักใช้เครื่องหมายคำถามเป็นตัวระบุเซสชัน ซึ่งอาจนำไปสู่การรวมหน้าที่ซ้ำกันในดัชนี

คำสั่งแผนผังเว็บไซต์และโฮสต์ (สำหรับ Yandex) ใน Robots.txt

เพื่อหลีกเลี่ยงปัญหาอันไม่พึงประสงค์กับมิเรอร์ไซต์ ก่อนหน้านี้แนะนำให้เพิ่มคำสั่งโฮสต์ให้กับ robots.txt ซึ่งชี้บอท Yandex ไปที่มิเรอร์หลัก

คำสั่งโฮสต์ - ระบุมิเรอร์หลักของไซต์สำหรับยานเดกซ์

ตัวอย่างเช่นก่อนหน้านี้หากคุณ ยังไม่ได้เปลี่ยนไปใช้โปรโตคอลที่ปลอดภัยจำเป็นต้องระบุใน Host ไม่ใช่ URL แบบเต็ม แต่เป็นชื่อโดเมน (ไม่มี http:// เช่น .. ru) หากคุณเปลี่ยนมาใช้ https แล้ว คุณจะต้องระบุ URL แบบเต็ม (เช่น https://myhost.ru)

เครื่องมือที่ยอดเยี่ยมสำหรับการต่อสู้กับเนื้อหาที่ซ้ำกัน - เสิร์ชเอ็นจิ้นจะไม่จัดทำดัชนีเพจหากมีการลงทะเบียน URL อื่นใน Canonical ตัวอย่างเช่น สำหรับหน้าดังกล่าวในบล็อกของฉัน (หน้าที่มีการแบ่งหน้า) Canonical ชี้ไปที่ https://site และไม่น่าจะมีปัญหากับชื่อที่ซ้ำกัน

แต่ฉันพูดนอกเรื่อง...
หากโครงการของคุณถูกสร้างขึ้นบนพื้นฐานของกลไกใดๆ ก็ตาม เนื้อหาที่ซ้ำกันจะเกิดขึ้นมีความเป็นไปได้สูงซึ่งหมายความว่าคุณต้องต่อสู้กับมัน รวมถึงความช่วยเหลือจากการแบนใน robots.txt และโดยเฉพาะอย่างยิ่งในเมตาแท็ก เพราะในกรณีแรก Google อาจเพิกเฉยต่อการแบน แต่จะทำไม่ได้อีกต่อไป เพื่อให้คำด่าเกี่ยวกับเมตาแท็ก ( นำขึ้นมาแบบนั้น)
ตัวอย่างเช่น ใน WordPress หน้าที่มีเนื้อหาคล้ายกันมากสามารถจัดทำดัชนีโดยเครื่องมือค้นหา หากอนุญาตให้จัดทำดัชนีทั้งเนื้อหาหมวดหมู่ เนื้อหาที่เก็บแท็ก และเนื้อหาที่เก็บถาวรชั่วคราว แต่หากใช้เมตาแท็ก Robots ที่อธิบายไว้ข้างต้น คุณสร้างการห้ามการเก็บถาวรแท็กและการเก็บถาวรชั่วคราว (คุณสามารถทิ้งแท็กไว้และห้ามไม่ให้มีการจัดทำดัชนีเนื้อหาของหมวดหมู่) เนื้อหาที่ซ้ำกันจะไม่เกิดขึ้น วิธีการทำเช่นนี้อธิบายไว้ในลิงก์ที่ให้ไว้ด้านบน (ไปยังปลั๊กอิน OlInSeoPak)
โดยสรุป ฉันจะบอกว่าไฟล์ Robots มีไว้สำหรับการตั้งค่ากฎสากลสำหรับการปฏิเสธการเข้าถึงไดเร็กทอรีทั้งหมดของไซต์หรือไฟล์และโฟลเดอร์ที่ชื่อมีอักขระที่ระบุ (โดยมาสก์) คุณสามารถดูตัวอย่างการตั้งค่าข้อห้ามดังกล่าวได้ที่ด้านบน
ตอนนี้เรามาดูตัวอย่างเฉพาะของโรบอตที่ออกแบบมาสำหรับเอ็นจิ้นต่างๆ - Joomla, WordPress และ SMF โดยปกติแล้วทั้งสามตัวเลือกที่สร้างขึ้นสำหรับ CMS ที่แตกต่างกันจะมีความแตกต่างกันอย่างมาก (หากไม่รุนแรง) จริงอยู่พวกเขาทั้งหมดจะมีสิ่งหนึ่งที่เหมือนกันและช่วงเวลานี้เชื่อมต่อกับเครื่องมือค้นหา Yandex
เพราะ ใน RuNet Yandex มีน้ำหนักค่อนข้างมากจากนั้นเราต้องคำนึงถึงความแตกต่างของงานทั้งหมดและที่นี่เรา คำสั่งโฮสต์จะช่วยได้- มันจะระบุให้เครื่องมือค้นหานี้ทราบถึงมิเรอร์หลักของไซต์ของคุณอย่างชัดเจน
สำหรับสิ่งนี้ ขอแนะนำให้ใช้บล็อก User-agent แยกต่างหาก ซึ่งมีไว้สำหรับ Yandex เท่านั้น (User-agent: Yandex) เนื่องจากเครื่องมือค้นหาอื่นๆ อาจไม่เข้าใจโฮสต์ ดังนั้นการรวมไว้ในบันทึก User-agent ที่มีไว้สำหรับเครื่องมือค้นหาทั้งหมด (User-agent: *) อาจนำไปสู่ผลลัพธ์เชิงลบและการจัดทำดัชนีที่ไม่ถูกต้อง
เป็นการยากที่จะบอกว่าสถานการณ์จริงๆ เป็นอย่างไร เนื่องจากอัลกอริธึมการค้นหาเป็นสิ่งที่อยู่ในตัวมันเอง ดังนั้นจึงควรทำตามคำแนะนำจะดีกว่า แต่ในกรณีนี้ เราจะต้องทำซ้ำในคำสั่ง User-agent: Yandex กฎทั้งหมดที่เราตั้ง User-agent: * หากคุณปล่อยให้ User-agent: Yandex ว่างเปล่า Disallow: ด้วยวิธีนี้คุณจะอนุญาตให้ Yandex ไปที่ใดก็ได้และลากทุกอย่างลงในดัชนี
หุ่นยนต์สำหรับ WordPress
ฉันจะไม่ยกตัวอย่างไฟล์ที่นักพัฒนาแนะนำ คุณสามารถดูได้ด้วยตัวเอง บล็อกเกอร์จำนวนมากไม่ได้จำกัดบอท Yandex และ Google เลยในการเดินผ่านเนื้อหาของเอ็นจิ้น WordPress บ่อยที่สุดในบล็อกคุณจะพบโรบ็อตที่เต็มไปด้วยปลั๊กอินโดยอัตโนมัติ
แต่ในความคิดของฉัน เรายังควรช่วยค้นหาในงานที่ยากลำบากในการร่อนข้าวสาลีออกจากแกลบ ประการแรก Yandex และ Google bot จะต้องใช้เวลามากในการจัดทำดัชนีขยะนี้ และอาจไม่มีเวลาเหลือในการเพิ่มหน้าเว็บที่มีบทความใหม่ของคุณลงในดัชนี ประการที่สอง บอทที่คลานผ่านไฟล์กลไกขยะจะสร้างภาระเพิ่มเติมบนเซิร์ฟเวอร์ของโฮสต์ของคุณ ซึ่งไม่ดี
คุณสามารถดูไฟล์เวอร์ชันของฉันได้ด้วยตัวเอง เก่าแล้วไม่เปลี่ยนมานานแล้วแต่ผมพยายามยึดหลัก “อย่าซ่อม ของที่เสีย” อยู่ที่คุณจะตัดสินใจ จะใช้ ทำเอง หรือขโมยจาก คนอื่น ฉันยังถูกห้ามในการจัดทำดัชนีหน้าเว็บที่มีการแบ่งหน้าจนกระทั่งเมื่อไม่นานมานี้ (Disallow: */page/) แต่เมื่อเร็ว ๆ นี้ฉันได้ลบมันออก โดยอาศัย Canonical ซึ่งฉันเขียนไว้ข้างต้น
โดยทั่วไปแล้ว ไฟล์ที่ถูกต้องเท่านั้นสำหรับ WordPress อาจไม่มีอยู่จริง แน่นอนคุณสามารถใช้ข้อกำหนดเบื้องต้นใด ๆ ในนั้นได้ แต่ใครบอกว่าสิ่งเหล่านั้นจะถูกต้อง มีตัวเลือกมากมายสำหรับ robots.txt ในอุดมคติบนอินเทอร์เน็ต
ฉันจะให้สุดขั้วสองประการ:
คุณสามารถค้นหาเมกะไฟล์พร้อมคำอธิบายโดยละเอียด (สัญลักษณ์ # แยกความคิดเห็นที่ควรลบในไฟล์จริงได้ดีกว่า): User-agent: * # กฎทั่วไปสำหรับโรบ็อต ยกเว้น Yandex และ Google # เพราะ สำหรับพวกเขากฎอยู่ด้านล่าง Disallow: /cgi-bin # โฟลเดอร์บนโฮสต์ Disallow: /? # พารามิเตอร์คำขอทั้งหมดบนหน้าหลัก ไม่อนุญาต: /wp- # ไฟล์ WP ทั้งหมด: /wp-json/, /wp-includes, /wp-content/plugins ไม่อนุญาต: /wp/ # หากมีไดเร็กทอรีย่อย /wp/ โดยที่ ติดตั้ง CMS แล้ว ( ถ้าไม่เช่นนั้น # กฎก็สามารถลบได้) Disallow: *?s= # search Disallow: *&s= # search Disallow: /search/ # search Disallow: /author/ # author archive Disallow: /users/ # ที่เก็บถาวรของผู้แต่ง Disallow: */ trackback # trackbacks การแจ้งเตือนในความคิดเห็นเกี่ยวกับการปรากฏตัวของลิงก์ # เปิดไปยังบทความ Disallow: */feed # ฟีดทั้งหมด Disallow: */rss # rss feed Disallow: */embed # all embeddings Disallow : */wlwmanifest.xml # ไฟล์ manifest xml Windows Live Writer (หากคุณไม่ได้ใช้ # กฎสามารถลบได้) Disallow: /xmlrpc.php # ไฟล์ WordPress API Disallow: *utm= # ลิงก์ที่มีแท็ก utm Disallow : *openstat= # ลิงก์ที่มีแท็ก openstat อนุญาต: */uploads # เปิดโฟลเดอร์พร้อมไฟล์ที่อัปโหลด User-agent: GoogleBot # กฎสำหรับ Google (ฉันไม่ทำซ้ำความคิดเห็น) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # เปิดสคริปต์ js ภายใน /wp - (/*/ - สำหรับลำดับความสำคัญ) อนุญาต: /*/*.css # เปิดไฟล์ css ภายใน /wp- (/*/ - สำหรับลำดับความสำคัญ) อนุญาต: /wp-*.png # รูปภาพในปลั๊กอิน, โฟลเดอร์แคชและอื่น ๆ อนุญาต: /wp-*.jpg # ภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯ อนุญาต: /wp-*.jpeg # รูปภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯ อนุญาต: /wp-*.gif # รูปภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯ อนุญาต: /wp-admin/admin-ajax.php # ใช้โดยปลั๊กอินเพื่อไม่ให้บล็อก JS และ CSS User-agent: Yandex # กฎสำหรับ Yandex (ฉันไม่ทำซ้ำความคิดเห็น) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php อนุญาต: */uploads อนุญาต: /*/*.js อนุญาต: /*/*.css อนุญาต: /wp-*.png อนุญาต: /wp-*.jpg อนุญาต: /wp-*.jpeg อนุญาต: /wp-*.gif อนุญาต: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex ไม่แนะนำให้บล็อก # จากการจัดทำดัชนี แต่เป็นการลบ พารามิเตอร์แท็ก # Google ไม่รองรับกฎดังกล่าว Clean-Param: openstat # คล้ายกัน # ระบุไฟล์ Sitemap หนึ่งไฟล์ขึ้นไป (ไม่จำเป็นต้องทำซ้ำสำหรับ User-agent แต่ละรายการ #) แผนผังไซต์ Google XML สร้างแผนผังไซต์ 2 รายการตามตัวอย่างด้านล่าง แผนผังไซต์: http://site.ru/sitemap.xml แผนผังไซต์: http://site.ru/sitemap.xml.gz # ระบุมิเรอร์หลักของไซต์ดังตัวอย่างด้านล่าง (มี WWW / ไม่มี WWW หาก HTTPS # จากนั้นเขียนโปรโตคอล หากคุณต้องการระบุพอร์ต ให้ระบุ) คำสั่ง Host เข้าใจโดย # Yandex และ Mail.RU Google ไม่ได้คำนึงถึงมัน โฮสต์: www.site.ru
แต่คุณสามารถใช้ตัวอย่างแบบเรียบง่ายได้: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Host: https://site.ru Sitemap: https://site. ru/sitemap.xml

ความจริงน่าจะอยู่ตรงกลาง นอกจากนี้ อย่าลืมเพิ่มเมตาแท็ก Robots สำหรับหน้า "พิเศษ" เช่น การใช้ปลั๊กอินที่ยอดเยี่ยม - นอกจากนี้ยังจะช่วยคุณตั้งค่า Canonical ด้วย
แก้ไข robots.txt สำหรับ Joomla
ตัวแทนผู้ใช้: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /ภาษา/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/
โดยหลักการแล้ว เกือบทุกอย่างจะถูกนำมาพิจารณาที่นี่และทำงานได้ดี สิ่งเดียวคือคุณควรเพิ่มกฎ User-agent: Yandex แยกต่างหากเพื่อแทรกคำสั่ง Host ซึ่งกำหนดมิเรอร์หลักสำหรับ Yandex และยังระบุเส้นทางไปยังไฟล์แผนผังไซต์ด้วย
ดังนั้นในรูปแบบสุดท้าย โรบ็อตที่ถูกต้องสำหรับ Joomla ในความคิดของฉันควรมีลักษณะดังนี้:
ตัวแทนผู้ใช้: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /ภาษา/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow : /*% ไม่อนุญาต: /index.php โฮสต์: vash_sait.ru (หรือ www.vash_sait.ru) ตัวแทนผู้ใช้: * อนุญาต: /*.css?*$ อนุญาต: /*.js?*$ อนุญาต: /* .jpg?*$ อนุญาต: /*.png?*$ ไม่อนุญาต: /ผู้ดูแลระบบ/ ไม่อนุญาต: /แคช/ ไม่อนุญาต: /รวม/ ไม่อนุญาต: /การติดตั้ง/ ไม่อนุญาต: /ภาษา/ ไม่อนุญาต: /ไลบรารี/ ไม่อนุญาต: /โมดูล/ ไม่อนุญาต : /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*. pdf Disallow: /*% Disallow: /index.php Sitemap: http://path ไปยังแมปรูปแบบ XML ของคุณ
ใช่ โปรดทราบว่าในตัวเลือกที่สองจะมีคำสั่งอยู่ อนุญาต อนุญาตการจัดทำดัชนีสไตล์ สคริปต์ และรูปภาพ- สิ่งนี้เขียนขึ้นสำหรับ Google โดยเฉพาะ เนื่องจากบางครั้ง Googlebot บ่นว่าโรบอตห้ามสร้างดัชนีไฟล์เหล่านี้ เช่น จากโฟลเดอร์ที่มีธีมที่ใช้ เขายังขู่ว่าจะลดอันดับของเขาด้วยซ้ำ
ดังนั้นเราจึงอนุญาตให้จัดทำดัชนีทั้งหมดนี้ล่วงหน้าโดยใช้ Allow อย่างไรก็ตาม สิ่งเดียวกันนี้เกิดขึ้นในไฟล์ตัวอย่างสำหรับ WordPress

ขอให้โชคดี! พบกันเร็ว ๆ นี้ในหน้าของเว็บไซต์บล็อก
คุณอาจจะสนใจ
โดเมนที่มีและไม่มี www - ประวัติความเป็นมาของพวกเขา การใช้การเปลี่ยนเส้นทาง 301 เพื่อรวมเข้าด้วยกัน
มิเรอร์ หน้าที่ซ้ำกัน และที่อยู่ URL - การตรวจสอบเว็บไซต์ของคุณหรือสิ่งที่อาจเป็นสาเหตุของความล้มเหลวในระหว่างการโปรโมต SEO SEO สำหรับผู้เริ่มต้น: 10 ประเด็นหลักในการตรวจสอบเว็บไซต์เชิงเทคนิค
Bing webmaster - ศูนย์กลางสำหรับเว็บมาสเตอร์จากเครื่องมือค้นหา Bing
Google ผู้ดูแลเว็บ - เครื่องมือคอนโซลการค้นหา (Google ผู้ดูแลเว็บ)
วิธีหลีกเลี่ยงข้อผิดพลาดทั่วไปเมื่อโปรโมตเว็บไซต์
วิธีโปรโมตเว็บไซต์ด้วยตัวเองโดยปรับปรุงการเพิ่มประสิทธิภาพคำหลักภายในและลบเนื้อหาที่ซ้ำกัน
Yandex Webmaster - การจัดทำดัชนี ลิงก์ การเปิดเผยไซต์ การเลือกภูมิภาค การประพันธ์ และการตรวจสอบไวรัสใน Yandex Webmaster

บ่อยครั้งที่จำเป็นต้องปิดไซต์จากการจัดทำดัชนีเช่นในระหว่างการพัฒนาเพื่อไม่ให้ข้อมูลที่ไม่จำเป็นเข้าสู่ดัชนีของเครื่องมือค้นหาหรือด้วยเหตุผลอื่น ในขณะเดียวกันก็มีหลายวิธีที่สามารถทำได้ เราจะดูวิธีทั้งหมดนี้ในบทความนี้

มีสาเหตุหลายประการที่บังคับให้ผู้ดูแลเว็บซ่อนโครงการของตนจากโรบ็อตการค้นหา พวกเขามักจะหันไปใช้ขั้นตอนนี้ในสองกรณี:

1. เมื่อคุณเพิ่งสร้างบล็อกและเปลี่ยนอินเทอร์เฟซ การนำทาง และพารามิเตอร์อื่น ๆ ให้กรอกข้อมูลด้วยสื่อต่างๆ แน่นอนว่าทรัพยากรบนเว็บและเนื้อหาที่อยู่ในนั้นจะไม่เป็นแบบที่คุณต้องการให้เป็นในท้ายที่สุด โดยปกติแล้ว จนกว่าไซต์จะเสร็จสมบูรณ์ ก็สมเหตุสมผลที่จะปิดไซต์จากการจัดทำดัชนีโดย Yandex และ Google เพื่อไม่ให้หน้าขยะเหล่านี้ไปอยู่ในดัชนี
  อย่าคิดว่าหากแหล่งข้อมูลของคุณเพิ่งปรากฏขึ้นและคุณไม่ได้ส่งลิงก์ของเครื่องมือค้นหามาจัดทำดัชนี พวกเขาก็จะไม่สังเกตเห็น นอกจากลิงก์แล้ว โรบ็อตยังคำนึงถึงการเข้าชมของคุณผ่านเบราว์เซอร์ด้วย
2. บางครั้งนักพัฒนาจำเป็นต้องติดตั้งไซต์เวอร์ชันที่สองซึ่งเป็นอะนาล็อกของไซต์หลักที่พวกเขาทดสอบการปรับปรุง เป็นการดีกว่าที่จะปิดเวอร์ชันนี้ด้วยไซต์ที่ซ้ำกันจากการจัดทำดัชนีเพื่อไม่ให้เป็นอันตรายต่อโครงการหลักและไม่ทำให้การค้นหาเข้าใจผิด เครื่องยนต์

วิธีบล็อกการจัดทำดัชนีไซต์มีอะไรบ้าง

แถบเครื่องมือใน.
การเปลี่ยนแปลงไฟล์ robots.txt
ผ่านชื่อ = “หุ่นยนต์”
การเขียนโค้ดในการตั้งค่าเซิร์ฟเวอร์

1. ปิดการจัดทำดัชนีผ่าน WordPress

หากเว็บไซต์สร้างด้วย WordPress นี่คือตัวเลือกของคุณ นี่เป็นวิธีที่ง่ายและรวดเร็วที่สุดในการซ่อนโปรเจ็กต์จากบอท:

ไปที่ "แผงควบคุม"
จากนั้นไปที่ "การตั้งค่า"
จากนั้น - ถึง "การอ่าน"
ค้นหาเมนู "การมองเห็นเครื่องมือค้นหา"
ถัดจากบรรทัด "แนะนำโรบ็อตการค้นหาไม่ให้จัดทำดัชนีไซต์" ให้เลือกช่องทำเครื่องหมาย
บันทึกการเปลี่ยนแปลงของคุณ

ด้วยฟังก์ชันในตัว เอ็นจิ้นจะเปลี่ยน robots.txt โดยอัตโนมัติ ปรับกฎ และปิดการใช้งานการจัดทำดัชนีทรัพยากร

เพียงแค่บันทึกควรสังเกตว่าการตัดสินใจขั้นสุดท้ายว่าจะรวมเว็บไซต์ไว้ในดัชนีหรือไม่นั้นขึ้นอยู่กับเครื่องมือค้นหา และคำเตือนนี้สามารถดูได้ด้านล่าง ตามที่แสดงในทางปฏิบัติ Yandex ไม่มีปัญหา แต่ Google สามารถจัดทำดัชนีเอกสารต่อไปได้

2. ผ่านไฟล์ robots.txt

หากคุณไม่มีโอกาสดำเนินการนี้ใน WordPress หรือมีกลไกไซต์อื่น คุณสามารถลบเว็บไซต์ออกจากเครื่องมือค้นหาได้ด้วยตนเอง นอกจากนี้ยังใช้งานง่ายอีกด้วย สร้างเอกสารข้อความปกติในรูปแบบ txt และเรียกมันว่าโรบอต

จากนั้นวางลงในโฟลเดอร์รูทของพอร์ทัลของคุณเพื่อให้สามารถเปิดไฟล์ในพาธนี้ได้ site.ru/robots.txt

แต่ตอนนี้คุณว่างเปล่าแล้ว ดังนั้นคุณจะต้องเขียนคำสั่งที่เหมาะสมลงไปซึ่งจะช่วยให้คุณสามารถบล็อกไซต์จากการจัดทำดัชนีทั้งหมดหรือเฉพาะองค์ประกอบบางส่วนเท่านั้น พิจารณาตัวเลือกทั้งหมดที่อาจเป็นประโยชน์กับคุณ

ปิดเว็บไซต์ให้สมบูรณ์จากเครื่องมือค้นหาทั้งหมด

ระบุคำสั่งต่อไปนี้ใน robots.txt:

ตัวแทนผู้ใช้: * Disallow: /

วิธีนี้จะป้องกันไม่ให้บอทของเครื่องมือค้นหาทั้งหมดประมวลผลและเข้าสู่ฐานข้อมูลข้อมูลทั้งหมดที่อยู่ในทรัพยากรบนเว็บของคุณ คุณสามารถตรวจสอบเอกสาร robots.txt ดังที่เราได้กล่าวไปแล้ว โดยป้อนลงในแถบที่อยู่ของเบราว์เซอร์ของคุณ: Your_domain_name.ru/robots.txt- หากคุณทำทุกอย่างถูกต้อง คุณจะเห็นทุกสิ่งที่คุณระบุในไฟล์ แต่หากเมื่อคุณไปยังที่อยู่ที่ระบุ คุณได้รับข้อผิดพลาด 404 เป็นไปได้มากว่าคุณส่งไฟล์ไปผิดที่

แยกโฟลเดอร์

ตัวแทนผู้ใช้: * Disallow: /folder/

วิธีนี้จะซ่อนไฟล์ทั้งหมดที่อยู่ในโฟลเดอร์ที่ระบุ

เฉพาะใน Yandex

ตัวแทนผู้ใช้: Yandex Disallow: /

หากต้องการตรวจสอบอีกครั้งว่าคุณสามารถลบบล็อกของคุณออกจาก Yandex ได้หรือไม่ ให้เพิ่มลงใน Yandex.Webmaster จากนั้นไปที่ส่วนที่เหมาะสมที่ https://webmaster.yandex.ru/tools/robotstxt/ ในช่องตรวจสอบ URL ให้แทรกลิงก์หลายรายการไปยังเอกสารทรัพยากรแล้วคลิก "ตรวจสอบ" หากพวกมันถูกซ่อนจากบอท ผลลัพธ์จะแสดงข้อความ “ห้ามตามกฎ /*?*” ถัดจากพวกมัน

สำหรับ Google เท่านั้น

User-agent: Googlebot ไม่อนุญาต: /

คุณสามารถตรวจสอบว่าการแบนสำเร็จหรือไม่ในลักษณะเดียวกับ Yandex มีเพียงคุณเท่านั้นที่ต้องไปที่แผงผู้ดูแลเว็บ Google Search Console หากเอกสารถูกบล็อกจากเครื่องมือค้นหา ตรงข้ามกับลิงก์นั้นจะมีเขียนว่า "ถูกบล็อกโดยบรรทัด" และคุณจะเห็นบรรทัดที่สั่งบอทไม่ให้จัดทำดัชนี

แต่มีความเป็นไปได้สูงที่คุณจะเห็นคำว่า "อนุญาต" มีสองตัวเลือกที่นี่: คุณทำอะไรผิด หรือ Google ยังคงจัดทำดัชนีหน้าที่ไม่ได้รับอนุญาตในเอกสารโรบ็อต ฉันได้กล่าวไปแล้วข้างต้นว่าสำหรับเครื่องมือค้นหาเอกสารนี้เป็นเพียงคำแนะนำเท่านั้นและการตัดสินใจขั้นสุดท้ายเกี่ยวกับการจัดทำดัชนียังคงอยู่กับพวกเขา

สำหรับเครื่องมือค้นหาอื่นๆ

เครื่องมือค้นหาทั้งหมดมีบอทของตัวเองพร้อมชื่อเฉพาะเพื่อให้เว็บมาสเตอร์สามารถลงทะเบียนพวกมันใน robots.txt และตั้งค่าคำสั่งสำหรับพวกมัน เราขอนำเสนอสิ่งที่พบบ่อยที่สุด (ยกเว้น Yandex และ Google):

เครื่องมือค้นหายาฮู.หุ่นยนต์ชื่อสเลอร์ป
ดาวเทียม.หุ่นยนต์ชื่อ SputnikBot
ปิง.ชื่อของหุ่นยนต์คือ MSNBot

คุณสามารถค้นหารายชื่อบอททั้งหมดบนอินเทอร์เน็ตได้อย่างง่ายดาย

ซ่อนภาพ

เพื่อป้องกันไม่ให้เครื่องมือค้นหาจัดทำดัชนีรูปภาพ ให้เขียนคำสั่งต่อไปนี้ (จะขึ้นอยู่กับรูปแบบรูปภาพ):

ตัวแทนผู้ใช้: * ไม่อนุญาต: *.png ไม่อนุญาต: *.jpg ไม่อนุญาต: *.gif

ปิดโดเมนย่อย

โดเมนย่อยใดๆ มี robots.txt ของตัวเอง ตามกฎแล้วจะอยู่ในโฟลเดอร์รูทของโดเมนย่อย เปิดเอกสารและป้อนโดยตรงที่นั่น:

ตัวแทนผู้ใช้: * Disallow: /

หากไม่มีเอกสารข้อความดังกล่าวในโฟลเดอร์โดเมนย่อย ให้สร้างด้วยตนเอง

3. การใช้แท็ก name=”robots”

อีกวิธีที่จะช่วยซ่อนเอกสารหรือทั้งไซต์จากโรบ็อตของเครื่องมือค้นหาคือการใช้เมตาแท็กของโรบ็อต ตัวเลือกนี้เป็นหนึ่งในลำดับความสำคัญสูงสุดสำหรับเครื่องมือค้นหา เมื่อต้องการทำเช่นนี้ ทุกที่ แต่อยู่ในแท็กเสมอ และคุณต้องเขียนโค้ด:

4. ในการตั้งค่าเซิร์ฟเวอร์

และวิธีการสุดท้ายที่ฉันอยากจะบอกคุณคือการเข้าถึงเซิร์ฟเวอร์ เว็บมาสเตอร์ใช้ตัวเลือกนี้เมื่อโรบ็อตไม่ตอบสนองต่อการกระทำที่อธิบายไว้ข้างต้นเลย บางครั้งสิ่งนี้เกิดขึ้น จากนั้นคุณต้องแก้ไขปัญหาในการตั้งค่าเซิร์ฟเวอร์โดยใช้ไฟล์ . เปิดมันและเขียนสิ่งนี้ลงไป:

SetEnvIfNoCase ตัวแทนผู้ใช้ "^Googlebot" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Yandex" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Yahoo" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Aport" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^msnbot" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ " ^spider" search_bot SetEnvIfNoCase User-Agent "^Robot" search_bot SetEnvIfNoCase User-Agent "^php" search_bot SetEnvIfNoCase User-Agent "^Mail" search_bot SetEnvIfNoCase User-Agent "^bot" search_bot SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Snapbot" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^WordPress" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^BlogPulseLive" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Parser" search_bot

5. การใช้ส่วนหัว HTTP X-Robots-Tag

นี่เป็นการกำหนดค่าเซิร์ฟเวอร์ประเภทหนึ่งโดยใช้ไฟล์ .htaccess แต่วิธีนี้ใช้ได้ในระดับส่วนหัว นี่เป็นหนึ่งในวิธีที่น่าเชื่อถือที่สุดในการบล็อกไซต์จากการจัดทำดัชนี เนื่องจากมีการกำหนดค่าที่ระดับเซิร์ฟเวอร์

ไม่มีเรื่องเล็ก ๆ น้อย ๆ ใน SEO บางครั้งไฟล์ขนาดเล็กเพียงไฟล์เดียวก็สามารถส่งผลต่อการโปรโมตเว็บไซต์ได้ - Robots.txtหากคุณต้องการให้ไซต์ของคุณได้รับการจัดทำดัชนีเพื่อให้โรบ็อตการค้นหารวบรวมข้อมูลหน้าเว็บที่คุณต้องการ คุณจะต้องเขียนคำแนะนำสำหรับไซต์เหล่านั้น

“เป็นไปได้เหรอ?”คุณถามอาจจะ. ในการดำเนินการนี้ ไซต์ของคุณต้องมีไฟล์ robots.txtวิธีสร้างไฟล์อย่างถูกต้อง หุ่นยนต์กำหนดค่าและเพิ่มลงในไซต์ – เราจะพิจารณาเรื่องนี้ในบทความนี้

robots.txt คืออะไรและมีไว้เพื่ออะไร

Robots.txt เป็นไฟล์ข้อความปกติซึ่งมีคำแนะนำสำหรับโรบ็อตการค้นหา: หน้าเว็บใดควรรวบรวมข้อมูลและไม่ควรรวบรวมข้อมูล

สำคัญ: ไฟล์จะต้องอยู่ในการเข้ารหัส UTF-8 มิฉะนั้นโรบ็อตการค้นหาอาจไม่เข้าใจ

ไซต์ที่ไม่มีไฟล์นี้จะถูกจัดทำดัชนีหรือไม่มันจะใช้งานได้ แต่โรบ็อตสามารถ "แย่ง" หน้าที่ไม่พึงประสงค์จากการปรากฏในผลการค้นหาได้ เช่น หน้าเข้าสู่ระบบ แผงผู้ดูแลระบบ หน้าส่วนตัวของผู้ใช้ เว็บไซต์มิเรอร์ ฯลฯ ทั้งหมดนี้ถือเป็น "ขยะการค้นหา":

หากข้อมูลส่วนบุคคลปรากฏในผลการค้นหา ทั้งคุณและไซต์อาจได้รับผลกระทบ อีกประการหนึ่ง: หากไม่มีไฟล์นี้ การสร้างดัชนีไซต์จะใช้เวลานานกว่า

ในไฟล์ Robots.txt คุณสามารถระบุคำสั่งได้สามประเภทสำหรับสไปเดอร์ค้นหา:

ห้ามสแกน
อนุญาตให้สแกนได้
อนุญาตให้สแกนได้บางส่วน

ทั้งหมดนี้กำหนดโดยใช้คำสั่ง

วิธีสร้างไฟล์ Robots.txt ที่ถูกต้องสำหรับไซต์

ไฟล์ Robots.txt สามารถสร้างได้ง่ายๆ ในโปรแกรม Notepad ซึ่งมีให้ใช้งานตามค่าเริ่มต้นในคอมพิวเตอร์ทุกเครื่อง การลงทะเบียนไฟล์จะใช้เวลาสูงสุดครึ่งชั่วโมงแม้แต่ผู้เริ่มต้น (ถ้าคุณรู้คำสั่ง)

คุณยังสามารถใช้โปรแกรมอื่นได้ เช่น Notepad เป็นต้น นอกจากนี้ยังมีบริการออนไลน์ที่สามารถสร้างไฟล์ได้โดยอัตโนมัติ ตัวอย่างเช่นเช่นCY-PR.comหรือเมเดียโซวา

คุณเพียงแค่ต้องระบุที่อยู่เว็บไซต์ของคุณซึ่งเครื่องมือค้นหาที่คุณต้องตั้งกฎและมิเรอร์หลัก (มีหรือไม่มี www) จากนั้นบริการจะทำทุกอย่างเอง

โดยส่วนตัวแล้วฉันชอบวิธี "ล้าสมัย" แบบเก่ามากกว่า - การเขียนไฟล์ด้วยตนเองใน Notepad นอกจากนี้ยังมี "วิธีขี้เกียจ" - เพื่อไขปริศนานักพัฒนาของคุณด้วยสิ่งนี้ :) แต่ในกรณีนี้คุณควรตรวจสอบว่าทุกอย่างเขียนถูกต้องหรือไม่ มาดูวิธีสร้างไฟล์นี้และตำแหน่งที่ควรอยู่

ไฟล์ Robots.txt ที่เสร็จแล้วควรอยู่ในโฟลเดอร์รูทของไซต์ แค่ไฟล์ไม่มีโฟลเดอร์:

ต้องการตรวจสอบว่าอยู่ในไซต์ของคุณหรือไม่? พิมพ์ที่อยู่ต่อไปนี้ลงในแถบที่อยู่: site.ru/robots.txt- คุณจะเห็นหน้านี้ (หากมีไฟล์):

ไฟล์ประกอบด้วยหลายบล็อกคั่นด้วยการเยื้อง แต่ละบล็อกประกอบด้วยคำแนะนำสำหรับโรบ็อตการค้นหาของเครื่องมือค้นหาที่แตกต่างกัน (รวมถึงบล็อกที่มีกฎทั่วไปสำหรับทุกคน) และบล็อกแยกต่างหากพร้อมลิงก์ไปยังแผนผังเว็บไซต์ - แผนผังเว็บไซต์

ไม่จำเป็นต้องเยื้องภายในบล็อกด้วยกฎสำหรับโรบอตการค้นหาตัวเดียว

แต่ละบล็อกเริ่มต้นด้วยคำสั่ง User-agent

หลังจากแต่ละคำสั่งจะมีเครื่องหมาย “:” (โคลอน) ช่องว่างหลังจากนั้นระบุค่า (ตัวอย่างเช่นหน้าใดที่จะปิดจากการจัดทำดัชนี)

คุณต้องระบุที่อยู่เพจที่เกี่ยวข้อง ไม่ใช่ที่อยู่ที่แน่นอน ญาติ - นี่คือไม่มี "www.site.ru" ตัวอย่างเช่น คุณต้องป้องกันไม่ให้มีการจัดทำดัชนีเพจwww.site.ru/shop- หลังจากเครื่องหมายทวิภาคเราจึงใส่ช่องว่าง เครื่องหมายทับ และ "shop":

ไม่อนุญาต: /shop.

เครื่องหมายดอกจัน (*) หมายถึงชุดอักขระใดๆ

เครื่องหมายดอลลาร์ ($) คือจุดสิ้นสุดของบรรทัด

คุณอาจตัดสินใจได้ - ทำไมต้องเขียนไฟล์ตั้งแต่เริ่มต้นหากคุณสามารถเปิดมันบนเว็บไซต์ใดก็ได้และคัดลอกมันเพื่อตัวคุณเอง?

แต่ละไซต์จะต้องมีกฎที่ไม่ซ้ำกัน จำเป็นต้องคำนึงถึงคุณสมบัติต่างๆ ซีเอ็มเอส- ตัวอย่างเช่น แผงผู้ดูแลระบบเดียวกันจะอยู่ที่ /wp-admin บนเครื่องมือ WordPress แต่ในอีกแผงหนึ่งที่อยู่จะแตกต่างออกไป เช่นเดียวกับที่อยู่ของแต่ละหน้า แผนผังเว็บไซต์ และอื่นๆ

การตั้งค่าไฟล์ Robots.txt: การจัดทำดัชนี มิเรอร์หลัก คำสั่ง

ดังที่คุณเห็นในภาพหน้าจอแล้ว คำสั่ง User-agent มาก่อน มันบ่งบอกว่ากฎด้านล่างจะใช้กับโรบ็อตการค้นหาตัวใด

User-agent: * - กฎสำหรับโรบ็อตการค้นหาทั้งหมด นั่นคือ เครื่องมือค้นหาใดๆ (Google, Yandex, Bing, Rambler ฯลฯ)

User-agent: Googlebot – ระบุกฎสำหรับสไปเดอร์การค้นหาของ Google

User-agent: Yandex – กฎสำหรับหุ่นยนต์ค้นหา Yandex

สำหรับโรบ็อตการค้นหาตัวใดที่จะกำหนดกฎก่อนก็ไม่มีความแตกต่าง แต่โดยปกติแล้วพวกเขาจะเขียนคำแนะนำสำหรับหุ่นยนต์ทุกตัวก่อน

ไม่อนุญาต: ห้ามการจัดทำดัชนี

เพื่อป้องกันการจัดทำดัชนีเว็บไซต์โดยรวมหรือแต่ละหน้า ให้ใช้คำสั่ง Disallow

ตัวอย่างเช่น คุณสามารถบล็อกไซต์ไม่ให้จัดทำดัชนีได้อย่างสมบูรณ์ (หากทรัพยากรอยู่ระหว่างการพัฒนาและคุณไม่ต้องการให้ปรากฏในผลการค้นหาในสถานะนี้) ในการดำเนินการนี้ คุณจะต้องป้อนข้อมูลต่อไปนี้:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /

ดังนั้น โรบ็อตการค้นหาทั้งหมดจึงถูกห้ามไม่ให้สร้างดัชนีเนื้อหาบนเว็บไซต์

และนี่คือวิธีที่คุณสามารถเปิดไซต์สำหรับการจัดทำดัชนี:

ตัวแทนผู้ใช้: *

ไม่อนุญาต:

ดังนั้นให้ตรวจสอบว่ามีเครื่องหมายทับหลังคำสั่ง Disallow หรือไม่หากคุณต้องการปิดไซต์ หากคุณต้องการเปิดในภายหลังอย่าลืมลบกฎออก (และสิ่งนี้มักเกิดขึ้น)

หากต้องการบล็อกแต่ละหน้าจากการจัดทำดัชนี คุณต้องระบุที่อยู่ของหน้าเหล่านั้น ฉันได้เขียนไปแล้วว่าทำอย่างไร:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /wp-admin

ดังนั้นแผงผู้ดูแลระบบบนไซต์จึงถูกปิดจากมุมมองภายนอก

สิ่งที่ต้องยกเว้นจากการจัดทำดัชนี:

แผงธุรการ;
หน้าส่วนตัวของผู้ใช้
ตะกร้า;
ผลการค้นหาไซต์
เข้าสู่ระบบ การลงทะเบียน หน้าการอนุญาต

คุณสามารถบล็อกไฟล์บางประเภทไม่ให้สร้างดัชนีได้ สมมติว่าคุณมีไฟล์ .pdf บางไฟล์บนเว็บไซต์ของคุณ ซึ่งการจัดทำดัชนีเป็นสิ่งที่ไม่พึงประสงค์ และโรบ็อตการค้นหาจะสแกนไฟล์ที่อัปโหลดไปยังไซต์ได้อย่างง่ายดาย คุณสามารถบล็อกไม่ให้สร้างดัชนีได้ดังนี้:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /*. pdf$

วิธีเปิดเว็บไซต์เพื่อทำดัชนี

แม้ว่าไซต์จะปิดจากการจัดทำดัชนีอย่างสมบูรณ์ คุณก็สามารถเปิดเส้นทางไปยังไฟล์หรือหน้าบางไฟล์สำหรับโรบ็อตได้ สมมติว่าคุณกำลังออกแบบเว็บไซต์ใหม่ แต่แคตตาล็อกบริการยังคงเหมือนเดิม คุณสามารถนำหุ่นยนต์ค้นหาไปที่นั่นเพื่อให้พวกมันจัดทำดัชนีส่วนต่อไปได้ เมื่อต้องการทำเช่นนี้ ให้ใช้คำสั่งอนุญาต:

ตัวแทนผู้ใช้: *

อนุญาต: /uslugi

ไม่อนุญาต: /

กระจกไซต์หลัก

จนถึงวันที่ 20 มีนาคม 2018 ในไฟล์ robots.txt สำหรับโรบ็อตค้นหา Yandex จำเป็นต้องระบุมิเรอร์หลักของไซต์ผ่านคำสั่งโฮสต์ ไม่จำเป็นต้องทำตอนนี้ก็เพียงพอแล้ว ตั้งค่าการเปลี่ยนเส้นทาง 301 แบบหน้าต่อหน้า .

กระจกหลักคืออะไร? นี่คือที่อยู่เว็บไซต์ของคุณที่เป็นที่อยู่หลัก - มีหรือไม่มี www หากคุณไม่ได้ตั้งค่าการเปลี่ยนเส้นทาง ทั้งสองไซต์จะถูกจัดทำดัชนี นั่นคือจะมีการซ้ำกันของทุกหน้า

แผนผังไซต์: แผนผังไซต์ robots.txt

หลังจากระบุคำสั่งทั้งหมดสำหรับโรบ็อตแล้ว คุณจะต้องระบุเส้นทางไปยังแผนผังไซต์ แผนผังเว็บไซต์แสดงโรบ็อตว่า URL ทั้งหมดที่ต้องจัดทำดัชนีนั้นอยู่ที่ที่อยู่เฉพาะ ตัวอย่างเช่น:

แผนผังเว็บไซต์: site.ru/sitemap.xml

เมื่อโรบ็อตรวบรวมข้อมูลไซต์ มันจะเห็นว่ามีการเปลี่ยนแปลงอะไรบ้างในไฟล์นี้ ส่งผลให้หน้าใหม่ได้รับการจัดทำดัชนีเร็วขึ้น

คำสั่ง Clean-param

ในปี 2009 ยานเดกซ์ได้เปิดตัวคำสั่งใหม่ - Clean-param ด้วยความช่วยเหลือ คุณสามารถอธิบายพารามิเตอร์ไดนามิกที่ไม่ส่งผลกระทบต่อเนื้อหาของเพจได้ ส่วนใหญ่มักใช้คำสั่งนี้ในฟอรัม มีขยะมากมายที่นี่ เช่น รหัสเซสชัน การเรียงลำดับพารามิเตอร์ หากคุณระบุคำสั่งนี้ โรบ็อตการค้นหา Yandex จะไม่ดาวน์โหลดข้อมูลที่ซ้ำกันซ้ำๆ

คุณสามารถเขียนคำสั่งนี้ได้ทุกที่ในไฟล์ robots.txt

พารามิเตอร์ที่หุ่นยนต์ไม่จำเป็นต้องคำนึงถึงจะแสดงไว้ในส่วนแรกของค่าที่คั่นด้วยเครื่องหมาย &:

พารามิเตอร์ที่สะอาด: sid&sort /forum/viewforum.php

คำสั่งนี้ช่วยให้คุณหลีกเลี่ยงหน้าที่ซ้ำกันซึ่งมีที่อยู่แบบไดนามิก (ซึ่งมีเครื่องหมายคำถาม)

คำสั่งการรวบรวมข้อมูลล่าช้า

คำสั่งนี้จะมาช่วยเหลือผู้ที่มีเซิร์ฟเวอร์ที่อ่อนแอ

การมาถึงของหุ่นยนต์ค้นหาเป็นภาระเพิ่มเติมบนเซิร์ฟเวอร์ หากไซต์ของคุณมีปริมาณการเข้าชมสูง ทรัพยากรก็อาจทนไม่ไหวและพังลง เป็นผลให้หุ่นยนต์จะได้รับข้อความแสดงข้อผิดพลาด 5xx หากเกิดสถานการณ์นี้ซ้ำๆ กัน เครื่องมือค้นหาอาจถือว่าไซต์นั้นไม่ทำงาน

ลองนึกภาพว่าคุณกำลังทำงานอยู่และในขณะเดียวกันก็ต้องรับสายอยู่ตลอดเวลา ผลผลิตของคุณลดลง

มันเหมือนกันกับเซิร์ฟเวอร์

กลับไปที่คำสั่งกัน การหน่วงเวลาการรวบรวมข้อมูลช่วยให้คุณตั้งค่าการหน่วงเวลาในการสแกนหน้าไซต์เพื่อลดภาระบนเซิร์ฟเวอร์ กล่าวอีกนัยหนึ่ง คุณกำหนดระยะเวลาที่จะโหลดหน้าเว็บไซต์ พารามิเตอร์นี้ระบุเป็นวินาทีเป็นจำนวนเต็ม:

จากผู้เขียน:คุณมีหน้าเว็บบนเว็บไซต์ที่ไม่ต้องการให้เครื่องมือค้นหาเห็นหรือไม่ จากบทความนี้ คุณจะได้เรียนรู้รายละเอียดวิธีการป้องกันการจัดทำดัชนีหน้าเว็บใน robots.txt ไม่ว่าจะถูกต้องหรือไม่ และโดยทั่วไปแล้วจะบล็อกการเข้าถึงหน้าเว็บได้อย่างไร

ดังนั้น คุณจึงต้องป้องกันไม่ให้หน้าเว็บบางหน้าถูกจัดทำดัชนี วิธีที่ง่ายที่สุดในการทำเช่นนี้คือในไฟล์ robots.txt โดยเพิ่มบรรทัดที่จำเป็นลงไป ฉันต้องการทราบว่าเราได้ระบุที่อยู่โฟลเดอร์ที่สัมพันธ์กัน URL ของหน้าเว็บที่ระบุในลักษณะเดียวกัน หรือคุณสามารถป้อนเส้นทางที่แน่นอนได้

สมมติว่าบล็อกของฉันมีหน้าเว็บ 2-3 หน้า ได้แก่ รายชื่อติดต่อ เกี่ยวกับฉัน และบริการของฉัน ฉันไม่อยากให้พวกเขาถูกจัดทำดัชนี ดังนั้นเราจึงเขียนว่า:

ตัวแทนผู้ใช้: * Disallow: /kontakty/ Disallow: /about/ Disallow: /uslugi/

อีกทางเลือกหนึ่ง

เยี่ยมมาก แต่นี่ไม่ใช่วิธีเดียวที่จะบล็อกการเข้าถึงของโรบ็อตในบางหน้า ประการที่สองคือการวางเมตาแท็กพิเศษในโค้ด html โดยปกติแล้ว ให้วางเฉพาะในบันทึกที่จำเป็นต้องปิดเท่านั้น ดูเหมือนว่านี้:

< meta name = "robots" content = "noindex,nofollow" >

ต้องวางแท็กในคอนเทนเนอร์ส่วนหัวในเอกสาร html เพื่อให้ทำงานได้อย่างถูกต้อง อย่างที่คุณเห็น มันมีพารามิเตอร์สองตัว ชื่อถูกระบุเป็นโรบ็อตและระบุว่าคำแนะนำเหล่านี้มีไว้สำหรับโปรแกรมรวบรวมข้อมูลเว็บ

พารามิเตอร์เนื้อหาต้องมีสองค่า โดยคั่นด้วยเครื่องหมายจุลภาค ประการแรกคือการห้ามหรือการอนุญาตให้จัดทำดัชนีข้อมูลข้อความบนเพจ ประการที่สองคือการบ่งชี้ว่าจะจัดทำดัชนีลิงก์บนเพจหรือไม่

ดังนั้น หากคุณต้องการให้เพจไม่ถูกจัดทำดัชนีเลย ให้ระบุค่า noindex, nofollow กล่าวคือ ห้ามจัดทำดัชนีข้อความ และห้ามไม่ให้ลิงก์ติดตาม ถ้ามี มีกฎอยู่ว่าหากไม่มีข้อความบนเพจ ก็จะไม่ถูกจัดทำดัชนี กล่าวคือ หากข้อความทั้งหมดปิดอยู่ใน noindex ก็ไม่มีอะไรที่จะจัดทำดัชนี ดังนั้นจึงไม่มีสิ่งใดรวมอยู่ในดัชนี

นอกจากนี้ยังมีค่าต่อไปนี้:

noindex, follow – ห้ามการจัดทำดัชนีข้อความ แต่อนุญาตให้ติดตามลิงก์;

ดัชนี nofollow – สามารถใช้ได้เมื่อควรนำเนื้อหาเข้าสู่ดัชนี แต่ควรปิดลิงก์ทั้งหมดในนั้น

ดัชนีติดตาม – ค่าเริ่มต้น ทุกสิ่งได้รับอนุญาต

ด้านเทคนิคของไซต์ที่สร้างขึ้นมีบทบาทสำคัญไม่น้อยในการโปรโมตเว็บไซต์ในเครื่องมือค้นหามากกว่าเนื้อหา หนึ่งในประเด็นทางเทคนิคที่สำคัญที่สุดคือการจัดทำดัชนีไซต์ เช่น การกำหนดพื้นที่ของไซต์ (ไฟล์และไดเร็กทอรี) ที่สามารถหรือไม่สามารถจัดทำดัชนีโดยโรบอตเครื่องมือค้นหา เพื่อจุดประสงค์เหล่านี้ จะใช้ robots.txt ซึ่งเป็นไฟล์พิเศษที่มีคำสั่งสำหรับโรบ็อตเครื่องมือค้นหา ไฟล์ robots.txt ที่ถูกต้องสำหรับ Yandex และ Google จะช่วยคุณหลีกเลี่ยงผลที่ไม่พึงประสงค์มากมายที่เกี่ยวข้องกับการจัดทำดัชนีไซต์

2. แนวคิดของไฟล์ robots.txt และข้อกำหนดของไฟล์

ไฟล์ /robots.txt มีวัตถุประสงค์เพื่อสั่งให้โรบ็อตค้นหา (สไปเดอร์) ทั้งหมดจัดทำดัชนีเซิร์ฟเวอร์ข้อมูลตามที่กำหนดไว้ในไฟล์นี้ เช่น เฉพาะไดเร็กทอรีและไฟล์เซิร์ฟเวอร์ที่ไม่ได้อธิบายไว้ใน /robots.txt ไฟล์นี้ควรมีบันทึกตั้งแต่ 0 รายการขึ้นไปที่เกี่ยวข้องกับโรบ็อตบางตัว (ตามที่กำหนดโดยค่าของฟิลด์ agent_id) และระบุสำหรับโรบ็อตแต่ละตัวหรือสำหรับทั้งหมดในคราวเดียวถึงสิ่งที่พวกเขาไม่จำเป็นต้องสร้างดัชนี

ไวยากรณ์ของไฟล์ช่วยให้คุณสามารถตั้งค่าพื้นที่การจัดทำดัชนีที่จำกัด ทั้งสำหรับโรบ็อตทั้งหมดและสำหรับโรบ็อตเฉพาะ

ไฟล์ robots.txt มีข้อกำหนดพิเศษ การไม่ปฏิบัติตามซึ่งอาจส่งผลให้โรบ็อตของเครื่องมือค้นหาอ่านไม่ถูกต้องหรือทำให้ไฟล์ไม่สามารถใช้งานได้โดยทั่วไป

ข้อกำหนดพื้นฐาน:

ตัวอักษรทั้งหมดในชื่อไฟล์จะต้องเป็นตัวพิมพ์ใหญ่ กล่าวคือ จะต้องเป็นตัวพิมพ์เล็ก:
robots.txt ถูกต้อง
Robots.txt หรือ ROBOTS.TXT – ไม่ถูกต้อง
ไฟล์ robots.txt ต้องสร้างในรูปแบบข้อความ Unix เมื่อคัดลอกไฟล์นี้ไปยังเว็บไซต์ ไคลเอนต์ ftp จะต้องได้รับการกำหนดค่าสำหรับโหมดการแลกเปลี่ยนไฟล์ข้อความ
ต้องวางไฟล์ robots.txt ไว้ในไดเร็กทอรีรากของไซต์

3. เนื้อหาของไฟล์ robots.txt

ไฟล์ robots.txt มีสองรายการ: "User-agent" และ "Disallow" ชื่อของรายการเหล่านี้ไม่คำนึงถึงขนาดตัวพิมพ์

เครื่องมือค้นหาบางรายการยังรองรับรายการเพิ่มเติมอีกด้วย ตัวอย่างเช่นเครื่องมือค้นหา Yandex ใช้บันทึก "โฮสต์" เพื่อกำหนดมิเรอร์หลักของไซต์ (มิเรอร์หลักของไซต์คือไซต์ที่อยู่ในดัชนีเครื่องมือค้นหา)

แต่ละรายการมีวัตถุประสงค์ของตัวเองและสามารถปรากฏได้หลายครั้ง ขึ้นอยู่กับจำนวนหน้าและ/หรือไดเร็กทอรีที่ถูกบล็อกจากการจัดทำดัชนีและจำนวนโรบ็อตที่คุณติดต่อ

รูปแบบบรรทัดที่ต้องการสำหรับไฟล์ robots.txt จะเป็นดังนี้:

post_name[ไม่จำเป็น

ช่องว่าง] : [ไม่จำเป็น

ช่องว่าง] ความหมาย[ช่องว่างเพิ่มเติม]

เพื่อให้ไฟล์ robots.txt ได้รับการพิจารณาว่าถูกต้อง จะต้องมีคำสั่ง "Disallow" อย่างน้อย 1 รายการต่อท้ายรายการ "User-agent"

ไฟล์ robots.txt ที่ว่างเปล่าโดยสิ้นเชิงจะเทียบเท่ากับการไม่มีไฟล์ robots.txt ซึ่งหมายถึงการอนุญาตให้จัดทำดัชนีทั้งไซต์

รายการตัวแทนผู้ใช้

รายการ “User-agent” ต้องมีชื่อของโรบ็อตการค้นหา ในรายการนี้ คุณสามารถบอกโรบ็อตแต่ละตัวว่าหน้าใดของเว็บไซต์ที่จะจัดทำดัชนีและหน้าใดไม่ทำดัชนี

ตัวอย่างของรายการ “User-agent” ซึ่งเข้าถึงเครื่องมือค้นหาทั้งหมดโดยไม่มีข้อยกเว้น และใช้สัญลักษณ์ “*”:

ตัวอย่างของบันทึก “User-agent” ซึ่งมีการติดต่อเฉพาะหุ่นยนต์เครื่องมือค้นหาของ Rambler เท่านั้น:

ตัวแทนผู้ใช้: StackRambler

หุ่นยนต์เครื่องมือค้นหาแต่ละตัวมีชื่อของตัวเอง มีสองวิธีหลักในการค้นหา (ชื่อ):

บนเว็บไซต์ของเสิร์ชเอ็นจิ้นหลายแห่งมีส่วน "ช่วยเหลือผู้ดูแลเว็บ" เฉพาะทางซึ่งมักจะระบุชื่อของโรบ็อตการค้นหา

เมื่อดูบันทึกของเว็บเซิร์ฟเวอร์ เช่น เมื่อดูการเรียกไปยังไฟล์ robots.txt คุณจะเห็นชื่อจำนวนมากที่มีชื่อของเครื่องมือค้นหาหรือบางส่วน ดังนั้นสิ่งที่คุณต้องทำคือเลือกชื่อที่ต้องการและป้อนลงในไฟล์ robots.txt

รายการ "ไม่อนุญาต"

บันทึก "ไม่อนุญาต" ต้องมีคำแนะนำที่ระบุให้โรบ็อตค้นหาทราบจากบันทึก "ตัวแทนผู้ใช้" ว่าไฟล์และ/หรือไดเร็กทอรีใดบ้างที่ไม่ได้รับอนุญาตจากการจัดทำดัชนี

มาดูตัวอย่างต่างๆ ของการบันทึก "ไม่อนุญาต"

ตัวอย่างรายการใน robots.txt (อนุญาตให้ทุกอย่างจัดทำดัชนี):

ไม่อนุญาต:

ตัวอย่าง (ห้ามใช้ไซต์นี้โดยสมบูรณ์ ใช้สัญลักษณ์ “/” สำหรับสิ่งนี้): ไม่อนุญาต: /

ตัวอย่าง (ไฟล์ “page.htm” ที่อยู่ในไดเร็กทอรีรากและไฟล์ “page2.htm” ที่อยู่ในไดเร็กทอรี “dir” ไม่ได้รับอนุญาตให้จัดทำดัชนี):

ไม่อนุญาต: /page.htm

ไม่อนุญาต: /dir/page2.htm

ตัวอย่าง (ไดเร็กทอรี “cgi-bin” และ “ฟอรั่ม” ดังนั้น เนื้อหาทั้งหมดของไดเร็กทอรีนี้จึงไม่ได้รับอนุญาตสำหรับการจัดทำดัชนี):

ไม่อนุญาต: /cgi-bin/

ไม่อนุญาต: /forum/

คุณสามารถบล็อกเอกสารและ (หรือ) ไดเร็กทอรีจำนวนหนึ่งที่เริ่มต้นด้วยอักขระเดียวกันจากการจัดทำดัชนีโดยใช้รายการ "Disallow" เพียงรายการเดียว ในการดำเนินการนี้ คุณจะต้องป้อนอักขระเริ่มต้นที่เหมือนกันโดยไม่มีเครื่องหมายทับ

ตัวอย่าง (ไดเร็กทอรี “dir” ถูกห้ามสำหรับการจัดทำดัชนี เช่นเดียวกับไฟล์และไดเร็กทอรีทั้งหมดที่ขึ้นต้นด้วยตัวอักษร “dir” เช่น ไฟล์: “dir.htm”, “direct.htm”, ไดเร็กทอรี: “dir”, “directory1 ” ", "ไดเรกทอรี2" ฯลฯ):

รายการ "อนุญาต"

ตัวเลือก "อนุญาต" ใช้เพื่อแสดงข้อยกเว้นจากไดเร็กทอรีและเพจที่ไม่สามารถจัดทำดัชนีได้ซึ่งระบุโดยรายการ "ไม่อนุญาต"

ตัวอย่างเช่น มีบันทึกดังนี้:

ไม่อนุญาต: /forum/

แต่ในกรณีนี้ จำเป็นต้องสร้างดัชนีเพจ page1 ในไดเร็กทอรี /forum/ จากนั้นจะต้องมีบรรทัดต่อไปนี้ในไฟล์ robots.txt:

ไม่อนุญาต: /forum/

อนุญาต: /forum/page1

รายการแผนผังไซต์

รายการนี้ระบุตำแหน่งของแผนผังเว็บไซต์ในรูปแบบ xml ซึ่งใช้โดยโรบ็อตการค้นหา รายการนี้ระบุเส้นทางไปยังไฟล์นี้

แผนผังเว็บไซต์: http://site.ru/sitemap.xml

รายการ "โฮสต์"

เครื่องมือค้นหา Yandex ใช้บันทึก "โฮสต์" มีความจำเป็นต้องกำหนดมิเรอร์หลักของไซต์ เช่น หากไซต์มีมิเรอร์ (มิเรอร์เป็นสำเนาบางส่วนหรือทั้งหมดของไซต์ บางครั้งการมีทรัพยากรที่ซ้ำกันเป็นสิ่งจำเป็นสำหรับเจ้าของไซต์ที่มีผู้เยี่ยมชมสูงเพื่อเพิ่มความน่าเชื่อถือและ ความพร้อมใช้งานของบริการ) จากนั้นใช้คำสั่ง "โฮสต์" คุณสามารถเลือกชื่อที่คุณต้องการจัดทำดัชนีได้ มิฉะนั้นยานเดกซ์จะเลือกมิเรอร์หลักด้วยตัวเองและชื่ออื่น ๆ จะถูกห้ามไม่ให้สร้างดัชนี

เพื่อให้เข้ากันได้กับโรบ็อตการค้นหา ซึ่งไม่ยอมรับคำสั่ง Host เมื่อประมวลผลไฟล์ robots.txt จำเป็นต้องเพิ่มรายการ "Host" ทันทีหลังรายการ Disallow

ตัวอย่าง: www.site.ru – กระจกหลัก:

โฮสต์: www.site.ru

การบันทึก "การรวบรวมข้อมูลล่าช้า"

รายการนี้รับรู้โดยยานเดกซ์ มันเป็นคำสั่งสำหรับหุ่นยนต์ที่จะใช้ระยะเวลาที่กำหนด (เป็นวินาที) ระหว่างหน้าการจัดทำดัชนี บางครั้งสิ่งนี้จำเป็นเพื่อปกป้องไซต์จากการโอเวอร์โหลด

ดังนั้นรายการต่อไปนี้หมายความว่าหุ่นยนต์ Yandex จำเป็นต้องย้ายจากหน้าหนึ่งไปอีกหน้าหนึ่งไม่เร็วกว่า 3 วินาที:

ความคิดเห็น

บรรทัดใดๆ ใน robots.txt ที่ขึ้นต้นด้วยอักขระ "#" จะถือเป็นความคิดเห็น อนุญาตให้แสดงความคิดเห็นที่ส่วนท้ายของบรรทัดคำสั่ง แต่โรบ็อตบางตัวอาจไม่รู้จักบรรทัดอย่างถูกต้อง

ตัวอย่าง (ความคิดเห็นอยู่ในบรรทัดเดียวกับคำสั่ง):

ไม่อนุญาต: /cgi-bin/ #comment

ขอแนะนำให้วางความคิดเห็นไว้ในบรรทัดแยกต่างหาก อนุญาตให้เว้นวรรคที่ต้นบรรทัดได้ แต่ไม่แนะนำ

4. ตัวอย่างไฟล์ robots.txt

ตัวอย่าง (ความคิดเห็นอยู่ในบรรทัดแยก):

ไม่อนุญาต: /cgi-bin/#comment

ตัวอย่างไฟล์ robots.txt ที่อนุญาตให้โรบ็อตทั้งหมดจัดทำดัชนีทั้งไซต์:

โฮสต์: www.site.ru

ตัวอย่างไฟล์ robots.txt ที่ห้ามไม่ให้โรบ็อตทั้งหมดจัดทำดัชนีไซต์:

โฮสต์: www.site.ru

ตัวอย่างไฟล์ robots.txt ที่ห้ามมิให้โรบ็อตทั้งหมดสร้างดัชนีไดเร็กทอรี “abc” รวมถึงไดเร็กทอรีและไฟล์ทั้งหมดที่ขึ้นต้นด้วยอักขระ “abc”

โฮสต์: www.site.ru

ตัวอย่างของไฟล์ robots.txt ที่ป้องกันไม่ให้หน้า “page.htm” ที่อยู่ในไดเรกทอรีรากของเว็บไซต์ไม่ได้รับการจัดทำดัชนีโดยโรบ็อตการค้นหาของ Googlebot:

ตัวแทนผู้ใช้: googlebot

ไม่อนุญาต: /page.htm

โฮสต์: www.site.ru

ตัวอย่างไฟล์ robots.txt ที่ห้ามการจัดทำดัชนี:

– ไปยังโรบ็อต “googlebot” – หน้า “page1.htm” ที่อยู่ในไดเร็กทอรี “ไดเรกทอรี”

– ไปยังโรบ็อต “Yandex” – ไดเรกทอรีและเพจทั้งหมดที่ขึ้นต้นด้วยสัญลักษณ์ “dir” (/dir/, /direct/, dir.htm, ทิศทาง.htm ฯลฯ) และอยู่ในไดเรกทอรีรากของเว็บไซต์

ตัวแทนผู้ใช้: googlebot

ไม่อนุญาต: /directory/page1.htm

ตัวแทนผู้ใช้: Yandex

5. ข้อผิดพลาดที่เกี่ยวข้องกับไฟล์ robots.txt

ข้อผิดพลาดที่พบบ่อยที่สุดประการหนึ่งคือไวยากรณ์กลับด้าน

ผิด:

ไม่อนุญาต: Yandex

ขวา:

ตัวแทนผู้ใช้: Yandex

ผิด:

ไม่อนุญาต: /dir/ /cgi-bin/ /forum/

ขวา:

ไม่อนุญาต: /cgi-bin/

ไม่อนุญาต: /forum/

เมื่อประมวลผลข้อผิดพลาด 404 (ไม่พบเอกสาร) หากเว็บเซิร์ฟเวอร์แสดงหน้าพิเศษ และไฟล์ robots.txt หายไป อาจเป็นไปได้ที่โรบอตการค้นหาจะได้รับเมื่อร้องขอไฟล์ robots.txt หน้าพิเศษซึ่งไม่ใช่ไฟล์ในการจัดการการจัดทำดัชนีทั้งหมด

ข้อผิดพลาดที่เกี่ยวข้องกับการใช้ตัวพิมพ์ไม่ถูกต้องในไฟล์ robots.txt ตัวอย่างเช่น หากคุณต้องการปิดไดเร็กทอรี "cgi-bin" ในรายการ "Disallow" คุณจะไม่สามารถเขียนชื่อของไดเร็กทอรีเป็นตัวพิมพ์ใหญ่ "cgi-bin" ได้

ผิด:

ไม่อนุญาต: /CGI-BIN/

ขวา:

ไม่อนุญาต: /cgi-bin/

ข้อผิดพลาดที่เกี่ยวข้องกับเครื่องหมายทับเปิดหายไปเมื่อปิดไดเร็กทอรีจากการจัดทำดัชนี

ผิด:

ไม่อนุญาต: page.HTML

ขวา:

ไม่อนุญาต: /page.HTML

เพื่อหลีกเลี่ยงข้อผิดพลาดที่พบบ่อยที่สุด คุณสามารถตรวจสอบไฟล์ robots.txt ได้โดยใช้ Yandex.Webmaster หรือ Google Webmaster Tools การตรวจสอบจะดำเนินการหลังจากดาวน์โหลดไฟล์

6. บทสรุป

ดังนั้นการมีไฟล์ robots.txt ตลอดจนการรวบรวมไฟล์อาจส่งผลต่อการโปรโมตเว็บไซต์ในเครื่องมือค้นหา หากไม่ทราบไวยากรณ์ของไฟล์ robots.txt คุณสามารถป้องกันไม่ให้หน้าเว็บที่ได้รับการโปรโมตที่เป็นไปได้ รวมถึงทั้งไซต์ไม่ได้รับการจัดทำดัชนี และในทางกลับกัน การรวบรวมไฟล์นี้อย่างมีประสิทธิภาพสามารถช่วยส่งเสริมทรัพยากรได้อย่างมาก ตัวอย่างเช่น คุณสามารถบล็อกเอกสารที่รบกวนการโปรโมตหน้าที่จำเป็นจากการจัดทำดัชนี

อ่าน:

สาเหตุของการทำงานผิดพลาดบนเมนบอร์ด หากชิปเซ็ตบนเมนบอร์ดเกิดไฟไหม้ การใช้สไตล์ใน Excel วิธีสร้างสไตล์ใหม่ของคุณเอง เกิดข้อผิดพลาดอะไรระหว่างการติดตั้ง? สถานภาพทางสังคมของบุคคลในสังคม การตีความข้อผิดพลาดแบบเต็ม

อ่าน:

เป็นที่นิยม:

วิธีโทรหาผู้ให้บริการ Beeline "สด" โดยตรง: หมายเลขโทรศัพท์โทรฟรี

ใหม่

วิธีฟื้นฟูรอบประจำเดือนหลังคลอดบุตร:

ส่วนของเว็บไซต์

ตัวเลือกของบรรณาธิการ:

การโฆษณา

Robots.txt - คำสั่งตัวแทนผู้ใช้และบอทเครื่องมือค้นหา

ผู้ใช้ตัวแทน

ชื่อของโรบ็อตเครื่องมือค้นหาและบทบาทในไฟล์ robots.txt

ตัวอย่างการใช้คำสั่ง Disallow และ Allow ใน robots.txt

คำสั่งแผนผังเว็บไซต์และโฮสต์ (สำหรับ Yandex) ใน Robots.txt

คำสั่งโฮสต์ - ระบุมิเรอร์หลักของไซต์สำหรับยานเดกซ์

หุ่นยนต์สำหรับ WordPress

แก้ไข robots.txt สำหรับ Joomla

วิธีบล็อกการจัดทำดัชนีไซต์มีอะไรบ้าง

1. ปิดการจัดทำดัชนีผ่าน WordPress

2. ผ่านไฟล์ robots.txt

ปิดเว็บไซต์ให้สมบูรณ์จากเครื่องมือค้นหาทั้งหมด

แยกโฟลเดอร์

เฉพาะใน Yandex

สำหรับ Google เท่านั้น

สำหรับเครื่องมือค้นหาอื่นๆ

ซ่อนภาพ

ปิดโดเมนย่อย

3. การใช้แท็ก name=”robots”

4. ในการตั้งค่าเซิร์ฟเวอร์

5. การใช้ส่วนหัว HTTP X-Robots-Tag

robots.txt คืออะไรและมีไว้เพื่ออะไร

วิธีสร้างไฟล์ Robots.txt ที่ถูกต้องสำหรับไซต์

การตั้งค่าไฟล์ Robots.txt: การจัดทำดัชนี มิเรอร์หลัก คำสั่ง

ไม่อนุญาต: ห้ามการจัดทำดัชนี

วิธีเปิดเว็บไซต์เพื่อทำดัชนี

กระจกไซต์หลัก

แผนผังไซต์: แผนผังไซต์ robots.txt

คำสั่ง Clean-param

คำสั่งการรวบรวมข้อมูลล่าช้า

อีกทางเลือกหนึ่ง

2. แนวคิดของไฟล์ robots.txt และข้อกำหนดของไฟล์

3. เนื้อหาของไฟล์ robots.txt

รายการตัวแทนผู้ใช้

รายการ "ไม่อนุญาต"

รายการ "อนุญาต"

รายการแผนผังไซต์

รายการ "โฮสต์"

การบันทึก "การรวบรวมข้อมูลล่าช้า"

ความคิดเห็น

4. ตัวอย่างไฟล์ robots.txt

5. ข้อผิดพลาดที่เกี่ยวข้องกับไฟล์ robots.txt

6. บทสรุป

เป็นที่นิยม:

วิธีโทรหาผู้ให้บริการ Beeline "สด" โดยตรง: หมายเลขโทรศัพท์โทรฟรี

ใหม่

การใช้สไตล์ใน Excel วิธีสร้างสไตล์ใหม่ของคุณเอง

เกิดข้อผิดพลาดอะไรระหว่างการติดตั้ง?

สถานภาพทางสังคมของบุคคลในสังคม

การตีความข้อผิดพลาดแบบเต็ม