ตัวเลือกของบรรณาธิการ:

การโฆษณา

บ้าน - แอนติไวรัส
วิธีเปิดใช้งานการจัดทำดัชนีใน robots txt ยิ่งมีการจัดทำดัชนีหน้าเว็บน้อยลง ปริมาณการเข้าชมก็จะยิ่งมากขึ้น

โรบ็อตส่วนใหญ่ได้รับการออกแบบมาอย่างดีและไม่ก่อให้เกิดปัญหาใดๆ กับเจ้าของเว็บไซต์ แต่ถ้าบอทเขียนโดยมือสมัครเล่นหรือ "มีบางอย่างผิดพลาด" ก็สามารถสร้างภาระที่สำคัญบนไซต์ที่รวบรวมข้อมูลได้ อย่างไรก็ตาม สไปเดอร์ไม่ได้เข้าสู่เซิร์ฟเวอร์เหมือนไวรัสเลย - พวกมันเพียงแค่ขอเพจที่ต้องการจากระยะไกล (อันที่จริงสิ่งเหล่านี้คือเบราว์เซอร์ที่คล้ายคลึงกัน แต่ไม่มีฟังก์ชันการดูเพจ)

Robots.txt - คำสั่งตัวแทนผู้ใช้และบอทเครื่องมือค้นหา

Robots.txt มีไวยากรณ์ที่เรียบง่าย ซึ่งมีการอธิบายอย่างละเอียด เช่น ใน ยานเดกซ์ช่วยด้วยและ Google ช่วยด้วย- โดยปกติจะบ่งชี้ว่าคำสั่งต่อไปนี้มีไว้สำหรับบอทการค้นหาใด: ชื่อบอท (" ผู้ใช้ตัวแทน") อนุญาต (" อนุญาต") และห้าม (" ไม่อนุญาต") และ "แผนผังไซต์" ยังถูกใช้อย่างแข็งขันเพื่อระบุให้เครื่องมือค้นหาทราบอย่างชัดเจนว่าไฟล์แผนที่นั้นอยู่ที่ใด

มาตรฐานนี้ถูกสร้างขึ้นเมื่อนานมาแล้วและมีบางอย่างถูกเพิ่มเข้ามาในภายหลัง มีคำสั่งและกฎการออกแบบที่โรบ็อตของเครื่องมือค้นหาบางประเภทเท่านั้นที่จะเข้าใจได้ ใน RuNet มีเพียง Yandex และ Google เท่านั้นที่สนใจซึ่งหมายความว่าคุณควรทำความคุ้นเคยกับความช่วยเหลือในการรวบรวม robots.txt ในรายละเอียดโดยเฉพาะ (ฉันได้ให้ลิงก์ไว้ในย่อหน้าก่อนหน้า)

ตัวอย่างเช่น ก่อนหน้านี้เครื่องมือค้นหา Yandex มีประโยชน์ในการระบุว่าโครงการเว็บของคุณเป็นโครงการหลักในคำสั่ง "โฮสต์" พิเศษซึ่งมีเพียงเครื่องมือค้นหานี้เท่านั้นที่เข้าใจ (รวมถึง Mail.ru ด้วยเนื่องจากการค้นหาของพวกเขามาจาก Yandex ). จริงอยู่ที่ต้นปี 2561 ยานเดกซ์ยังคงยกเลิกโฮสต์และตอนนี้ฟังก์ชันต่างๆ ของมันก็เหมือนกับเครื่องมือค้นหาอื่นๆ ที่ดำเนินการโดยการเปลี่ยนเส้นทาง 301

แม้ว่าทรัพยากรของคุณจะไม่มีมิเรอร์ แต่ก็มีประโยชน์ในการระบุว่าตัวเลือกการสะกดคำใดเป็นตัวเลือกหลัก - .

ตอนนี้เรามาพูดถึงไวยากรณ์ของไฟล์นี้กันสักหน่อย คำสั่งใน robots.txt มีลักษณะดังนี้:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

รหัสที่ถูกต้องควรมี คำสั่ง "ไม่อนุญาต" อย่างน้อยหนึ่งคำสั่งหลังแต่ละรายการ “User-agent” ไฟล์ว่างจะถือว่าได้รับอนุญาตให้จัดทำดัชนีทั้งไซต์

ผู้ใช้ตัวแทน

คำสั่ง "ตัวแทนผู้ใช้"ต้องมีชื่อของบอทการค้นหา คุณสามารถกำหนดค่ากฎพฤติกรรมสำหรับเครื่องมือค้นหาแต่ละอันได้ (เช่น สร้างการห้ามการสร้างดัชนีโฟลเดอร์แยกต่างหากสำหรับ Yandex เท่านั้น) ตัวอย่างการเขียน “User-agent” ที่ส่งถึงบอททั้งหมดที่เยี่ยมชมทรัพยากรของคุณมีลักษณะดังนี้:

ตัวแทนผู้ใช้: *

หากคุณต้องการตั้งค่าเงื่อนไขบางอย่างใน "User-agent" สำหรับบอทตัวเดียวเท่านั้น เช่น Yandex คุณจะต้องเขียนสิ่งนี้:

ตัวแทนผู้ใช้: Yandex

ชื่อของโรบ็อตเครื่องมือค้นหาและบทบาทในไฟล์ robots.txt

บอทของทุกเครื่องมือค้นหามีชื่อเป็นของตัวเอง (เช่น StackRambler สำหรับนักเดินเตร่) ที่นี่ฉันจะให้รายชื่อผู้ที่มีชื่อเสียงที่สุด:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

เครื่องมือค้นหาสำคัญๆ ในบางครั้ง ยกเว้นบอทหลักนอกจากนี้ยังมีอินสแตนซ์แยกต่างหากสำหรับการจัดทำดัชนีบล็อก ข่าวสาร รูปภาพ ฯลฯ คุณสามารถรับข้อมูลมากมายเกี่ยวกับประเภทของบอท (สำหรับ Yandex) และ (สำหรับ Google)

จะทำอย่างไรในกรณีนี้? หากคุณต้องการเขียนกฎสำหรับการห้ามการจัดทำดัชนีซึ่งโรบ็อตของ Google ทุกประเภทต้องปฏิบัติตาม จากนั้นใช้ชื่อ Googlebot และสไปเดอร์อื่น ๆ ทั้งหมดของเครื่องมือค้นหานี้ก็จะต้องปฏิบัติตามเช่นกัน อย่างไรก็ตาม คุณสามารถแบนได้เฉพาะการจัดทำดัชนีรูปภาพโดยระบุบ็อต Googlebot-Image เป็น User-agent ตอนนี้ยังไม่ชัดเจนนัก แต่ด้วยตัวอย่าง ฉันคิดว่ามันจะง่ายกว่านี้

ตัวอย่างการใช้คำสั่ง Disallow และ Allow ใน robots.txt

ฉันจะให้สิ่งง่ายๆสองสามข้อแก่คุณ ตัวอย่างการใช้คำสั่งพร้อมคำอธิบายถึงการกระทำของเขา

  1. โค้ดด้านล่างอนุญาตให้บอททั้งหมด (ระบุด้วยเครื่องหมายดอกจันใน User-agent) จัดทำดัชนีเนื้อหาทั้งหมดโดยไม่มีข้อยกเว้น สิ่งนี้มอบให้ คำสั่งว่าง Disallow- ตัวแทนผู้ใช้: * ไม่อนุญาต:
  2. ในทางตรงกันข้ามรหัสต่อไปนี้ห้ามมิให้เครื่องมือค้นหาทั้งหมดเพิ่มหน้าของทรัพยากรนี้ลงในดัชนีโดยสิ้นเชิง ตั้งค่านี้เป็น Disallow ด้วย "/" ในช่องค่า
  3. ในกรณีนี้ บอททั้งหมดจะถูกห้ามไม่ให้ดูเนื้อหาของไดเร็กทอรี /image/ (http://mysite.ru/image/ เป็นพาธสัมบูรณ์ไปยังไดเร็กทอรีนี้) User-agent: * Disallow: /image/
  4. หากต้องการบล็อกไฟล์เดียว ก็เพียงพอที่จะลงทะเบียนเส้นทางที่แน่นอนของมัน (อ่าน): User-agent: * Disallow: /katalog1//katalog2/private_file.html

    เมื่อมองไปข้างหน้าฉันจะบอกว่าการใช้เครื่องหมายดอกจัน (*) ง่ายกว่าเพื่อไม่ให้เขียนเส้นทางแบบเต็ม:

    ไม่อนุญาต: /*private_file.html

  5. ในตัวอย่างด้านล่าง ไดเร็กทอรี "image" จะไม่ได้รับอนุญาต เช่นเดียวกับไฟล์และไดเร็กทอรีทั้งหมดที่ขึ้นต้นด้วยอักขระ "image" เช่น ไฟล์: "image.htm", "images.htm", ไดเร็กทอรี: "image", “ images1", "image34" ฯลฯ): User-agent: * Disallow: /image ความจริงก็คือตามค่าเริ่มต้นที่ส่วนท้ายของรายการจะมีเครื่องหมายดอกจันซึ่งจะแทนที่อักขระใด ๆ รวมถึงการขาดหายไปด้วย อ่านเกี่ยวกับเรื่องนี้ด้านล่าง
  6. โดยการใช้ อนุญาตคำสั่งเราอนุญาตให้เข้าถึงได้ เติมเต็ม ไม่อนุญาต อย่างดี ตัวอย่างเช่น ด้วยเงื่อนไขนี้ เราห้ามมิให้หุ่นยนต์ค้นหา Yandex ดาวน์โหลด (จัดทำดัชนี) ทุกอย่าง ยกเว้นหน้าเว็บที่ที่อยู่ขึ้นต้นด้วย /cgi-bin: User-agent: Yandex Allow: /cgi-bin Disallow: /

    หรือตัวอย่างที่ชัดเจนของการใช้ชุดค่าผสม Allow และ Disallow:

    ตัวแทนผู้ใช้: * Disallow: /catalog Allow: /catalog/auto

  7. เมื่ออธิบายเส้นทางสำหรับคำสั่ง Allow-Disallow คุณสามารถใช้สัญลักษณ์ได้ "*" และ "$"ดังนั้นการกำหนดนิพจน์เชิงตรรกะบางอย่าง
    1. เครื่องหมาย "*"(ดาว)หมายถึงลำดับอักขระใดๆ (รวมถึงว่างด้วย) ตัวอย่างต่อไปนี้ห้ามไม่ให้เครื่องมือค้นหาทั้งหมดจัดทำดัชนีไฟล์ที่มีนามสกุล “.php”: User-agent: * Disallow: *.php$
    2. เหตุใดจึงต้องมีในตอนท้าย? เครื่องหมาย $- ความจริงก็คือตามตรรกะของการรวบรวมไฟล์ robots.txt เครื่องหมายดอกจันเริ่มต้นจะถูกเพิ่มที่ส่วนท้ายของแต่ละคำสั่ง (ไม่มีอยู่ แต่ดูเหมือนว่าจะอยู่ที่นั่น) ตัวอย่างเช่น เราเขียน: Disallow: /images

      หมายความว่านี่เป็นเช่นเดียวกับ:

      ไม่อนุญาต: /images*

      เหล่านั้น. กฎนี้ห้ามมิให้สร้างดัชนีของไฟล์ทั้งหมด (หน้าเว็บ รูปภาพ และไฟล์ประเภทอื่นๆ) ที่มีที่อยู่ขึ้นต้นด้วย /images แล้วตามด้วยสิ่งใดก็ตาม (ดูตัวอย่างด้านบน) ดังนั้น, สัญลักษณ์ $มันจะยกเลิกเครื่องหมายดอกจันเริ่มต้นในตอนท้าย ตัวอย่างเช่น:

      ไม่อนุญาต: /images$

      ป้องกันการจัดทำดัชนีของไฟล์ /images เท่านั้น แต่ไม่ใช่ /images.html หรือ /images/primer.html ในตัวอย่างแรก เราห้ามไม่ให้สร้างดัชนีเฉพาะไฟล์ที่ลงท้ายด้วย .php (มีนามสกุลดังกล่าว) เพื่อไม่ให้จับสิ่งที่ไม่จำเป็น:

      ไม่อนุญาต: *.php$

  • ในเอ็นจิ้นจำนวนมาก ผู้ใช้ (URL ที่มนุษย์สามารถอ่านได้) ในขณะที่ URL ที่สร้างโดยระบบจะมีเครื่องหมายคำถาม "?" ในที่อยู่ คุณสามารถใช้ประโยชน์จากสิ่งนี้และเขียนกฎต่อไปนี้ใน robots.txt: User-agent: * Disallow: /*?

    เครื่องหมายดอกจันหลังเครื่องหมายคำถามบ่งบอกถึงตัวมันเอง แต่อย่างที่เราพบข้างต้น มันถูกบอกเป็นนัยแล้วในตอนท้าย ดังนั้น เราจะห้ามการจัดทำดัชนีหน้าการค้นหาและหน้าบริการอื่น ๆ ที่สร้างโดยเครื่องมือค้นหา ซึ่งโรบ็อตการค้นหาสามารถเข้าถึงได้ มันจะไม่ฟุ่มเฟือย เนื่องจาก CMS มักใช้เครื่องหมายคำถามเป็นตัวระบุเซสชัน ซึ่งอาจนำไปสู่การรวมหน้าที่ซ้ำกันในดัชนี

  • คำสั่งแผนผังเว็บไซต์และโฮสต์ (สำหรับ Yandex) ใน Robots.txt

    เพื่อหลีกเลี่ยงปัญหาอันไม่พึงประสงค์กับมิเรอร์ไซต์ ก่อนหน้านี้แนะนำให้เพิ่มคำสั่งโฮสต์ให้กับ robots.txt ซึ่งชี้บอท Yandex ไปที่มิเรอร์หลัก

    คำสั่งโฮสต์ - ระบุมิเรอร์หลักของไซต์สำหรับยานเดกซ์

    ตัวอย่างเช่นก่อนหน้านี้หากคุณ ยังไม่ได้เปลี่ยนไปใช้โปรโตคอลที่ปลอดภัยจำเป็นต้องระบุใน Host ไม่ใช่ URL แบบเต็ม แต่เป็นชื่อโดเมน (ไม่มี http:// เช่น .. ru) หากคุณเปลี่ยนมาใช้ https แล้ว คุณจะต้องระบุ URL แบบเต็ม (เช่น https://myhost.ru)

    เครื่องมือที่ยอดเยี่ยมสำหรับการต่อสู้กับเนื้อหาที่ซ้ำกัน - เสิร์ชเอ็นจิ้นจะไม่จัดทำดัชนีเพจหากมีการลงทะเบียน URL อื่นใน Canonical ตัวอย่างเช่น สำหรับหน้าดังกล่าวในบล็อกของฉัน (หน้าที่มีการแบ่งหน้า) Canonical ชี้ไปที่ https://site และไม่น่าจะมีปัญหากับชื่อที่ซ้ำกัน

    แต่ฉันพูดนอกเรื่อง...

    หากโครงการของคุณถูกสร้างขึ้นบนพื้นฐานของกลไกใดๆ ก็ตาม เนื้อหาที่ซ้ำกันจะเกิดขึ้นมีความเป็นไปได้สูงซึ่งหมายความว่าคุณต้องต่อสู้กับมัน รวมถึงความช่วยเหลือจากการแบนใน robots.txt และโดยเฉพาะอย่างยิ่งในเมตาแท็ก เพราะในกรณีแรก Google อาจเพิกเฉยต่อการแบน แต่จะทำไม่ได้อีกต่อไป เพื่อให้คำด่าเกี่ยวกับเมตาแท็ก ( นำขึ้นมาแบบนั้น)

    ตัวอย่างเช่น ใน WordPress หน้าที่มีเนื้อหาคล้ายกันมากสามารถจัดทำดัชนีโดยเครื่องมือค้นหา หากอนุญาตให้จัดทำดัชนีทั้งเนื้อหาหมวดหมู่ เนื้อหาที่เก็บแท็ก และเนื้อหาที่เก็บถาวรชั่วคราว แต่หากใช้เมตาแท็ก Robots ที่อธิบายไว้ข้างต้น คุณสร้างการห้ามการเก็บถาวรแท็กและการเก็บถาวรชั่วคราว (คุณสามารถทิ้งแท็กไว้และห้ามไม่ให้มีการจัดทำดัชนีเนื้อหาของหมวดหมู่) เนื้อหาที่ซ้ำกันจะไม่เกิดขึ้น วิธีการทำเช่นนี้อธิบายไว้ในลิงก์ที่ให้ไว้ด้านบน (ไปยังปลั๊กอิน OlInSeoPak)

    โดยสรุป ฉันจะบอกว่าไฟล์ Robots มีไว้สำหรับการตั้งค่ากฎสากลสำหรับการปฏิเสธการเข้าถึงไดเร็กทอรีทั้งหมดของไซต์หรือไฟล์และโฟลเดอร์ที่ชื่อมีอักขระที่ระบุ (โดยมาสก์) คุณสามารถดูตัวอย่างการตั้งค่าข้อห้ามดังกล่าวได้ที่ด้านบน

    ตอนนี้เรามาดูตัวอย่างเฉพาะของโรบอตที่ออกแบบมาสำหรับเอ็นจิ้นต่างๆ - Joomla, WordPress และ SMF โดยปกติแล้วทั้งสามตัวเลือกที่สร้างขึ้นสำหรับ CMS ที่แตกต่างกันจะมีความแตกต่างกันอย่างมาก (หากไม่รุนแรง) จริงอยู่พวกเขาทั้งหมดจะมีสิ่งหนึ่งที่เหมือนกันและช่วงเวลานี้เชื่อมต่อกับเครื่องมือค้นหา Yandex

    เพราะ ใน RuNet Yandex มีน้ำหนักค่อนข้างมากจากนั้นเราต้องคำนึงถึงความแตกต่างของงานทั้งหมดและที่นี่เรา คำสั่งโฮสต์จะช่วยได้- มันจะระบุให้เครื่องมือค้นหานี้ทราบถึงมิเรอร์หลักของไซต์ของคุณอย่างชัดเจน

    สำหรับสิ่งนี้ ขอแนะนำให้ใช้บล็อก User-agent แยกต่างหาก ซึ่งมีไว้สำหรับ Yandex เท่านั้น (User-agent: Yandex) เนื่องจากเครื่องมือค้นหาอื่นๆ อาจไม่เข้าใจโฮสต์ ดังนั้นการรวมไว้ในบันทึก User-agent ที่มีไว้สำหรับเครื่องมือค้นหาทั้งหมด (User-agent: *) อาจนำไปสู่ผลลัพธ์เชิงลบและการจัดทำดัชนีที่ไม่ถูกต้อง

    เป็นการยากที่จะบอกว่าสถานการณ์จริงๆ เป็นอย่างไร เนื่องจากอัลกอริธึมการค้นหาเป็นสิ่งที่อยู่ในตัวมันเอง ดังนั้นจึงควรทำตามคำแนะนำจะดีกว่า แต่ในกรณีนี้ เราจะต้องทำซ้ำในคำสั่ง User-agent: Yandex กฎทั้งหมดที่เราตั้ง User-agent: * หากคุณปล่อยให้ User-agent: Yandex ว่างเปล่า Disallow: ด้วยวิธีนี้คุณจะอนุญาตให้ Yandex ไปที่ใดก็ได้และลากทุกอย่างลงในดัชนี

    หุ่นยนต์สำหรับ WordPress

    ฉันจะไม่ยกตัวอย่างไฟล์ที่นักพัฒนาแนะนำ คุณสามารถดูได้ด้วยตัวเอง บล็อกเกอร์จำนวนมากไม่ได้จำกัดบอท Yandex และ Google เลยในการเดินผ่านเนื้อหาของเอ็นจิ้น WordPress บ่อยที่สุดในบล็อกคุณจะพบโรบ็อตที่เต็มไปด้วยปลั๊กอินโดยอัตโนมัติ

    แต่ในความคิดของฉัน เรายังควรช่วยค้นหาในงานที่ยากลำบากในการร่อนข้าวสาลีออกจากแกลบ ประการแรก Yandex และ Google bot จะต้องใช้เวลามากในการจัดทำดัชนีขยะนี้ และอาจไม่มีเวลาเหลือในการเพิ่มหน้าเว็บที่มีบทความใหม่ของคุณลงในดัชนี ประการที่สอง บอทที่คลานผ่านไฟล์กลไกขยะจะสร้างภาระเพิ่มเติมบนเซิร์ฟเวอร์ของโฮสต์ของคุณ ซึ่งไม่ดี

    คุณสามารถดูไฟล์เวอร์ชันของฉันได้ด้วยตัวเอง เก่าแล้วไม่เปลี่ยนมานานแล้วแต่ผมพยายามยึดหลัก “อย่าซ่อม ของที่เสีย” อยู่ที่คุณจะตัดสินใจ จะใช้ ทำเอง หรือขโมยจาก คนอื่น ฉันยังถูกห้ามในการจัดทำดัชนีหน้าเว็บที่มีการแบ่งหน้าจนกระทั่งเมื่อไม่นานมานี้ (Disallow: */page/) แต่เมื่อเร็ว ๆ นี้ฉันได้ลบมันออก โดยอาศัย Canonical ซึ่งฉันเขียนไว้ข้างต้น

    โดยทั่วไปแล้ว ไฟล์ที่ถูกต้องเท่านั้นสำหรับ WordPress อาจไม่มีอยู่จริง แน่นอนคุณสามารถใช้ข้อกำหนดเบื้องต้นใด ๆ ในนั้นได้ แต่ใครบอกว่าสิ่งเหล่านั้นจะถูกต้อง มีตัวเลือกมากมายสำหรับ robots.txt ในอุดมคติบนอินเทอร์เน็ต

    ฉันจะให้สุดขั้วสองประการ:

    1. คุณสามารถค้นหาเมกะไฟล์พร้อมคำอธิบายโดยละเอียด (สัญลักษณ์ # แยกความคิดเห็นที่ควรลบในไฟล์จริงได้ดีกว่า): User-agent: * # กฎทั่วไปสำหรับโรบ็อต ยกเว้น Yandex และ Google # เพราะ สำหรับพวกเขากฎอยู่ด้านล่าง Disallow: /cgi-bin # โฟลเดอร์บนโฮสต์ Disallow: /? # พารามิเตอร์คำขอทั้งหมดบนหน้าหลัก ไม่อนุญาต: /wp- # ไฟล์ WP ทั้งหมด: /wp-json/, /wp-includes, /wp-content/plugins ไม่อนุญาต: /wp/ # หากมีไดเร็กทอรีย่อย /wp/ โดยที่ ติดตั้ง CMS แล้ว ( ถ้าไม่เช่นนั้น # กฎก็สามารถลบได้) Disallow: *?s= # search Disallow: *&s= # search Disallow: /search/ # search Disallow: /author/ # author archive Disallow: /users/ # ที่เก็บถาวรของผู้แต่ง Disallow: */ trackback # trackbacks การแจ้งเตือนในความคิดเห็นเกี่ยวกับการปรากฏตัวของลิงก์ # เปิดไปยังบทความ Disallow: */feed # ฟีดทั้งหมด Disallow: */rss # rss feed Disallow: */embed # all embeddings Disallow : */wlwmanifest.xml # ไฟล์ manifest xml Windows Live Writer (หากคุณไม่ได้ใช้ # กฎสามารถลบได้) Disallow: /xmlrpc.php # ไฟล์ WordPress API Disallow: *utm= # ลิงก์ที่มีแท็ก utm Disallow : *openstat= # ลิงก์ที่มีแท็ก openstat อนุญาต: */uploads # เปิดโฟลเดอร์พร้อมไฟล์ที่อัปโหลด User-agent: GoogleBot # กฎสำหรับ Google (ฉันไม่ทำซ้ำความคิดเห็น) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # เปิดสคริปต์ js ภายใน /wp - (/*/ - สำหรับลำดับความสำคัญ) อนุญาต: /*/*.css # เปิดไฟล์ css ภายใน /wp- (/*/ - สำหรับลำดับความสำคัญ) อนุญาต: /wp-*.png # รูปภาพในปลั๊กอิน, โฟลเดอร์แคชและอื่น ๆ อนุญาต: /wp-*.jpg # ภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯ อนุญาต: /wp-*.jpeg # รูปภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯ อนุญาต: /wp-*.gif # รูปภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯ อนุญาต: /wp-admin/admin-ajax.php # ใช้โดยปลั๊กอินเพื่อไม่ให้บล็อก JS และ CSS User-agent: Yandex # กฎสำหรับ Yandex (ฉันไม่ทำซ้ำความคิดเห็น) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php อนุญาต: */uploads อนุญาต: /*/*.js อนุญาต: /*/*.css อนุญาต: /wp-*.png อนุญาต: /wp-*.jpg อนุญาต: /wp-*.jpeg อนุญาต: /wp-*.gif อนุญาต: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex ไม่แนะนำให้บล็อก # จากการจัดทำดัชนี แต่เป็นการลบ พารามิเตอร์แท็ก # Google ไม่รองรับกฎดังกล่าว Clean-Param: openstat # คล้ายกัน # ระบุไฟล์ Sitemap หนึ่งไฟล์ขึ้นไป (ไม่จำเป็นต้องทำซ้ำสำหรับ User-agent แต่ละรายการ #) แผนผังไซต์ Google XML สร้างแผนผังไซต์ 2 รายการตามตัวอย่างด้านล่าง แผนผังไซต์: http://site.ru/sitemap.xml แผนผังไซต์: http://site.ru/sitemap.xml.gz # ระบุมิเรอร์หลักของไซต์ดังตัวอย่างด้านล่าง (มี WWW / ไม่มี WWW หาก HTTPS # จากนั้นเขียนโปรโตคอล หากคุณต้องการระบุพอร์ต ให้ระบุ) คำสั่ง Host เข้าใจโดย # Yandex และ Mail.RU Google ไม่ได้คำนึงถึงมัน โฮสต์: www.site.ru
    2. แต่คุณสามารถใช้ตัวอย่างแบบเรียบง่ายได้: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Host: https://site.ru Sitemap: https://site. ru/sitemap.xml

    ความจริงน่าจะอยู่ตรงกลาง นอกจากนี้ อย่าลืมเพิ่มเมตาแท็ก Robots สำหรับหน้า "พิเศษ" เช่น การใช้ปลั๊กอินที่ยอดเยี่ยม - นอกจากนี้ยังจะช่วยคุณตั้งค่า Canonical ด้วย

    แก้ไข robots.txt สำหรับ Joomla

    ตัวแทนผู้ใช้: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /ภาษา/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/

    โดยหลักการแล้ว เกือบทุกอย่างจะถูกนำมาพิจารณาที่นี่และทำงานได้ดี สิ่งเดียวคือคุณควรเพิ่มกฎ User-agent: Yandex แยกต่างหากเพื่อแทรกคำสั่ง Host ซึ่งกำหนดมิเรอร์หลักสำหรับ Yandex และยังระบุเส้นทางไปยังไฟล์แผนผังไซต์ด้วย

    ดังนั้นในรูปแบบสุดท้าย โรบ็อตที่ถูกต้องสำหรับ Joomla ในความคิดของฉันควรมีลักษณะดังนี้:

    ตัวแทนผู้ใช้: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /ภาษา/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow : /*% ไม่อนุญาต: /index.php โฮสต์: vash_sait.ru (หรือ www.vash_sait.ru) ตัวแทนผู้ใช้: * อนุญาต: /*.css?*$ อนุญาต: /*.js?*$ อนุญาต: /* .jpg?*$ อนุญาต: /*.png?*$ ไม่อนุญาต: /ผู้ดูแลระบบ/ ไม่อนุญาต: /แคช/ ไม่อนุญาต: /รวม/ ไม่อนุญาต: /การติดตั้ง/ ไม่อนุญาต: /ภาษา/ ไม่อนุญาต: /ไลบรารี/ ไม่อนุญาต: /โมดูล/ ไม่อนุญาต : /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*. pdf Disallow: /*% Disallow: /index.php Sitemap: http://path ไปยังแมปรูปแบบ XML ของคุณ

    ใช่ โปรดทราบว่าในตัวเลือกที่สองจะมีคำสั่งอยู่ อนุญาต อนุญาตการจัดทำดัชนีสไตล์ สคริปต์ และรูปภาพ- สิ่งนี้เขียนขึ้นสำหรับ Google โดยเฉพาะ เนื่องจากบางครั้ง Googlebot บ่นว่าโรบอตห้ามสร้างดัชนีไฟล์เหล่านี้ เช่น จากโฟลเดอร์ที่มีธีมที่ใช้ เขายังขู่ว่าจะลดอันดับของเขาด้วยซ้ำ

    ดังนั้นเราจึงอนุญาตให้จัดทำดัชนีทั้งหมดนี้ล่วงหน้าโดยใช้ Allow อย่างไรก็ตาม สิ่งเดียวกันนี้เกิดขึ้นในไฟล์ตัวอย่างสำหรับ WordPress

    ขอให้โชคดี! พบกันเร็ว ๆ นี้ในหน้าของเว็บไซต์บล็อก

    คุณอาจจะสนใจ

    โดเมนที่มีและไม่มี www - ประวัติความเป็นมาของพวกเขา การใช้การเปลี่ยนเส้นทาง 301 เพื่อรวมเข้าด้วยกัน
    มิเรอร์ หน้าที่ซ้ำกัน และที่อยู่ URL - การตรวจสอบเว็บไซต์ของคุณหรือสิ่งที่อาจเป็นสาเหตุของความล้มเหลวในระหว่างการโปรโมต SEO SEO สำหรับผู้เริ่มต้น: 10 ประเด็นหลักในการตรวจสอบเว็บไซต์เชิงเทคนิค
    Bing webmaster - ศูนย์กลางสำหรับเว็บมาสเตอร์จากเครื่องมือค้นหา Bing
    Google ผู้ดูแลเว็บ - เครื่องมือคอนโซลการค้นหา (Google ผู้ดูแลเว็บ)
    วิธีหลีกเลี่ยงข้อผิดพลาดทั่วไปเมื่อโปรโมตเว็บไซต์
    วิธีโปรโมตเว็บไซต์ด้วยตัวเองโดยปรับปรุงการเพิ่มประสิทธิภาพคำหลักภายในและลบเนื้อหาที่ซ้ำกัน
    Yandex Webmaster - การจัดทำดัชนี ลิงก์ การเปิดเผยไซต์ การเลือกภูมิภาค การประพันธ์ และการตรวจสอบไวรัสใน Yandex Webmaster

    บ่อยครั้งที่จำเป็นต้องปิดไซต์จากการจัดทำดัชนีเช่นในระหว่างการพัฒนาเพื่อไม่ให้ข้อมูลที่ไม่จำเป็นเข้าสู่ดัชนีของเครื่องมือค้นหาหรือด้วยเหตุผลอื่น ในขณะเดียวกันก็มีหลายวิธีที่สามารถทำได้ เราจะดูวิธีทั้งหมดนี้ในบทความนี้

    มีสาเหตุหลายประการที่บังคับให้ผู้ดูแลเว็บซ่อนโครงการของตนจากโรบ็อตการค้นหา พวกเขามักจะหันไปใช้ขั้นตอนนี้ในสองกรณี:

      1. เมื่อคุณเพิ่งสร้างบล็อกและเปลี่ยนอินเทอร์เฟซ การนำทาง และพารามิเตอร์อื่น ๆ ให้กรอกข้อมูลด้วยสื่อต่างๆ แน่นอนว่าทรัพยากรบนเว็บและเนื้อหาที่อยู่ในนั้นจะไม่เป็นแบบที่คุณต้องการให้เป็นในท้ายที่สุด โดยปกติแล้ว จนกว่าไซต์จะเสร็จสมบูรณ์ ก็สมเหตุสมผลที่จะปิดไซต์จากการจัดทำดัชนีโดย Yandex และ Google เพื่อไม่ให้หน้าขยะเหล่านี้ไปอยู่ในดัชนี

        อย่าคิดว่าหากแหล่งข้อมูลของคุณเพิ่งปรากฏขึ้นและคุณไม่ได้ส่งลิงก์ของเครื่องมือค้นหามาจัดทำดัชนี พวกเขาก็จะไม่สังเกตเห็น นอกจากลิงก์แล้ว โรบ็อตยังคำนึงถึงการเข้าชมของคุณผ่านเบราว์เซอร์ด้วย

      2. บางครั้งนักพัฒนาจำเป็นต้องติดตั้งไซต์เวอร์ชันที่สองซึ่งเป็นอะนาล็อกของไซต์หลักที่พวกเขาทดสอบการปรับปรุง เป็นการดีกว่าที่จะปิดเวอร์ชันนี้ด้วยไซต์ที่ซ้ำกันจากการจัดทำดัชนีเพื่อไม่ให้เป็นอันตรายต่อโครงการหลักและไม่ทำให้การค้นหาเข้าใจผิด เครื่องยนต์

    วิธีบล็อกการจัดทำดัชนีไซต์มีอะไรบ้าง

    1. แถบเครื่องมือใน.
    2. การเปลี่ยนแปลงไฟล์ robots.txt
    3. ผ่านชื่อ = “หุ่นยนต์”
    4. การเขียนโค้ดในการตั้งค่าเซิร์ฟเวอร์

    1. ปิดการจัดทำดัชนีผ่าน WordPress

    หากเว็บไซต์สร้างด้วย WordPress นี่คือตัวเลือกของคุณ นี่เป็นวิธีที่ง่ายและรวดเร็วที่สุดในการซ่อนโปรเจ็กต์จากบอท:

    1. ไปที่ "แผงควบคุม"
    2. จากนั้นไปที่ "การตั้งค่า"
    3. จากนั้น - ถึง "การอ่าน"
    4. ค้นหาเมนู "การมองเห็นเครื่องมือค้นหา"
    5. ถัดจากบรรทัด "แนะนำโรบ็อตการค้นหาไม่ให้จัดทำดัชนีไซต์" ให้เลือกช่องทำเครื่องหมาย
    6. บันทึกการเปลี่ยนแปลงของคุณ


    ด้วยฟังก์ชันในตัว เอ็นจิ้นจะเปลี่ยน robots.txt โดยอัตโนมัติ ปรับกฎ และปิดการใช้งานการจัดทำดัชนีทรัพยากร

    เพียงแค่บันทึกควรสังเกตว่าการตัดสินใจขั้นสุดท้ายว่าจะรวมเว็บไซต์ไว้ในดัชนีหรือไม่นั้นขึ้นอยู่กับเครื่องมือค้นหา และคำเตือนนี้สามารถดูได้ด้านล่าง ตามที่แสดงในทางปฏิบัติ Yandex ไม่มีปัญหา แต่ Google สามารถจัดทำดัชนีเอกสารต่อไปได้

    2. ผ่านไฟล์ robots.txt

    หากคุณไม่มีโอกาสดำเนินการนี้ใน WordPress หรือมีกลไกไซต์อื่น คุณสามารถลบเว็บไซต์ออกจากเครื่องมือค้นหาได้ด้วยตนเอง นอกจากนี้ยังใช้งานง่ายอีกด้วย สร้างเอกสารข้อความปกติในรูปแบบ txt และเรียกมันว่าโรบอต

    จากนั้นวางลงในโฟลเดอร์รูทของพอร์ทัลของคุณเพื่อให้สามารถเปิดไฟล์ในพาธนี้ได้ site.ru/robots.txt

    แต่ตอนนี้คุณว่างเปล่าแล้ว ดังนั้นคุณจะต้องเขียนคำสั่งที่เหมาะสมลงไปซึ่งจะช่วยให้คุณสามารถบล็อกไซต์จากการจัดทำดัชนีทั้งหมดหรือเฉพาะองค์ประกอบบางส่วนเท่านั้น พิจารณาตัวเลือกทั้งหมดที่อาจเป็นประโยชน์กับคุณ

    ปิดเว็บไซต์ให้สมบูรณ์จากเครื่องมือค้นหาทั้งหมด

    ระบุคำสั่งต่อไปนี้ใน robots.txt:

    ตัวแทนผู้ใช้: * Disallow: /

    วิธีนี้จะป้องกันไม่ให้บอทของเครื่องมือค้นหาทั้งหมดประมวลผลและเข้าสู่ฐานข้อมูลข้อมูลทั้งหมดที่อยู่ในทรัพยากรบนเว็บของคุณ คุณสามารถตรวจสอบเอกสาร robots.txt ดังที่เราได้กล่าวไปแล้ว โดยป้อนลงในแถบที่อยู่ของเบราว์เซอร์ของคุณ: Your_domain_name.ru/robots.txt- หากคุณทำทุกอย่างถูกต้อง คุณจะเห็นทุกสิ่งที่คุณระบุในไฟล์ แต่หากเมื่อคุณไปยังที่อยู่ที่ระบุ คุณได้รับข้อผิดพลาด 404 เป็นไปได้มากว่าคุณส่งไฟล์ไปผิดที่

    แยกโฟลเดอร์

    ตัวแทนผู้ใช้: * Disallow: /folder/

    วิธีนี้จะซ่อนไฟล์ทั้งหมดที่อยู่ในโฟลเดอร์ที่ระบุ

    เฉพาะใน Yandex

    ตัวแทนผู้ใช้: Yandex Disallow: /

    หากต้องการตรวจสอบอีกครั้งว่าคุณสามารถลบบล็อกของคุณออกจาก Yandex ได้หรือไม่ ให้เพิ่มลงใน Yandex.Webmaster จากนั้นไปที่ส่วนที่เหมาะสมที่ https://webmaster.yandex.ru/tools/robotstxt/ ในช่องตรวจสอบ URL ให้แทรกลิงก์หลายรายการไปยังเอกสารทรัพยากรแล้วคลิก "ตรวจสอบ" หากพวกมันถูกซ่อนจากบอท ผลลัพธ์จะแสดงข้อความ “ห้ามตามกฎ /*?*” ถัดจากพวกมัน

    สำหรับ Google เท่านั้น

    User-agent: Googlebot ไม่อนุญาต: /

    คุณสามารถตรวจสอบว่าการแบนสำเร็จหรือไม่ในลักษณะเดียวกับ Yandex มีเพียงคุณเท่านั้นที่ต้องไปที่แผงผู้ดูแลเว็บ Google Search Console หากเอกสารถูกบล็อกจากเครื่องมือค้นหา ตรงข้ามกับลิงก์นั้นจะมีเขียนว่า "ถูกบล็อกโดยบรรทัด" และคุณจะเห็นบรรทัดที่สั่งบอทไม่ให้จัดทำดัชนี

    แต่มีความเป็นไปได้สูงที่คุณจะเห็นคำว่า "อนุญาต" มีสองตัวเลือกที่นี่: คุณทำอะไรผิด หรือ Google ยังคงจัดทำดัชนีหน้าที่ไม่ได้รับอนุญาตในเอกสารโรบ็อต ฉันได้กล่าวไปแล้วข้างต้นว่าสำหรับเครื่องมือค้นหาเอกสารนี้เป็นเพียงคำแนะนำเท่านั้นและการตัดสินใจขั้นสุดท้ายเกี่ยวกับการจัดทำดัชนียังคงอยู่กับพวกเขา

    สำหรับเครื่องมือค้นหาอื่นๆ

    เครื่องมือค้นหาทั้งหมดมีบอทของตัวเองพร้อมชื่อเฉพาะเพื่อให้เว็บมาสเตอร์สามารถลงทะเบียนพวกมันใน robots.txt และตั้งค่าคำสั่งสำหรับพวกมัน เราขอนำเสนอสิ่งที่พบบ่อยที่สุด (ยกเว้น Yandex และ Google):

    • เครื่องมือค้นหายาฮู.หุ่นยนต์ชื่อสเลอร์ป
    • ดาวเทียม.หุ่นยนต์ชื่อ SputnikBot
    • ปิง.ชื่อของหุ่นยนต์คือ MSNBot

    คุณสามารถค้นหารายชื่อบอททั้งหมดบนอินเทอร์เน็ตได้อย่างง่ายดาย

    ซ่อนภาพ

    เพื่อป้องกันไม่ให้เครื่องมือค้นหาจัดทำดัชนีรูปภาพ ให้เขียนคำสั่งต่อไปนี้ (จะขึ้นอยู่กับรูปแบบรูปภาพ):

    ตัวแทนผู้ใช้: * ไม่อนุญาต: *.png ไม่อนุญาต: *.jpg ไม่อนุญาต: *.gif

    ปิดโดเมนย่อย

    โดเมนย่อยใดๆ มี robots.txt ของตัวเอง ตามกฎแล้วจะอยู่ในโฟลเดอร์รูทของโดเมนย่อย เปิดเอกสารและป้อนโดยตรงที่นั่น:

    ตัวแทนผู้ใช้: * Disallow: /

    หากไม่มีเอกสารข้อความดังกล่าวในโฟลเดอร์โดเมนย่อย ให้สร้างด้วยตนเอง

    3. การใช้แท็ก name=”robots”

    อีกวิธีที่จะช่วยซ่อนเอกสารหรือทั้งไซต์จากโรบ็อตของเครื่องมือค้นหาคือการใช้เมตาแท็กของโรบ็อต ตัวเลือกนี้เป็นหนึ่งในลำดับความสำคัญสูงสุดสำหรับเครื่องมือค้นหา เมื่อต้องการทำเช่นนี้ ทุกที่ แต่อยู่ในแท็กเสมอ และคุณต้องเขียนโค้ด:

    4. ในการตั้งค่าเซิร์ฟเวอร์

    และวิธีการสุดท้ายที่ฉันอยากจะบอกคุณคือการเข้าถึงเซิร์ฟเวอร์ เว็บมาสเตอร์ใช้ตัวเลือกนี้เมื่อโรบ็อตไม่ตอบสนองต่อการกระทำที่อธิบายไว้ข้างต้นเลย บางครั้งสิ่งนี้เกิดขึ้น จากนั้นคุณต้องแก้ไขปัญหาในการตั้งค่าเซิร์ฟเวอร์โดยใช้ไฟล์ . เปิดมันและเขียนสิ่งนี้ลงไป:

    SetEnvIfNoCase ตัวแทนผู้ใช้ "^Googlebot" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Yandex" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Yahoo" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Aport" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^msnbot" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ " ^spider" search_bot SetEnvIfNoCase User-Agent "^Robot" search_bot SetEnvIfNoCase User-Agent "^php" search_bot SetEnvIfNoCase User-Agent "^Mail" search_bot SetEnvIfNoCase User-Agent "^bot" search_bot SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Snapbot" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^WordPress" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^BlogPulseLive" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Parser" search_bot

    5. การใช้ส่วนหัว HTTP X-Robots-Tag

    นี่เป็นการกำหนดค่าเซิร์ฟเวอร์ประเภทหนึ่งโดยใช้ไฟล์ .htaccess แต่วิธีนี้ใช้ได้ในระดับส่วนหัว นี่เป็นหนึ่งในวิธีที่น่าเชื่อถือที่สุดในการบล็อกไซต์จากการจัดทำดัชนี เนื่องจากมีการกำหนดค่าที่ระดับเซิร์ฟเวอร์

    ไม่มีเรื่องเล็ก ๆ น้อย ๆ ใน SEO บางครั้งไฟล์ขนาดเล็กเพียงไฟล์เดียวก็สามารถส่งผลต่อการโปรโมตเว็บไซต์ได้ - Robots.txtหากคุณต้องการให้ไซต์ของคุณได้รับการจัดทำดัชนีเพื่อให้โรบ็อตการค้นหารวบรวมข้อมูลหน้าเว็บที่คุณต้องการ คุณจะต้องเขียนคำแนะนำสำหรับไซต์เหล่านั้น

    “เป็นไปได้เหรอ?”คุณถามอาจจะ. ในการดำเนินการนี้ ไซต์ของคุณต้องมีไฟล์ robots.txtวิธีสร้างไฟล์อย่างถูกต้อง หุ่นยนต์กำหนดค่าและเพิ่มลงในไซต์ – เราจะพิจารณาเรื่องนี้ในบทความนี้

    robots.txt คืออะไรและมีไว้เพื่ออะไร

    Robots.txt เป็นไฟล์ข้อความปกติซึ่งมีคำแนะนำสำหรับโรบ็อตการค้นหา: หน้าเว็บใดควรรวบรวมข้อมูลและไม่ควรรวบรวมข้อมูล

    สำคัญ: ไฟล์จะต้องอยู่ในการเข้ารหัส UTF-8 มิฉะนั้นโรบ็อตการค้นหาอาจไม่เข้าใจ

    ไซต์ที่ไม่มีไฟล์นี้จะถูกจัดทำดัชนีหรือไม่มันจะใช้งานได้ แต่โรบ็อตสามารถ "แย่ง" หน้าที่ไม่พึงประสงค์จากการปรากฏในผลการค้นหาได้ เช่น หน้าเข้าสู่ระบบ แผงผู้ดูแลระบบ หน้าส่วนตัวของผู้ใช้ เว็บไซต์มิเรอร์ ฯลฯ ทั้งหมดนี้ถือเป็น "ขยะการค้นหา":

    หากข้อมูลส่วนบุคคลปรากฏในผลการค้นหา ทั้งคุณและไซต์อาจได้รับผลกระทบ อีกประการหนึ่ง: หากไม่มีไฟล์นี้ การสร้างดัชนีไซต์จะใช้เวลานานกว่า

    ในไฟล์ Robots.txt คุณสามารถระบุคำสั่งได้สามประเภทสำหรับสไปเดอร์ค้นหา:

    • ห้ามสแกน
    • อนุญาตให้สแกนได้
    • อนุญาตให้สแกนได้บางส่วน

    ทั้งหมดนี้กำหนดโดยใช้คำสั่ง

    วิธีสร้างไฟล์ Robots.txt ที่ถูกต้องสำหรับไซต์

    ไฟล์ Robots.txt สามารถสร้างได้ง่ายๆ ในโปรแกรม Notepad ซึ่งมีให้ใช้งานตามค่าเริ่มต้นในคอมพิวเตอร์ทุกเครื่อง การลงทะเบียนไฟล์จะใช้เวลาสูงสุดครึ่งชั่วโมงแม้แต่ผู้เริ่มต้น (ถ้าคุณรู้คำสั่ง)

    คุณยังสามารถใช้โปรแกรมอื่นได้ เช่น Notepad เป็นต้น นอกจากนี้ยังมีบริการออนไลน์ที่สามารถสร้างไฟล์ได้โดยอัตโนมัติ ตัวอย่างเช่นเช่นCY-PR.comหรือเมเดียโซวา

    คุณเพียงแค่ต้องระบุที่อยู่เว็บไซต์ของคุณซึ่งเครื่องมือค้นหาที่คุณต้องตั้งกฎและมิเรอร์หลัก (มีหรือไม่มี www) จากนั้นบริการจะทำทุกอย่างเอง

    โดยส่วนตัวแล้วฉันชอบวิธี "ล้าสมัย" แบบเก่ามากกว่า - การเขียนไฟล์ด้วยตนเองใน Notepad นอกจากนี้ยังมี "วิธีขี้เกียจ" - เพื่อไขปริศนานักพัฒนาของคุณด้วยสิ่งนี้ :) แต่ในกรณีนี้คุณควรตรวจสอบว่าทุกอย่างเขียนถูกต้องหรือไม่ มาดูวิธีสร้างไฟล์นี้และตำแหน่งที่ควรอยู่

    ไฟล์ Robots.txt ที่เสร็จแล้วควรอยู่ในโฟลเดอร์รูทของไซต์ แค่ไฟล์ไม่มีโฟลเดอร์:

    ต้องการตรวจสอบว่าอยู่ในไซต์ของคุณหรือไม่? พิมพ์ที่อยู่ต่อไปนี้ลงในแถบที่อยู่: site.ru/robots.txt- คุณจะเห็นหน้านี้ (หากมีไฟล์):

    ไฟล์ประกอบด้วยหลายบล็อกคั่นด้วยการเยื้อง แต่ละบล็อกประกอบด้วยคำแนะนำสำหรับโรบ็อตการค้นหาของเครื่องมือค้นหาที่แตกต่างกัน (รวมถึงบล็อกที่มีกฎทั่วไปสำหรับทุกคน) และบล็อกแยกต่างหากพร้อมลิงก์ไปยังแผนผังเว็บไซต์ - แผนผังเว็บไซต์

    ไม่จำเป็นต้องเยื้องภายในบล็อกด้วยกฎสำหรับโรบอตการค้นหาตัวเดียว

    แต่ละบล็อกเริ่มต้นด้วยคำสั่ง User-agent

    หลังจากแต่ละคำสั่งจะมีเครื่องหมาย “:” (โคลอน) ช่องว่างหลังจากนั้นระบุค่า (ตัวอย่างเช่นหน้าใดที่จะปิดจากการจัดทำดัชนี)

    คุณต้องระบุที่อยู่เพจที่เกี่ยวข้อง ไม่ใช่ที่อยู่ที่แน่นอน ญาติ - นี่คือไม่มี "www.site.ru" ตัวอย่างเช่น คุณต้องป้องกันไม่ให้มีการจัดทำดัชนีเพจwww.site.ru/shop- หลังจากเครื่องหมายทวิภาคเราจึงใส่ช่องว่าง เครื่องหมายทับ และ "shop":

    ไม่อนุญาต: /shop.

    เครื่องหมายดอกจัน (*) หมายถึงชุดอักขระใดๆ

    เครื่องหมายดอลลาร์ ($) คือจุดสิ้นสุดของบรรทัด

    คุณอาจตัดสินใจได้ - ทำไมต้องเขียนไฟล์ตั้งแต่เริ่มต้นหากคุณสามารถเปิดมันบนเว็บไซต์ใดก็ได้และคัดลอกมันเพื่อตัวคุณเอง?

    แต่ละไซต์จะต้องมีกฎที่ไม่ซ้ำกัน จำเป็นต้องคำนึงถึงคุณสมบัติต่างๆ ซีเอ็มเอส- ตัวอย่างเช่น แผงผู้ดูแลระบบเดียวกันจะอยู่ที่ /wp-admin บนเครื่องมือ WordPress แต่ในอีกแผงหนึ่งที่อยู่จะแตกต่างออกไป เช่นเดียวกับที่อยู่ของแต่ละหน้า แผนผังเว็บไซต์ และอื่นๆ

    การตั้งค่าไฟล์ Robots.txt: การจัดทำดัชนี มิเรอร์หลัก คำสั่ง

    ดังที่คุณเห็นในภาพหน้าจอแล้ว คำสั่ง User-agent มาก่อน มันบ่งบอกว่ากฎด้านล่างจะใช้กับโรบ็อตการค้นหาตัวใด

    User-agent: * - กฎสำหรับโรบ็อตการค้นหาทั้งหมด นั่นคือ เครื่องมือค้นหาใดๆ (Google, Yandex, Bing, Rambler ฯลฯ)

    User-agent: Googlebot – ระบุกฎสำหรับสไปเดอร์การค้นหาของ Google

    User-agent: Yandex – กฎสำหรับหุ่นยนต์ค้นหา Yandex

    สำหรับโรบ็อตการค้นหาตัวใดที่จะกำหนดกฎก่อนก็ไม่มีความแตกต่าง แต่โดยปกติแล้วพวกเขาจะเขียนคำแนะนำสำหรับหุ่นยนต์ทุกตัวก่อน

    ไม่อนุญาต: ห้ามการจัดทำดัชนี

    เพื่อป้องกันการจัดทำดัชนีเว็บไซต์โดยรวมหรือแต่ละหน้า ให้ใช้คำสั่ง Disallow

    ตัวอย่างเช่น คุณสามารถบล็อกไซต์ไม่ให้จัดทำดัชนีได้อย่างสมบูรณ์ (หากทรัพยากรอยู่ระหว่างการพัฒนาและคุณไม่ต้องการให้ปรากฏในผลการค้นหาในสถานะนี้) ในการดำเนินการนี้ คุณจะต้องป้อนข้อมูลต่อไปนี้:

    ตัวแทนผู้ใช้: *

    ไม่อนุญาต: /

    ดังนั้น โรบ็อตการค้นหาทั้งหมดจึงถูกห้ามไม่ให้สร้างดัชนีเนื้อหาบนเว็บไซต์

    และนี่คือวิธีที่คุณสามารถเปิดไซต์สำหรับการจัดทำดัชนี:

    ตัวแทนผู้ใช้: *

    ไม่อนุญาต:

    ดังนั้นให้ตรวจสอบว่ามีเครื่องหมายทับหลังคำสั่ง Disallow หรือไม่หากคุณต้องการปิดไซต์ หากคุณต้องการเปิดในภายหลังอย่าลืมลบกฎออก (และสิ่งนี้มักเกิดขึ้น)

    หากต้องการบล็อกแต่ละหน้าจากการจัดทำดัชนี คุณต้องระบุที่อยู่ของหน้าเหล่านั้น ฉันได้เขียนไปแล้วว่าทำอย่างไร:

    ตัวแทนผู้ใช้: *

    ไม่อนุญาต: /wp-admin

    ดังนั้นแผงผู้ดูแลระบบบนไซต์จึงถูกปิดจากมุมมองภายนอก

    สิ่งที่ต้องยกเว้นจากการจัดทำดัชนี:

    • แผงธุรการ;
    • หน้าส่วนตัวของผู้ใช้
    • ตะกร้า;
    • ผลการค้นหาไซต์
    • เข้าสู่ระบบ การลงทะเบียน หน้าการอนุญาต

    คุณสามารถบล็อกไฟล์บางประเภทไม่ให้สร้างดัชนีได้ สมมติว่าคุณมีไฟล์ .pdf บางไฟล์บนเว็บไซต์ของคุณ ซึ่งการจัดทำดัชนีเป็นสิ่งที่ไม่พึงประสงค์ และโรบ็อตการค้นหาจะสแกนไฟล์ที่อัปโหลดไปยังไซต์ได้อย่างง่ายดาย คุณสามารถบล็อกไม่ให้สร้างดัชนีได้ดังนี้:

    ตัวแทนผู้ใช้: *

    ไม่อนุญาต: /*. pdf$

    วิธีเปิดเว็บไซต์เพื่อทำดัชนี

    แม้ว่าไซต์จะปิดจากการจัดทำดัชนีอย่างสมบูรณ์ คุณก็สามารถเปิดเส้นทางไปยังไฟล์หรือหน้าบางไฟล์สำหรับโรบ็อตได้ สมมติว่าคุณกำลังออกแบบเว็บไซต์ใหม่ แต่แคตตาล็อกบริการยังคงเหมือนเดิม คุณสามารถนำหุ่นยนต์ค้นหาไปที่นั่นเพื่อให้พวกมันจัดทำดัชนีส่วนต่อไปได้ เมื่อต้องการทำเช่นนี้ ให้ใช้คำสั่งอนุญาต:

    ตัวแทนผู้ใช้: *

    อนุญาต: /uslugi

    ไม่อนุญาต: /

    กระจกไซต์หลัก

    จนถึงวันที่ 20 มีนาคม 2018 ในไฟล์ robots.txt สำหรับโรบ็อตค้นหา Yandex จำเป็นต้องระบุมิเรอร์หลักของไซต์ผ่านคำสั่งโฮสต์ ไม่จำเป็นต้องทำตอนนี้ก็เพียงพอแล้ว ตั้งค่าการเปลี่ยนเส้นทาง 301 แบบหน้าต่อหน้า .

    กระจกหลักคืออะไร? นี่คือที่อยู่เว็บไซต์ของคุณที่เป็นที่อยู่หลัก - มีหรือไม่มี www หากคุณไม่ได้ตั้งค่าการเปลี่ยนเส้นทาง ทั้งสองไซต์จะถูกจัดทำดัชนี นั่นคือจะมีการซ้ำกันของทุกหน้า

    แผนผังไซต์: แผนผังไซต์ robots.txt

    หลังจากระบุคำสั่งทั้งหมดสำหรับโรบ็อตแล้ว คุณจะต้องระบุเส้นทางไปยังแผนผังไซต์ แผนผังเว็บไซต์แสดงโรบ็อตว่า URL ทั้งหมดที่ต้องจัดทำดัชนีนั้นอยู่ที่ที่อยู่เฉพาะ ตัวอย่างเช่น:

    แผนผังเว็บไซต์: site.ru/sitemap.xml

    เมื่อโรบ็อตรวบรวมข้อมูลไซต์ มันจะเห็นว่ามีการเปลี่ยนแปลงอะไรบ้างในไฟล์นี้ ส่งผลให้หน้าใหม่ได้รับการจัดทำดัชนีเร็วขึ้น

    คำสั่ง Clean-param

    ในปี 2009 ยานเดกซ์ได้เปิดตัวคำสั่งใหม่ - Clean-param ด้วยความช่วยเหลือ คุณสามารถอธิบายพารามิเตอร์ไดนามิกที่ไม่ส่งผลกระทบต่อเนื้อหาของเพจได้ ส่วนใหญ่มักใช้คำสั่งนี้ในฟอรัม มีขยะมากมายที่นี่ เช่น รหัสเซสชัน การเรียงลำดับพารามิเตอร์ หากคุณระบุคำสั่งนี้ โรบ็อตการค้นหา Yandex จะไม่ดาวน์โหลดข้อมูลที่ซ้ำกันซ้ำๆ

    คุณสามารถเขียนคำสั่งนี้ได้ทุกที่ในไฟล์ robots.txt

    พารามิเตอร์ที่หุ่นยนต์ไม่จำเป็นต้องคำนึงถึงจะแสดงไว้ในส่วนแรกของค่าที่คั่นด้วยเครื่องหมาย &:

    พารามิเตอร์ที่สะอาด: sid&sort /forum/viewforum.php

    คำสั่งนี้ช่วยให้คุณหลีกเลี่ยงหน้าที่ซ้ำกันซึ่งมีที่อยู่แบบไดนามิก (ซึ่งมีเครื่องหมายคำถาม)

    คำสั่งการรวบรวมข้อมูลล่าช้า

    คำสั่งนี้จะมาช่วยเหลือผู้ที่มีเซิร์ฟเวอร์ที่อ่อนแอ

    การมาถึงของหุ่นยนต์ค้นหาเป็นภาระเพิ่มเติมบนเซิร์ฟเวอร์ หากไซต์ของคุณมีปริมาณการเข้าชมสูง ทรัพยากรก็อาจทนไม่ไหวและพังลง เป็นผลให้หุ่นยนต์จะได้รับข้อความแสดงข้อผิดพลาด 5xx หากเกิดสถานการณ์นี้ซ้ำๆ กัน เครื่องมือค้นหาอาจถือว่าไซต์นั้นไม่ทำงาน

    ลองนึกภาพว่าคุณกำลังทำงานอยู่และในขณะเดียวกันก็ต้องรับสายอยู่ตลอดเวลา ผลผลิตของคุณลดลง

    มันเหมือนกันกับเซิร์ฟเวอร์

    กลับไปที่คำสั่งกัน การหน่วงเวลาการรวบรวมข้อมูลช่วยให้คุณตั้งค่าการหน่วงเวลาในการสแกนหน้าไซต์เพื่อลดภาระบนเซิร์ฟเวอร์ กล่าวอีกนัยหนึ่ง คุณกำหนดระยะเวลาที่จะโหลดหน้าเว็บไซต์ พารามิเตอร์นี้ระบุเป็นวินาทีเป็นจำนวนเต็ม:

    จากผู้เขียน:คุณมีหน้าเว็บบนเว็บไซต์ที่ไม่ต้องการให้เครื่องมือค้นหาเห็นหรือไม่ จากบทความนี้ คุณจะได้เรียนรู้รายละเอียดวิธีการป้องกันการจัดทำดัชนีหน้าเว็บใน robots.txt ไม่ว่าจะถูกต้องหรือไม่ และโดยทั่วไปแล้วจะบล็อกการเข้าถึงหน้าเว็บได้อย่างไร

    ดังนั้น คุณจึงต้องป้องกันไม่ให้หน้าเว็บบางหน้าถูกจัดทำดัชนี วิธีที่ง่ายที่สุดในการทำเช่นนี้คือในไฟล์ robots.txt โดยเพิ่มบรรทัดที่จำเป็นลงไป ฉันต้องการทราบว่าเราได้ระบุที่อยู่โฟลเดอร์ที่สัมพันธ์กัน URL ของหน้าเว็บที่ระบุในลักษณะเดียวกัน หรือคุณสามารถป้อนเส้นทางที่แน่นอนได้

    สมมติว่าบล็อกของฉันมีหน้าเว็บ 2-3 หน้า ได้แก่ รายชื่อติดต่อ เกี่ยวกับฉัน และบริการของฉัน ฉันไม่อยากให้พวกเขาถูกจัดทำดัชนี ดังนั้นเราจึงเขียนว่า:

    ตัวแทนผู้ใช้: * Disallow: /kontakty/ Disallow: /about/ Disallow: /uslugi/

    อีกทางเลือกหนึ่ง

    เยี่ยมมาก แต่นี่ไม่ใช่วิธีเดียวที่จะบล็อกการเข้าถึงของโรบ็อตในบางหน้า ประการที่สองคือการวางเมตาแท็กพิเศษในโค้ด html โดยปกติแล้ว ให้วางเฉพาะในบันทึกที่จำเป็นต้องปิดเท่านั้น ดูเหมือนว่านี้:

    < meta name = "robots" content = "noindex,nofollow" >

    ต้องวางแท็กในคอนเทนเนอร์ส่วนหัวในเอกสาร html เพื่อให้ทำงานได้อย่างถูกต้อง อย่างที่คุณเห็น มันมีพารามิเตอร์สองตัว ชื่อถูกระบุเป็นโรบ็อตและระบุว่าคำแนะนำเหล่านี้มีไว้สำหรับโปรแกรมรวบรวมข้อมูลเว็บ

    พารามิเตอร์เนื้อหาต้องมีสองค่า โดยคั่นด้วยเครื่องหมายจุลภาค ประการแรกคือการห้ามหรือการอนุญาตให้จัดทำดัชนีข้อมูลข้อความบนเพจ ประการที่สองคือการบ่งชี้ว่าจะจัดทำดัชนีลิงก์บนเพจหรือไม่

    ดังนั้น หากคุณต้องการให้เพจไม่ถูกจัดทำดัชนีเลย ให้ระบุค่า noindex, nofollow กล่าวคือ ห้ามจัดทำดัชนีข้อความ และห้ามไม่ให้ลิงก์ติดตาม ถ้ามี มีกฎอยู่ว่าหากไม่มีข้อความบนเพจ ก็จะไม่ถูกจัดทำดัชนี กล่าวคือ หากข้อความทั้งหมดปิดอยู่ใน noindex ก็ไม่มีอะไรที่จะจัดทำดัชนี ดังนั้นจึงไม่มีสิ่งใดรวมอยู่ในดัชนี

    นอกจากนี้ยังมีค่าต่อไปนี้:

    noindex, follow – ห้ามการจัดทำดัชนีข้อความ แต่อนุญาตให้ติดตามลิงก์;

    ดัชนี nofollow – สามารถใช้ได้เมื่อควรนำเนื้อหาเข้าสู่ดัชนี แต่ควรปิดลิงก์ทั้งหมดในนั้น

    ดัชนีติดตาม – ค่าเริ่มต้น ทุกสิ่งได้รับอนุญาต

    ด้านเทคนิคของไซต์ที่สร้างขึ้นมีบทบาทสำคัญไม่น้อยในการโปรโมตเว็บไซต์ในเครื่องมือค้นหามากกว่าเนื้อหา หนึ่งในประเด็นทางเทคนิคที่สำคัญที่สุดคือการจัดทำดัชนีไซต์ เช่น การกำหนดพื้นที่ของไซต์ (ไฟล์และไดเร็กทอรี) ที่สามารถหรือไม่สามารถจัดทำดัชนีโดยโรบอตเครื่องมือค้นหา เพื่อจุดประสงค์เหล่านี้ จะใช้ robots.txt ซึ่งเป็นไฟล์พิเศษที่มีคำสั่งสำหรับโรบ็อตเครื่องมือค้นหา ไฟล์ robots.txt ที่ถูกต้องสำหรับ Yandex และ Google จะช่วยคุณหลีกเลี่ยงผลที่ไม่พึงประสงค์มากมายที่เกี่ยวข้องกับการจัดทำดัชนีไซต์

    2. แนวคิดของไฟล์ robots.txt และข้อกำหนดของไฟล์

    ไฟล์ /robots.txt มีวัตถุประสงค์เพื่อสั่งให้โรบ็อตค้นหา (สไปเดอร์) ทั้งหมดจัดทำดัชนีเซิร์ฟเวอร์ข้อมูลตามที่กำหนดไว้ในไฟล์นี้ เช่น เฉพาะไดเร็กทอรีและไฟล์เซิร์ฟเวอร์ที่ไม่ได้อธิบายไว้ใน /robots.txt ไฟล์นี้ควรมีบันทึกตั้งแต่ 0 รายการขึ้นไปที่เกี่ยวข้องกับโรบ็อตบางตัว (ตามที่กำหนดโดยค่าของฟิลด์ agent_id) และระบุสำหรับโรบ็อตแต่ละตัวหรือสำหรับทั้งหมดในคราวเดียวถึงสิ่งที่พวกเขาไม่จำเป็นต้องสร้างดัชนี

    ไวยากรณ์ของไฟล์ช่วยให้คุณสามารถตั้งค่าพื้นที่การจัดทำดัชนีที่จำกัด ทั้งสำหรับโรบ็อตทั้งหมดและสำหรับโรบ็อตเฉพาะ

    ไฟล์ robots.txt มีข้อกำหนดพิเศษ การไม่ปฏิบัติตามซึ่งอาจส่งผลให้โรบ็อตของเครื่องมือค้นหาอ่านไม่ถูกต้องหรือทำให้ไฟล์ไม่สามารถใช้งานได้โดยทั่วไป

    ข้อกำหนดพื้นฐาน:

    • ตัวอักษรทั้งหมดในชื่อไฟล์จะต้องเป็นตัวพิมพ์ใหญ่ กล่าวคือ จะต้องเป็นตัวพิมพ์เล็ก:
    • robots.txt ถูกต้อง
    • Robots.txt หรือ ROBOTS.TXT – ไม่ถูกต้อง
    • ไฟล์ robots.txt ต้องสร้างในรูปแบบข้อความ Unix เมื่อคัดลอกไฟล์นี้ไปยังเว็บไซต์ ไคลเอนต์ ftp จะต้องได้รับการกำหนดค่าสำหรับโหมดการแลกเปลี่ยนไฟล์ข้อความ
    • ต้องวางไฟล์ robots.txt ไว้ในไดเร็กทอรีรากของไซต์

    3. เนื้อหาของไฟล์ robots.txt

    ไฟล์ robots.txt มีสองรายการ: "User-agent" และ "Disallow" ชื่อของรายการเหล่านี้ไม่คำนึงถึงขนาดตัวพิมพ์

    เครื่องมือค้นหาบางรายการยังรองรับรายการเพิ่มเติมอีกด้วย ตัวอย่างเช่นเครื่องมือค้นหา Yandex ใช้บันทึก "โฮสต์" เพื่อกำหนดมิเรอร์หลักของไซต์ (มิเรอร์หลักของไซต์คือไซต์ที่อยู่ในดัชนีเครื่องมือค้นหา)

    แต่ละรายการมีวัตถุประสงค์ของตัวเองและสามารถปรากฏได้หลายครั้ง ขึ้นอยู่กับจำนวนหน้าและ/หรือไดเร็กทอรีที่ถูกบล็อกจากการจัดทำดัชนีและจำนวนโรบ็อตที่คุณติดต่อ

    รูปแบบบรรทัดที่ต้องการสำหรับไฟล์ robots.txt จะเป็นดังนี้:

    post_name[ไม่จำเป็น

    ช่องว่าง] : [ไม่จำเป็น

    ช่องว่าง] ความหมาย[ช่องว่างเพิ่มเติม]

    เพื่อให้ไฟล์ robots.txt ได้รับการพิจารณาว่าถูกต้อง จะต้องมีคำสั่ง "Disallow" อย่างน้อย 1 รายการต่อท้ายรายการ "User-agent"

    ไฟล์ robots.txt ที่ว่างเปล่าโดยสิ้นเชิงจะเทียบเท่ากับการไม่มีไฟล์ robots.txt ซึ่งหมายถึงการอนุญาตให้จัดทำดัชนีทั้งไซต์

    รายการตัวแทนผู้ใช้

    รายการ “User-agent” ต้องมีชื่อของโรบ็อตการค้นหา ในรายการนี้ คุณสามารถบอกโรบ็อตแต่ละตัวว่าหน้าใดของเว็บไซต์ที่จะจัดทำดัชนีและหน้าใดไม่ทำดัชนี

    ตัวอย่างของรายการ “User-agent” ซึ่งเข้าถึงเครื่องมือค้นหาทั้งหมดโดยไม่มีข้อยกเว้น และใช้สัญลักษณ์ “*”:

    ตัวอย่างของบันทึก “User-agent” ซึ่งมีการติดต่อเฉพาะหุ่นยนต์เครื่องมือค้นหาของ Rambler เท่านั้น:

    ตัวแทนผู้ใช้: StackRambler

    หุ่นยนต์เครื่องมือค้นหาแต่ละตัวมีชื่อของตัวเอง มีสองวิธีหลักในการค้นหา (ชื่อ):

    บนเว็บไซต์ของเสิร์ชเอ็นจิ้นหลายแห่งมีส่วน "ช่วยเหลือผู้ดูแลเว็บ" เฉพาะทางซึ่งมักจะระบุชื่อของโรบ็อตการค้นหา

    เมื่อดูบันทึกของเว็บเซิร์ฟเวอร์ เช่น เมื่อดูการเรียกไปยังไฟล์ robots.txt คุณจะเห็นชื่อจำนวนมากที่มีชื่อของเครื่องมือค้นหาหรือบางส่วน ดังนั้นสิ่งที่คุณต้องทำคือเลือกชื่อที่ต้องการและป้อนลงในไฟล์ robots.txt

    รายการ "ไม่อนุญาต"

    บันทึก "ไม่อนุญาต" ต้องมีคำแนะนำที่ระบุให้โรบ็อตค้นหาทราบจากบันทึก "ตัวแทนผู้ใช้" ว่าไฟล์และ/หรือไดเร็กทอรีใดบ้างที่ไม่ได้รับอนุญาตจากการจัดทำดัชนี

    มาดูตัวอย่างต่างๆ ของการบันทึก "ไม่อนุญาต"

    ตัวอย่างรายการใน robots.txt (อนุญาตให้ทุกอย่างจัดทำดัชนี):

    ไม่อนุญาต:

    ตัวอย่าง (ห้ามใช้ไซต์นี้โดยสมบูรณ์ ใช้สัญลักษณ์ “/” สำหรับสิ่งนี้): ไม่อนุญาต: /

    ตัวอย่าง (ไฟล์ “page.htm” ที่อยู่ในไดเร็กทอรีรากและไฟล์ “page2.htm” ที่อยู่ในไดเร็กทอรี “dir” ไม่ได้รับอนุญาตให้จัดทำดัชนี):

    ไม่อนุญาต: /page.htm

    ไม่อนุญาต: /dir/page2.htm

    ตัวอย่าง (ไดเร็กทอรี “cgi-bin” และ “ฟอรั่ม” ดังนั้น เนื้อหาทั้งหมดของไดเร็กทอรีนี้จึงไม่ได้รับอนุญาตสำหรับการจัดทำดัชนี):

    ไม่อนุญาต: /cgi-bin/

    ไม่อนุญาต: /forum/

    คุณสามารถบล็อกเอกสารและ (หรือ) ไดเร็กทอรีจำนวนหนึ่งที่เริ่มต้นด้วยอักขระเดียวกันจากการจัดทำดัชนีโดยใช้รายการ "Disallow" เพียงรายการเดียว ในการดำเนินการนี้ คุณจะต้องป้อนอักขระเริ่มต้นที่เหมือนกันโดยไม่มีเครื่องหมายทับ

    ตัวอย่าง (ไดเร็กทอรี “dir” ถูกห้ามสำหรับการจัดทำดัชนี เช่นเดียวกับไฟล์และไดเร็กทอรีทั้งหมดที่ขึ้นต้นด้วยตัวอักษร “dir” เช่น ไฟล์: “dir.htm”, “direct.htm”, ไดเร็กทอรี: “dir”, “directory1 ” ", "ไดเรกทอรี2" ฯลฯ):

    รายการ "อนุญาต"

    ตัวเลือก "อนุญาต" ใช้เพื่อแสดงข้อยกเว้นจากไดเร็กทอรีและเพจที่ไม่สามารถจัดทำดัชนีได้ซึ่งระบุโดยรายการ "ไม่อนุญาต"

    ตัวอย่างเช่น มีบันทึกดังนี้:

    ไม่อนุญาต: /forum/

    แต่ในกรณีนี้ จำเป็นต้องสร้างดัชนีเพจ page1 ในไดเร็กทอรี /forum/ จากนั้นจะต้องมีบรรทัดต่อไปนี้ในไฟล์ robots.txt:

    ไม่อนุญาต: /forum/

    อนุญาต: /forum/page1

    รายการแผนผังไซต์

    รายการนี้ระบุตำแหน่งของแผนผังเว็บไซต์ในรูปแบบ xml ซึ่งใช้โดยโรบ็อตการค้นหา รายการนี้ระบุเส้นทางไปยังไฟล์นี้

    แผนผังเว็บไซต์: http://site.ru/sitemap.xml

    รายการ "โฮสต์"

    เครื่องมือค้นหา Yandex ใช้บันทึก "โฮสต์" มีความจำเป็นต้องกำหนดมิเรอร์หลักของไซต์ เช่น หากไซต์มีมิเรอร์ (มิเรอร์เป็นสำเนาบางส่วนหรือทั้งหมดของไซต์ บางครั้งการมีทรัพยากรที่ซ้ำกันเป็นสิ่งจำเป็นสำหรับเจ้าของไซต์ที่มีผู้เยี่ยมชมสูงเพื่อเพิ่มความน่าเชื่อถือและ ความพร้อมใช้งานของบริการ) จากนั้นใช้คำสั่ง "โฮสต์" คุณสามารถเลือกชื่อที่คุณต้องการจัดทำดัชนีได้ มิฉะนั้นยานเดกซ์จะเลือกมิเรอร์หลักด้วยตัวเองและชื่ออื่น ๆ จะถูกห้ามไม่ให้สร้างดัชนี

    เพื่อให้เข้ากันได้กับโรบ็อตการค้นหา ซึ่งไม่ยอมรับคำสั่ง Host เมื่อประมวลผลไฟล์ robots.txt จำเป็นต้องเพิ่มรายการ "Host" ทันทีหลังรายการ Disallow

    ตัวอย่าง: www.site.ru – กระจกหลัก:

    โฮสต์: www.site.ru

    การบันทึก "การรวบรวมข้อมูลล่าช้า"

    รายการนี้รับรู้โดยยานเดกซ์ มันเป็นคำสั่งสำหรับหุ่นยนต์ที่จะใช้ระยะเวลาที่กำหนด (เป็นวินาที) ระหว่างหน้าการจัดทำดัชนี บางครั้งสิ่งนี้จำเป็นเพื่อปกป้องไซต์จากการโอเวอร์โหลด

    ดังนั้นรายการต่อไปนี้หมายความว่าหุ่นยนต์ Yandex จำเป็นต้องย้ายจากหน้าหนึ่งไปอีกหน้าหนึ่งไม่เร็วกว่า 3 วินาที:

    ความคิดเห็น

    บรรทัดใดๆ ใน robots.txt ที่ขึ้นต้นด้วยอักขระ "#" จะถือเป็นความคิดเห็น อนุญาตให้แสดงความคิดเห็นที่ส่วนท้ายของบรรทัดคำสั่ง แต่โรบ็อตบางตัวอาจไม่รู้จักบรรทัดอย่างถูกต้อง

    ตัวอย่าง (ความคิดเห็นอยู่ในบรรทัดเดียวกับคำสั่ง):

    ไม่อนุญาต: /cgi-bin/ #comment

    ขอแนะนำให้วางความคิดเห็นไว้ในบรรทัดแยกต่างหาก อนุญาตให้เว้นวรรคที่ต้นบรรทัดได้ แต่ไม่แนะนำ

    4. ตัวอย่างไฟล์ robots.txt

    ตัวอย่าง (ความคิดเห็นอยู่ในบรรทัดแยก):

    ไม่อนุญาต: /cgi-bin/#comment

    ตัวอย่างไฟล์ robots.txt ที่อนุญาตให้โรบ็อตทั้งหมดจัดทำดัชนีทั้งไซต์:

    โฮสต์: www.site.ru

    ตัวอย่างไฟล์ robots.txt ที่ห้ามไม่ให้โรบ็อตทั้งหมดจัดทำดัชนีไซต์:

    โฮสต์: www.site.ru

    ตัวอย่างไฟล์ robots.txt ที่ห้ามมิให้โรบ็อตทั้งหมดสร้างดัชนีไดเร็กทอรี “abc” รวมถึงไดเร็กทอรีและไฟล์ทั้งหมดที่ขึ้นต้นด้วยอักขระ “abc”

    โฮสต์: www.site.ru

    ตัวอย่างของไฟล์ robots.txt ที่ป้องกันไม่ให้หน้า “page.htm” ที่อยู่ในไดเรกทอรีรากของเว็บไซต์ไม่ได้รับการจัดทำดัชนีโดยโรบ็อตการค้นหาของ Googlebot:

    ตัวแทนผู้ใช้: googlebot

    ไม่อนุญาต: /page.htm

    โฮสต์: www.site.ru

    ตัวอย่างไฟล์ robots.txt ที่ห้ามการจัดทำดัชนี:

    – ไปยังโรบ็อต “googlebot” – หน้า “page1.htm” ที่อยู่ในไดเร็กทอรี “ไดเรกทอรี”

    – ไปยังโรบ็อต “Yandex” – ไดเรกทอรีและเพจทั้งหมดที่ขึ้นต้นด้วยสัญลักษณ์ “dir” (/dir/, /direct/, dir.htm, ทิศทาง.htm ฯลฯ) และอยู่ในไดเรกทอรีรากของเว็บไซต์

    ตัวแทนผู้ใช้: googlebot

    ไม่อนุญาต: /directory/page1.htm

    ตัวแทนผู้ใช้: Yandex

    5. ข้อผิดพลาดที่เกี่ยวข้องกับไฟล์ robots.txt

    ข้อผิดพลาดที่พบบ่อยที่สุดประการหนึ่งคือไวยากรณ์กลับด้าน

    ผิด:

    ไม่อนุญาต: Yandex

    ขวา:

    ตัวแทนผู้ใช้: Yandex

    ผิด:

    ไม่อนุญาต: /dir/ /cgi-bin/ /forum/

    ขวา:

    ไม่อนุญาต: /cgi-bin/

    ไม่อนุญาต: /forum/

    เมื่อประมวลผลข้อผิดพลาด 404 (ไม่พบเอกสาร) หากเว็บเซิร์ฟเวอร์แสดงหน้าพิเศษ และไฟล์ robots.txt หายไป อาจเป็นไปได้ที่โรบอตการค้นหาจะได้รับเมื่อร้องขอไฟล์ robots.txt หน้าพิเศษซึ่งไม่ใช่ไฟล์ในการจัดการการจัดทำดัชนีทั้งหมด

    ข้อผิดพลาดที่เกี่ยวข้องกับการใช้ตัวพิมพ์ไม่ถูกต้องในไฟล์ robots.txt ตัวอย่างเช่น หากคุณต้องการปิดไดเร็กทอรี "cgi-bin" ในรายการ "Disallow" คุณจะไม่สามารถเขียนชื่อของไดเร็กทอรีเป็นตัวพิมพ์ใหญ่ "cgi-bin" ได้

    ผิด:

    ไม่อนุญาต: /CGI-BIN/

    ขวา:

    ไม่อนุญาต: /cgi-bin/

    ข้อผิดพลาดที่เกี่ยวข้องกับเครื่องหมายทับเปิดหายไปเมื่อปิดไดเร็กทอรีจากการจัดทำดัชนี

    ผิด:

    ไม่อนุญาต: page.HTML

    ขวา:

    ไม่อนุญาต: /page.HTML

    เพื่อหลีกเลี่ยงข้อผิดพลาดที่พบบ่อยที่สุด คุณสามารถตรวจสอบไฟล์ robots.txt ได้โดยใช้ Yandex.Webmaster หรือ Google Webmaster Tools การตรวจสอบจะดำเนินการหลังจากดาวน์โหลดไฟล์

    6. บทสรุป

    ดังนั้นการมีไฟล์ robots.txt ตลอดจนการรวบรวมไฟล์อาจส่งผลต่อการโปรโมตเว็บไซต์ในเครื่องมือค้นหา หากไม่ทราบไวยากรณ์ของไฟล์ robots.txt คุณสามารถป้องกันไม่ให้หน้าเว็บที่ได้รับการโปรโมตที่เป็นไปได้ รวมถึงทั้งไซต์ไม่ได้รับการจัดทำดัชนี และในทางกลับกัน การรวบรวมไฟล์นี้อย่างมีประสิทธิภาพสามารถช่วยส่งเสริมทรัพยากรได้อย่างมาก ตัวอย่างเช่น คุณสามารถบล็อกเอกสารที่รบกวนการโปรโมตหน้าที่จำเป็นจากการจัดทำดัชนี



     


    อ่าน:


    ใหม่

    วิธีฟื้นฟูรอบประจำเดือนหลังคลอดบุตร:

    การใช้สไตล์ใน Excel วิธีสร้างสไตล์ใหม่ของคุณเอง

    การใช้สไตล์ใน Excel วิธีสร้างสไตล์ใหม่ของคุณเอง

    หากคุณใช้ตัวเลือกเดียวกันนี้ในการจัดรูปแบบเซลล์ในเวิร์กชีตในสเปรดชีตของคุณอย่างสม่ำเสมอ ขอแนะนำให้สร้างสไตล์การจัดรูปแบบ...

    เกิดข้อผิดพลาดอะไรระหว่างการติดตั้ง?

    เกิดข้อผิดพลาดอะไรระหว่างการติดตั้ง?

    หมายเหตุ: โปรแกรม AutoLISP สามารถทำงานได้บน AutoCAD เวอร์ชันเต็มเท่านั้น โดยจะไม่ทำงานภายใต้ AutoCAD LT (ไม่รวมกรณีโหลด...

    สถานภาพทางสังคมของบุคคลในสังคม

    สถานภาพทางสังคมของบุคคลในสังคม

    เสนอแนะสิ่งที่กำหนดการเลือกสถานะหลักของบุคคล การใช้ข้อความและข้อเท็จจริงของชีวิตทางสังคม ตั้งสมมติฐานสองข้อ และ...

    การตีความข้อผิดพลาดแบบเต็ม

    การตีความข้อผิดพลาดแบบเต็ม

    มีผู้ใช้จำนวนไม่น้อยที่ต้องเผชิญกับปรากฏการณ์หน้าจอสีน้ำเงินแห่งความตาย จะทำอย่างไร (Windows 7 มักเกิดปัญหานี้บ่อยที่สุด)...

    ฟีดรูปภาพ อาร์เอสเอส