ส่วนของเว็บไซต์
ตัวเลือกของบรรณาธิการ:
- การสร้างทางลัดบนเดสก์ท็อปสำหรับเพื่อนร่วมชั้น
- หากรองเท้าไม่พอดีกับ Aliexpress: การกระทำที่ถูกต้องในกรณีนี้ ผลิตภัณฑ์ Aliexpress มีขนาดที่เหมาะสม
- ข้อพิพาทใน AliExpress เข้าร่วมข้อพิพาทใน AliExpress
- 3 ฐานข้อมูลแบบกระจาย
- ผู้จัดการเนื้อหา - ความรับผิดชอบ เงินเดือน การฝึกอบรม ข้อเสียและข้อดีของการทำงานเป็นผู้เชี่ยวชาญด้านเนื้อหา
- จะป้องกันตัวเองจากการขุดที่ซ่อนอยู่ในเบราว์เซอร์ของคุณได้อย่างไร?
- การกู้คืนรหัสผ่านใน Ask
- วิธีเปิดกล้องบนแล็ปท็อป
- ทำไมเพลงไม่เล่นบน VKontakte?
- วิธีเพิ่มขนาดของไดรฟ์ C โดยเสียค่าใช้จ่ายของไดรฟ์ D โดยไม่สูญเสียข้อมูล
การโฆษณา
วิธีเปิดใช้งานการจัดทำดัชนีใน robots txt ยิ่งมีการจัดทำดัชนีหน้าเว็บน้อยลง ปริมาณการเข้าชมก็จะยิ่งมากขึ้น |
โรบ็อตส่วนใหญ่ได้รับการออกแบบมาอย่างดีและไม่ก่อให้เกิดปัญหาใดๆ กับเจ้าของเว็บไซต์ แต่ถ้าบอทเขียนโดยมือสมัครเล่นหรือ "มีบางอย่างผิดพลาด" ก็สามารถสร้างภาระที่สำคัญบนไซต์ที่รวบรวมข้อมูลได้ อย่างไรก็ตาม สไปเดอร์ไม่ได้เข้าสู่เซิร์ฟเวอร์เหมือนไวรัสเลย - พวกมันเพียงแค่ขอเพจที่ต้องการจากระยะไกล (อันที่จริงสิ่งเหล่านี้คือเบราว์เซอร์ที่คล้ายคลึงกัน แต่ไม่มีฟังก์ชันการดูเพจ) Robots.txt - คำสั่งตัวแทนผู้ใช้และบอทเครื่องมือค้นหาRobots.txt มีไวยากรณ์ที่เรียบง่าย ซึ่งมีการอธิบายอย่างละเอียด เช่น ใน ยานเดกซ์ช่วยด้วยและ Google ช่วยด้วย- โดยปกติจะบ่งชี้ว่าคำสั่งต่อไปนี้มีไว้สำหรับบอทการค้นหาใด: ชื่อบอท (" ผู้ใช้ตัวแทน") อนุญาต (" อนุญาต") และห้าม (" ไม่อนุญาต") และ "แผนผังไซต์" ยังถูกใช้อย่างแข็งขันเพื่อระบุให้เครื่องมือค้นหาทราบอย่างชัดเจนว่าไฟล์แผนที่นั้นอยู่ที่ใด มาตรฐานนี้ถูกสร้างขึ้นเมื่อนานมาแล้วและมีบางอย่างถูกเพิ่มเข้ามาในภายหลัง มีคำสั่งและกฎการออกแบบที่โรบ็อตของเครื่องมือค้นหาบางประเภทเท่านั้นที่จะเข้าใจได้ ใน RuNet มีเพียง Yandex และ Google เท่านั้นที่สนใจซึ่งหมายความว่าคุณควรทำความคุ้นเคยกับความช่วยเหลือในการรวบรวม robots.txt ในรายละเอียดโดยเฉพาะ (ฉันได้ให้ลิงก์ไว้ในย่อหน้าก่อนหน้า) ตัวอย่างเช่น ก่อนหน้านี้เครื่องมือค้นหา Yandex มีประโยชน์ในการระบุว่าโครงการเว็บของคุณเป็นโครงการหลักในคำสั่ง "โฮสต์" พิเศษซึ่งมีเพียงเครื่องมือค้นหานี้เท่านั้นที่เข้าใจ (รวมถึง Mail.ru ด้วยเนื่องจากการค้นหาของพวกเขามาจาก Yandex ). จริงอยู่ที่ต้นปี 2561 ยานเดกซ์ยังคงยกเลิกโฮสต์และตอนนี้ฟังก์ชันต่างๆ ของมันก็เหมือนกับเครื่องมือค้นหาอื่นๆ ที่ดำเนินการโดยการเปลี่ยนเส้นทาง 301 แม้ว่าทรัพยากรของคุณจะไม่มีมิเรอร์ แต่ก็มีประโยชน์ในการระบุว่าตัวเลือกการสะกดคำใดเป็นตัวเลือกหลัก - . ตอนนี้เรามาพูดถึงไวยากรณ์ของไฟล์นี้กันสักหน่อย คำสั่งใน robots.txt มีลักษณะดังนี้: <поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел> รหัสที่ถูกต้องควรมี คำสั่ง "ไม่อนุญาต" อย่างน้อยหนึ่งคำสั่งหลังแต่ละรายการ “User-agent” ไฟล์ว่างจะถือว่าได้รับอนุญาตให้จัดทำดัชนีทั้งไซต์ ผู้ใช้ตัวแทนคำสั่ง "ตัวแทนผู้ใช้"ต้องมีชื่อของบอทการค้นหา คุณสามารถกำหนดค่ากฎพฤติกรรมสำหรับเครื่องมือค้นหาแต่ละอันได้ (เช่น สร้างการห้ามการสร้างดัชนีโฟลเดอร์แยกต่างหากสำหรับ Yandex เท่านั้น) ตัวอย่างการเขียน “User-agent” ที่ส่งถึงบอททั้งหมดที่เยี่ยมชมทรัพยากรของคุณมีลักษณะดังนี้: ตัวแทนผู้ใช้: * หากคุณต้องการตั้งค่าเงื่อนไขบางอย่างใน "User-agent" สำหรับบอทตัวเดียวเท่านั้น เช่น Yandex คุณจะต้องเขียนสิ่งนี้: ตัวแทนผู้ใช้: Yandex ชื่อของโรบ็อตเครื่องมือค้นหาและบทบาทในไฟล์ robots.txtบอทของทุกเครื่องมือค้นหามีชื่อเป็นของตัวเอง (เช่น StackRambler สำหรับนักเดินเตร่) ที่นี่ฉันจะให้รายชื่อผู้ที่มีชื่อเสียงที่สุด: Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot เครื่องมือค้นหาสำคัญๆ ในบางครั้ง ยกเว้นบอทหลักนอกจากนี้ยังมีอินสแตนซ์แยกต่างหากสำหรับการจัดทำดัชนีบล็อก ข่าวสาร รูปภาพ ฯลฯ คุณสามารถรับข้อมูลมากมายเกี่ยวกับประเภทของบอท (สำหรับ Yandex) และ (สำหรับ Google) จะทำอย่างไรในกรณีนี้? หากคุณต้องการเขียนกฎสำหรับการห้ามการจัดทำดัชนีซึ่งโรบ็อตของ Google ทุกประเภทต้องปฏิบัติตาม จากนั้นใช้ชื่อ Googlebot และสไปเดอร์อื่น ๆ ทั้งหมดของเครื่องมือค้นหานี้ก็จะต้องปฏิบัติตามเช่นกัน อย่างไรก็ตาม คุณสามารถแบนได้เฉพาะการจัดทำดัชนีรูปภาพโดยระบุบ็อต Googlebot-Image เป็น User-agent ตอนนี้ยังไม่ชัดเจนนัก แต่ด้วยตัวอย่าง ฉันคิดว่ามันจะง่ายกว่านี้ ตัวอย่างการใช้คำสั่ง Disallow และ Allow ใน robots.txtฉันจะให้สิ่งง่ายๆสองสามข้อแก่คุณ ตัวอย่างการใช้คำสั่งพร้อมคำอธิบายถึงการกระทำของเขา
เครื่องหมายดอกจันหลังเครื่องหมายคำถามบ่งบอกถึงตัวมันเอง แต่อย่างที่เราพบข้างต้น มันถูกบอกเป็นนัยแล้วในตอนท้าย ดังนั้น เราจะห้ามการจัดทำดัชนีหน้าการค้นหาและหน้าบริการอื่น ๆ ที่สร้างโดยเครื่องมือค้นหา ซึ่งโรบ็อตการค้นหาสามารถเข้าถึงได้ มันจะไม่ฟุ่มเฟือย เนื่องจาก CMS มักใช้เครื่องหมายคำถามเป็นตัวระบุเซสชัน ซึ่งอาจนำไปสู่การรวมหน้าที่ซ้ำกันในดัชนี คำสั่งแผนผังเว็บไซต์และโฮสต์ (สำหรับ Yandex) ใน Robots.txtเพื่อหลีกเลี่ยงปัญหาอันไม่พึงประสงค์กับมิเรอร์ไซต์ ก่อนหน้านี้แนะนำให้เพิ่มคำสั่งโฮสต์ให้กับ robots.txt ซึ่งชี้บอท Yandex ไปที่มิเรอร์หลัก คำสั่งโฮสต์ - ระบุมิเรอร์หลักของไซต์สำหรับยานเดกซ์ตัวอย่างเช่นก่อนหน้านี้หากคุณ ยังไม่ได้เปลี่ยนไปใช้โปรโตคอลที่ปลอดภัยจำเป็นต้องระบุใน Host ไม่ใช่ URL แบบเต็ม แต่เป็นชื่อโดเมน (ไม่มี http:// เช่น .. ru) หากคุณเปลี่ยนมาใช้ https แล้ว คุณจะต้องระบุ URL แบบเต็ม (เช่น https://myhost.ru)
บ่อยครั้งที่จำเป็นต้องปิดไซต์จากการจัดทำดัชนีเช่นในระหว่างการพัฒนาเพื่อไม่ให้ข้อมูลที่ไม่จำเป็นเข้าสู่ดัชนีของเครื่องมือค้นหาหรือด้วยเหตุผลอื่น ในขณะเดียวกันก็มีหลายวิธีที่สามารถทำได้ เราจะดูวิธีทั้งหมดนี้ในบทความนี้ มีสาเหตุหลายประการที่บังคับให้ผู้ดูแลเว็บซ่อนโครงการของตนจากโรบ็อตการค้นหา พวกเขามักจะหันไปใช้ขั้นตอนนี้ในสองกรณี:
วิธีบล็อกการจัดทำดัชนีไซต์มีอะไรบ้าง
1. ปิดการจัดทำดัชนีผ่าน WordPressหากเว็บไซต์สร้างด้วย WordPress นี่คือตัวเลือกของคุณ นี่เป็นวิธีที่ง่ายและรวดเร็วที่สุดในการซ่อนโปรเจ็กต์จากบอท:
เพียงแค่บันทึกควรสังเกตว่าการตัดสินใจขั้นสุดท้ายว่าจะรวมเว็บไซต์ไว้ในดัชนีหรือไม่นั้นขึ้นอยู่กับเครื่องมือค้นหา และคำเตือนนี้สามารถดูได้ด้านล่าง ตามที่แสดงในทางปฏิบัติ Yandex ไม่มีปัญหา แต่ Google สามารถจัดทำดัชนีเอกสารต่อไปได้ 2. ผ่านไฟล์ robots.txtหากคุณไม่มีโอกาสดำเนินการนี้ใน WordPress หรือมีกลไกไซต์อื่น คุณสามารถลบเว็บไซต์ออกจากเครื่องมือค้นหาได้ด้วยตนเอง นอกจากนี้ยังใช้งานง่ายอีกด้วย สร้างเอกสารข้อความปกติในรูปแบบ txt และเรียกมันว่าโรบอต จากนั้นวางลงในโฟลเดอร์รูทของพอร์ทัลของคุณเพื่อให้สามารถเปิดไฟล์ในพาธนี้ได้ site.ru/robots.txt แต่ตอนนี้คุณว่างเปล่าแล้ว ดังนั้นคุณจะต้องเขียนคำสั่งที่เหมาะสมลงไปซึ่งจะช่วยให้คุณสามารถบล็อกไซต์จากการจัดทำดัชนีทั้งหมดหรือเฉพาะองค์ประกอบบางส่วนเท่านั้น พิจารณาตัวเลือกทั้งหมดที่อาจเป็นประโยชน์กับคุณ ปิดเว็บไซต์ให้สมบูรณ์จากเครื่องมือค้นหาทั้งหมดระบุคำสั่งต่อไปนี้ใน robots.txt: ตัวแทนผู้ใช้: * Disallow: / วิธีนี้จะป้องกันไม่ให้บอทของเครื่องมือค้นหาทั้งหมดประมวลผลและเข้าสู่ฐานข้อมูลข้อมูลทั้งหมดที่อยู่ในทรัพยากรบนเว็บของคุณ คุณสามารถตรวจสอบเอกสาร robots.txt ดังที่เราได้กล่าวไปแล้ว โดยป้อนลงในแถบที่อยู่ของเบราว์เซอร์ของคุณ: Your_domain_name.ru/robots.txt- หากคุณทำทุกอย่างถูกต้อง คุณจะเห็นทุกสิ่งที่คุณระบุในไฟล์ แต่หากเมื่อคุณไปยังที่อยู่ที่ระบุ คุณได้รับข้อผิดพลาด 404 เป็นไปได้มากว่าคุณส่งไฟล์ไปผิดที่ แยกโฟลเดอร์ตัวแทนผู้ใช้: * Disallow: /folder/วิธีนี้จะซ่อนไฟล์ทั้งหมดที่อยู่ในโฟลเดอร์ที่ระบุ เฉพาะใน Yandexตัวแทนผู้ใช้: Yandex Disallow: /หากต้องการตรวจสอบอีกครั้งว่าคุณสามารถลบบล็อกของคุณออกจาก Yandex ได้หรือไม่ ให้เพิ่มลงใน Yandex.Webmaster จากนั้นไปที่ส่วนที่เหมาะสมที่ https://webmaster.yandex.ru/tools/robotstxt/ ในช่องตรวจสอบ URL ให้แทรกลิงก์หลายรายการไปยังเอกสารทรัพยากรแล้วคลิก "ตรวจสอบ" หากพวกมันถูกซ่อนจากบอท ผลลัพธ์จะแสดงข้อความ “ห้ามตามกฎ /*?*” ถัดจากพวกมัน สำหรับ Google เท่านั้นUser-agent: Googlebot ไม่อนุญาต: /คุณสามารถตรวจสอบว่าการแบนสำเร็จหรือไม่ในลักษณะเดียวกับ Yandex มีเพียงคุณเท่านั้นที่ต้องไปที่แผงผู้ดูแลเว็บ Google Search Console หากเอกสารถูกบล็อกจากเครื่องมือค้นหา ตรงข้ามกับลิงก์นั้นจะมีเขียนว่า "ถูกบล็อกโดยบรรทัด" และคุณจะเห็นบรรทัดที่สั่งบอทไม่ให้จัดทำดัชนี แต่มีความเป็นไปได้สูงที่คุณจะเห็นคำว่า "อนุญาต" มีสองตัวเลือกที่นี่: คุณทำอะไรผิด หรือ Google ยังคงจัดทำดัชนีหน้าที่ไม่ได้รับอนุญาตในเอกสารโรบ็อต ฉันได้กล่าวไปแล้วข้างต้นว่าสำหรับเครื่องมือค้นหาเอกสารนี้เป็นเพียงคำแนะนำเท่านั้นและการตัดสินใจขั้นสุดท้ายเกี่ยวกับการจัดทำดัชนียังคงอยู่กับพวกเขา สำหรับเครื่องมือค้นหาอื่นๆเครื่องมือค้นหาทั้งหมดมีบอทของตัวเองพร้อมชื่อเฉพาะเพื่อให้เว็บมาสเตอร์สามารถลงทะเบียนพวกมันใน robots.txt และตั้งค่าคำสั่งสำหรับพวกมัน เราขอนำเสนอสิ่งที่พบบ่อยที่สุด (ยกเว้น Yandex และ Google):
คุณสามารถค้นหารายชื่อบอททั้งหมดบนอินเทอร์เน็ตได้อย่างง่ายดาย ซ่อนภาพเพื่อป้องกันไม่ให้เครื่องมือค้นหาจัดทำดัชนีรูปภาพ ให้เขียนคำสั่งต่อไปนี้ (จะขึ้นอยู่กับรูปแบบรูปภาพ): ตัวแทนผู้ใช้: * ไม่อนุญาต: *.png ไม่อนุญาต: *.jpg ไม่อนุญาต: *.gif ปิดโดเมนย่อยโดเมนย่อยใดๆ มี robots.txt ของตัวเอง ตามกฎแล้วจะอยู่ในโฟลเดอร์รูทของโดเมนย่อย เปิดเอกสารและป้อนโดยตรงที่นั่น: ตัวแทนผู้ใช้: * Disallow: / หากไม่มีเอกสารข้อความดังกล่าวในโฟลเดอร์โดเมนย่อย ให้สร้างด้วยตนเอง 3. การใช้แท็ก name=”robots”อีกวิธีที่จะช่วยซ่อนเอกสารหรือทั้งไซต์จากโรบ็อตของเครื่องมือค้นหาคือการใช้เมตาแท็กของโรบ็อต ตัวเลือกนี้เป็นหนึ่งในลำดับความสำคัญสูงสุดสำหรับเครื่องมือค้นหา เมื่อต้องการทำเช่นนี้ ทุกที่ แต่อยู่ในแท็กเสมอ และคุณต้องเขียนโค้ด:
4. ในการตั้งค่าเซิร์ฟเวอร์และวิธีการสุดท้ายที่ฉันอยากจะบอกคุณคือการเข้าถึงเซิร์ฟเวอร์ เว็บมาสเตอร์ใช้ตัวเลือกนี้เมื่อโรบ็อตไม่ตอบสนองต่อการกระทำที่อธิบายไว้ข้างต้นเลย บางครั้งสิ่งนี้เกิดขึ้น จากนั้นคุณต้องแก้ไขปัญหาในการตั้งค่าเซิร์ฟเวอร์โดยใช้ไฟล์ . เปิดมันและเขียนสิ่งนี้ลงไป: SetEnvIfNoCase ตัวแทนผู้ใช้ "^Googlebot" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Yandex" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Yahoo" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Aport" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^msnbot" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ " ^spider" search_bot SetEnvIfNoCase User-Agent "^Robot" search_bot SetEnvIfNoCase User-Agent "^php" search_bot SetEnvIfNoCase User-Agent "^Mail" search_bot SetEnvIfNoCase User-Agent "^bot" search_bot SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Snapbot" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^WordPress" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^BlogPulseLive" search_bot SetEnvIfNoCase ตัวแทนผู้ใช้ "^Parser" search_bot 5. การใช้ส่วนหัว HTTP X-Robots-Tagนี่เป็นการกำหนดค่าเซิร์ฟเวอร์ประเภทหนึ่งโดยใช้ไฟล์ .htaccess แต่วิธีนี้ใช้ได้ในระดับส่วนหัว นี่เป็นหนึ่งในวิธีที่น่าเชื่อถือที่สุดในการบล็อกไซต์จากการจัดทำดัชนี เนื่องจากมีการกำหนดค่าที่ระดับเซิร์ฟเวอร์ ไม่มีเรื่องเล็ก ๆ น้อย ๆ ใน SEO บางครั้งไฟล์ขนาดเล็กเพียงไฟล์เดียวก็สามารถส่งผลต่อการโปรโมตเว็บไซต์ได้ - Robots.txtหากคุณต้องการให้ไซต์ของคุณได้รับการจัดทำดัชนีเพื่อให้โรบ็อตการค้นหารวบรวมข้อมูลหน้าเว็บที่คุณต้องการ คุณจะต้องเขียนคำแนะนำสำหรับไซต์เหล่านั้น “เป็นไปได้เหรอ?”คุณถามอาจจะ. ในการดำเนินการนี้ ไซต์ของคุณต้องมีไฟล์ robots.txtวิธีสร้างไฟล์อย่างถูกต้อง หุ่นยนต์กำหนดค่าและเพิ่มลงในไซต์ – เราจะพิจารณาเรื่องนี้ในบทความนี้ robots.txt คืออะไรและมีไว้เพื่ออะไรRobots.txt เป็นไฟล์ข้อความปกติซึ่งมีคำแนะนำสำหรับโรบ็อตการค้นหา: หน้าเว็บใดควรรวบรวมข้อมูลและไม่ควรรวบรวมข้อมูล สำคัญ: ไฟล์จะต้องอยู่ในการเข้ารหัส UTF-8 มิฉะนั้นโรบ็อตการค้นหาอาจไม่เข้าใจ ไซต์ที่ไม่มีไฟล์นี้จะถูกจัดทำดัชนีหรือไม่มันจะใช้งานได้ แต่โรบ็อตสามารถ "แย่ง" หน้าที่ไม่พึงประสงค์จากการปรากฏในผลการค้นหาได้ เช่น หน้าเข้าสู่ระบบ แผงผู้ดูแลระบบ หน้าส่วนตัวของผู้ใช้ เว็บไซต์มิเรอร์ ฯลฯ ทั้งหมดนี้ถือเป็น "ขยะการค้นหา": หากข้อมูลส่วนบุคคลปรากฏในผลการค้นหา ทั้งคุณและไซต์อาจได้รับผลกระทบ อีกประการหนึ่ง: หากไม่มีไฟล์นี้ การสร้างดัชนีไซต์จะใช้เวลานานกว่า ในไฟล์ Robots.txt คุณสามารถระบุคำสั่งได้สามประเภทสำหรับสไปเดอร์ค้นหา:
ทั้งหมดนี้กำหนดโดยใช้คำสั่ง วิธีสร้างไฟล์ Robots.txt ที่ถูกต้องสำหรับไซต์ไฟล์ Robots.txt สามารถสร้างได้ง่ายๆ ในโปรแกรม Notepad ซึ่งมีให้ใช้งานตามค่าเริ่มต้นในคอมพิวเตอร์ทุกเครื่อง การลงทะเบียนไฟล์จะใช้เวลาสูงสุดครึ่งชั่วโมงแม้แต่ผู้เริ่มต้น (ถ้าคุณรู้คำสั่ง) คุณยังสามารถใช้โปรแกรมอื่นได้ เช่น Notepad เป็นต้น นอกจากนี้ยังมีบริการออนไลน์ที่สามารถสร้างไฟล์ได้โดยอัตโนมัติ ตัวอย่างเช่นเช่นCY-PR.comหรือเมเดียโซวา คุณเพียงแค่ต้องระบุที่อยู่เว็บไซต์ของคุณซึ่งเครื่องมือค้นหาที่คุณต้องตั้งกฎและมิเรอร์หลัก (มีหรือไม่มี www) จากนั้นบริการจะทำทุกอย่างเอง โดยส่วนตัวแล้วฉันชอบวิธี "ล้าสมัย" แบบเก่ามากกว่า - การเขียนไฟล์ด้วยตนเองใน Notepad นอกจากนี้ยังมี "วิธีขี้เกียจ" - เพื่อไขปริศนานักพัฒนาของคุณด้วยสิ่งนี้ :) แต่ในกรณีนี้คุณควรตรวจสอบว่าทุกอย่างเขียนถูกต้องหรือไม่ มาดูวิธีสร้างไฟล์นี้และตำแหน่งที่ควรอยู่ ไฟล์ Robots.txt ที่เสร็จแล้วควรอยู่ในโฟลเดอร์รูทของไซต์ แค่ไฟล์ไม่มีโฟลเดอร์: ต้องการตรวจสอบว่าอยู่ในไซต์ของคุณหรือไม่? พิมพ์ที่อยู่ต่อไปนี้ลงในแถบที่อยู่: site.ru/robots.txt- คุณจะเห็นหน้านี้ (หากมีไฟล์): ไฟล์ประกอบด้วยหลายบล็อกคั่นด้วยการเยื้อง แต่ละบล็อกประกอบด้วยคำแนะนำสำหรับโรบ็อตการค้นหาของเครื่องมือค้นหาที่แตกต่างกัน (รวมถึงบล็อกที่มีกฎทั่วไปสำหรับทุกคน) และบล็อกแยกต่างหากพร้อมลิงก์ไปยังแผนผังเว็บไซต์ - แผนผังเว็บไซต์ ไม่จำเป็นต้องเยื้องภายในบล็อกด้วยกฎสำหรับโรบอตการค้นหาตัวเดียว แต่ละบล็อกเริ่มต้นด้วยคำสั่ง User-agent หลังจากแต่ละคำสั่งจะมีเครื่องหมาย “:” (โคลอน) ช่องว่างหลังจากนั้นระบุค่า (ตัวอย่างเช่นหน้าใดที่จะปิดจากการจัดทำดัชนี) คุณต้องระบุที่อยู่เพจที่เกี่ยวข้อง ไม่ใช่ที่อยู่ที่แน่นอน ญาติ - นี่คือไม่มี "www.site.ru" ตัวอย่างเช่น คุณต้องป้องกันไม่ให้มีการจัดทำดัชนีเพจwww.site.ru/shop- หลังจากเครื่องหมายทวิภาคเราจึงใส่ช่องว่าง เครื่องหมายทับ และ "shop": ไม่อนุญาต: /shop. เครื่องหมายดอกจัน (*) หมายถึงชุดอักขระใดๆ เครื่องหมายดอลลาร์ ($) คือจุดสิ้นสุดของบรรทัด คุณอาจตัดสินใจได้ - ทำไมต้องเขียนไฟล์ตั้งแต่เริ่มต้นหากคุณสามารถเปิดมันบนเว็บไซต์ใดก็ได้และคัดลอกมันเพื่อตัวคุณเอง? แต่ละไซต์จะต้องมีกฎที่ไม่ซ้ำกัน จำเป็นต้องคำนึงถึงคุณสมบัติต่างๆ ซีเอ็มเอส- ตัวอย่างเช่น แผงผู้ดูแลระบบเดียวกันจะอยู่ที่ /wp-admin บนเครื่องมือ WordPress แต่ในอีกแผงหนึ่งที่อยู่จะแตกต่างออกไป เช่นเดียวกับที่อยู่ของแต่ละหน้า แผนผังเว็บไซต์ และอื่นๆ การตั้งค่าไฟล์ Robots.txt: การจัดทำดัชนี มิเรอร์หลัก คำสั่งดังที่คุณเห็นในภาพหน้าจอแล้ว คำสั่ง User-agent มาก่อน มันบ่งบอกว่ากฎด้านล่างจะใช้กับโรบ็อตการค้นหาตัวใด User-agent: * - กฎสำหรับโรบ็อตการค้นหาทั้งหมด นั่นคือ เครื่องมือค้นหาใดๆ (Google, Yandex, Bing, Rambler ฯลฯ) User-agent: Googlebot – ระบุกฎสำหรับสไปเดอร์การค้นหาของ Google User-agent: Yandex – กฎสำหรับหุ่นยนต์ค้นหา Yandex สำหรับโรบ็อตการค้นหาตัวใดที่จะกำหนดกฎก่อนก็ไม่มีความแตกต่าง แต่โดยปกติแล้วพวกเขาจะเขียนคำแนะนำสำหรับหุ่นยนต์ทุกตัวก่อน ไม่อนุญาต: ห้ามการจัดทำดัชนีเพื่อป้องกันการจัดทำดัชนีเว็บไซต์โดยรวมหรือแต่ละหน้า ให้ใช้คำสั่ง Disallow ตัวอย่างเช่น คุณสามารถบล็อกไซต์ไม่ให้จัดทำดัชนีได้อย่างสมบูรณ์ (หากทรัพยากรอยู่ระหว่างการพัฒนาและคุณไม่ต้องการให้ปรากฏในผลการค้นหาในสถานะนี้) ในการดำเนินการนี้ คุณจะต้องป้อนข้อมูลต่อไปนี้: ตัวแทนผู้ใช้: * ไม่อนุญาต: / ดังนั้น โรบ็อตการค้นหาทั้งหมดจึงถูกห้ามไม่ให้สร้างดัชนีเนื้อหาบนเว็บไซต์ และนี่คือวิธีที่คุณสามารถเปิดไซต์สำหรับการจัดทำดัชนี: ตัวแทนผู้ใช้: * ไม่อนุญาต: ดังนั้นให้ตรวจสอบว่ามีเครื่องหมายทับหลังคำสั่ง Disallow หรือไม่หากคุณต้องการปิดไซต์ หากคุณต้องการเปิดในภายหลังอย่าลืมลบกฎออก (และสิ่งนี้มักเกิดขึ้น) หากต้องการบล็อกแต่ละหน้าจากการจัดทำดัชนี คุณต้องระบุที่อยู่ของหน้าเหล่านั้น ฉันได้เขียนไปแล้วว่าทำอย่างไร: ตัวแทนผู้ใช้: * ไม่อนุญาต: /wp-admin ดังนั้นแผงผู้ดูแลระบบบนไซต์จึงถูกปิดจากมุมมองภายนอก สิ่งที่ต้องยกเว้นจากการจัดทำดัชนี:
คุณสามารถบล็อกไฟล์บางประเภทไม่ให้สร้างดัชนีได้ สมมติว่าคุณมีไฟล์ .pdf บางไฟล์บนเว็บไซต์ของคุณ ซึ่งการจัดทำดัชนีเป็นสิ่งที่ไม่พึงประสงค์ และโรบ็อตการค้นหาจะสแกนไฟล์ที่อัปโหลดไปยังไซต์ได้อย่างง่ายดาย คุณสามารถบล็อกไม่ให้สร้างดัชนีได้ดังนี้: ตัวแทนผู้ใช้: * ไม่อนุญาต: /*. pdf$ วิธีเปิดเว็บไซต์เพื่อทำดัชนีแม้ว่าไซต์จะปิดจากการจัดทำดัชนีอย่างสมบูรณ์ คุณก็สามารถเปิดเส้นทางไปยังไฟล์หรือหน้าบางไฟล์สำหรับโรบ็อตได้ สมมติว่าคุณกำลังออกแบบเว็บไซต์ใหม่ แต่แคตตาล็อกบริการยังคงเหมือนเดิม คุณสามารถนำหุ่นยนต์ค้นหาไปที่นั่นเพื่อให้พวกมันจัดทำดัชนีส่วนต่อไปได้ เมื่อต้องการทำเช่นนี้ ให้ใช้คำสั่งอนุญาต: ตัวแทนผู้ใช้: * อนุญาต: /uslugi ไม่อนุญาต: / กระจกไซต์หลักจนถึงวันที่ 20 มีนาคม 2018 ในไฟล์ robots.txt สำหรับโรบ็อตค้นหา Yandex จำเป็นต้องระบุมิเรอร์หลักของไซต์ผ่านคำสั่งโฮสต์ ไม่จำเป็นต้องทำตอนนี้ก็เพียงพอแล้ว ตั้งค่าการเปลี่ยนเส้นทาง 301 แบบหน้าต่อหน้า . กระจกหลักคืออะไร? นี่คือที่อยู่เว็บไซต์ของคุณที่เป็นที่อยู่หลัก - มีหรือไม่มี www หากคุณไม่ได้ตั้งค่าการเปลี่ยนเส้นทาง ทั้งสองไซต์จะถูกจัดทำดัชนี นั่นคือจะมีการซ้ำกันของทุกหน้า แผนผังไซต์: แผนผังไซต์ robots.txtหลังจากระบุคำสั่งทั้งหมดสำหรับโรบ็อตแล้ว คุณจะต้องระบุเส้นทางไปยังแผนผังไซต์ แผนผังเว็บไซต์แสดงโรบ็อตว่า URL ทั้งหมดที่ต้องจัดทำดัชนีนั้นอยู่ที่ที่อยู่เฉพาะ ตัวอย่างเช่น: แผนผังเว็บไซต์: site.ru/sitemap.xml เมื่อโรบ็อตรวบรวมข้อมูลไซต์ มันจะเห็นว่ามีการเปลี่ยนแปลงอะไรบ้างในไฟล์นี้ ส่งผลให้หน้าใหม่ได้รับการจัดทำดัชนีเร็วขึ้น คำสั่ง Clean-paramในปี 2009 ยานเดกซ์ได้เปิดตัวคำสั่งใหม่ - Clean-param ด้วยความช่วยเหลือ คุณสามารถอธิบายพารามิเตอร์ไดนามิกที่ไม่ส่งผลกระทบต่อเนื้อหาของเพจได้ ส่วนใหญ่มักใช้คำสั่งนี้ในฟอรัม มีขยะมากมายที่นี่ เช่น รหัสเซสชัน การเรียงลำดับพารามิเตอร์ หากคุณระบุคำสั่งนี้ โรบ็อตการค้นหา Yandex จะไม่ดาวน์โหลดข้อมูลที่ซ้ำกันซ้ำๆ คุณสามารถเขียนคำสั่งนี้ได้ทุกที่ในไฟล์ robots.txt พารามิเตอร์ที่หุ่นยนต์ไม่จำเป็นต้องคำนึงถึงจะแสดงไว้ในส่วนแรกของค่าที่คั่นด้วยเครื่องหมาย &: พารามิเตอร์ที่สะอาด: sid&sort /forum/viewforum.php คำสั่งนี้ช่วยให้คุณหลีกเลี่ยงหน้าที่ซ้ำกันซึ่งมีที่อยู่แบบไดนามิก (ซึ่งมีเครื่องหมายคำถาม) คำสั่งการรวบรวมข้อมูลล่าช้าคำสั่งนี้จะมาช่วยเหลือผู้ที่มีเซิร์ฟเวอร์ที่อ่อนแอ การมาถึงของหุ่นยนต์ค้นหาเป็นภาระเพิ่มเติมบนเซิร์ฟเวอร์ หากไซต์ของคุณมีปริมาณการเข้าชมสูง ทรัพยากรก็อาจทนไม่ไหวและพังลง เป็นผลให้หุ่นยนต์จะได้รับข้อความแสดงข้อผิดพลาด 5xx หากเกิดสถานการณ์นี้ซ้ำๆ กัน เครื่องมือค้นหาอาจถือว่าไซต์นั้นไม่ทำงาน ลองนึกภาพว่าคุณกำลังทำงานอยู่และในขณะเดียวกันก็ต้องรับสายอยู่ตลอดเวลา ผลผลิตของคุณลดลง มันเหมือนกันกับเซิร์ฟเวอร์ กลับไปที่คำสั่งกัน การหน่วงเวลาการรวบรวมข้อมูลช่วยให้คุณตั้งค่าการหน่วงเวลาในการสแกนหน้าไซต์เพื่อลดภาระบนเซิร์ฟเวอร์ กล่าวอีกนัยหนึ่ง คุณกำหนดระยะเวลาที่จะโหลดหน้าเว็บไซต์ พารามิเตอร์นี้ระบุเป็นวินาทีเป็นจำนวนเต็ม: จากผู้เขียน:คุณมีหน้าเว็บบนเว็บไซต์ที่ไม่ต้องการให้เครื่องมือค้นหาเห็นหรือไม่ จากบทความนี้ คุณจะได้เรียนรู้รายละเอียดวิธีการป้องกันการจัดทำดัชนีหน้าเว็บใน robots.txt ไม่ว่าจะถูกต้องหรือไม่ และโดยทั่วไปแล้วจะบล็อกการเข้าถึงหน้าเว็บได้อย่างไร ดังนั้น คุณจึงต้องป้องกันไม่ให้หน้าเว็บบางหน้าถูกจัดทำดัชนี วิธีที่ง่ายที่สุดในการทำเช่นนี้คือในไฟล์ robots.txt โดยเพิ่มบรรทัดที่จำเป็นลงไป ฉันต้องการทราบว่าเราได้ระบุที่อยู่โฟลเดอร์ที่สัมพันธ์กัน URL ของหน้าเว็บที่ระบุในลักษณะเดียวกัน หรือคุณสามารถป้อนเส้นทางที่แน่นอนได้ สมมติว่าบล็อกของฉันมีหน้าเว็บ 2-3 หน้า ได้แก่ รายชื่อติดต่อ เกี่ยวกับฉัน และบริการของฉัน ฉันไม่อยากให้พวกเขาถูกจัดทำดัชนี ดังนั้นเราจึงเขียนว่า: ตัวแทนผู้ใช้: * Disallow: /kontakty/ Disallow: /about/ Disallow: /uslugi/ อีกทางเลือกหนึ่งเยี่ยมมาก แต่นี่ไม่ใช่วิธีเดียวที่จะบล็อกการเข้าถึงของโรบ็อตในบางหน้า ประการที่สองคือการวางเมตาแท็กพิเศษในโค้ด html โดยปกติแล้ว ให้วางเฉพาะในบันทึกที่จำเป็นต้องปิดเท่านั้น ดูเหมือนว่านี้:
ต้องวางแท็กในคอนเทนเนอร์ส่วนหัวในเอกสาร html เพื่อให้ทำงานได้อย่างถูกต้อง อย่างที่คุณเห็น มันมีพารามิเตอร์สองตัว ชื่อถูกระบุเป็นโรบ็อตและระบุว่าคำแนะนำเหล่านี้มีไว้สำหรับโปรแกรมรวบรวมข้อมูลเว็บ พารามิเตอร์เนื้อหาต้องมีสองค่า โดยคั่นด้วยเครื่องหมายจุลภาค ประการแรกคือการห้ามหรือการอนุญาตให้จัดทำดัชนีข้อมูลข้อความบนเพจ ประการที่สองคือการบ่งชี้ว่าจะจัดทำดัชนีลิงก์บนเพจหรือไม่ ดังนั้น หากคุณต้องการให้เพจไม่ถูกจัดทำดัชนีเลย ให้ระบุค่า noindex, nofollow กล่าวคือ ห้ามจัดทำดัชนีข้อความ และห้ามไม่ให้ลิงก์ติดตาม ถ้ามี มีกฎอยู่ว่าหากไม่มีข้อความบนเพจ ก็จะไม่ถูกจัดทำดัชนี กล่าวคือ หากข้อความทั้งหมดปิดอยู่ใน noindex ก็ไม่มีอะไรที่จะจัดทำดัชนี ดังนั้นจึงไม่มีสิ่งใดรวมอยู่ในดัชนี นอกจากนี้ยังมีค่าต่อไปนี้: noindex, follow – ห้ามการจัดทำดัชนีข้อความ แต่อนุญาตให้ติดตามลิงก์; ดัชนี nofollow – สามารถใช้ได้เมื่อควรนำเนื้อหาเข้าสู่ดัชนี แต่ควรปิดลิงก์ทั้งหมดในนั้น ดัชนีติดตาม – ค่าเริ่มต้น ทุกสิ่งได้รับอนุญาต ด้านเทคนิคของไซต์ที่สร้างขึ้นมีบทบาทสำคัญไม่น้อยในการโปรโมตเว็บไซต์ในเครื่องมือค้นหามากกว่าเนื้อหา หนึ่งในประเด็นทางเทคนิคที่สำคัญที่สุดคือการจัดทำดัชนีไซต์ เช่น การกำหนดพื้นที่ของไซต์ (ไฟล์และไดเร็กทอรี) ที่สามารถหรือไม่สามารถจัดทำดัชนีโดยโรบอตเครื่องมือค้นหา เพื่อจุดประสงค์เหล่านี้ จะใช้ robots.txt ซึ่งเป็นไฟล์พิเศษที่มีคำสั่งสำหรับโรบ็อตเครื่องมือค้นหา ไฟล์ robots.txt ที่ถูกต้องสำหรับ Yandex และ Google จะช่วยคุณหลีกเลี่ยงผลที่ไม่พึงประสงค์มากมายที่เกี่ยวข้องกับการจัดทำดัชนีไซต์ 2. แนวคิดของไฟล์ robots.txt และข้อกำหนดของไฟล์ไฟล์ /robots.txt มีวัตถุประสงค์เพื่อสั่งให้โรบ็อตค้นหา (สไปเดอร์) ทั้งหมดจัดทำดัชนีเซิร์ฟเวอร์ข้อมูลตามที่กำหนดไว้ในไฟล์นี้ เช่น เฉพาะไดเร็กทอรีและไฟล์เซิร์ฟเวอร์ที่ไม่ได้อธิบายไว้ใน /robots.txt ไฟล์นี้ควรมีบันทึกตั้งแต่ 0 รายการขึ้นไปที่เกี่ยวข้องกับโรบ็อตบางตัว (ตามที่กำหนดโดยค่าของฟิลด์ agent_id) และระบุสำหรับโรบ็อตแต่ละตัวหรือสำหรับทั้งหมดในคราวเดียวถึงสิ่งที่พวกเขาไม่จำเป็นต้องสร้างดัชนี ไวยากรณ์ของไฟล์ช่วยให้คุณสามารถตั้งค่าพื้นที่การจัดทำดัชนีที่จำกัด ทั้งสำหรับโรบ็อตทั้งหมดและสำหรับโรบ็อตเฉพาะ ไฟล์ robots.txt มีข้อกำหนดพิเศษ การไม่ปฏิบัติตามซึ่งอาจส่งผลให้โรบ็อตของเครื่องมือค้นหาอ่านไม่ถูกต้องหรือทำให้ไฟล์ไม่สามารถใช้งานได้โดยทั่วไป ข้อกำหนดพื้นฐาน:
3. เนื้อหาของไฟล์ robots.txtไฟล์ robots.txt มีสองรายการ: "User-agent" และ "Disallow" ชื่อของรายการเหล่านี้ไม่คำนึงถึงขนาดตัวพิมพ์ เครื่องมือค้นหาบางรายการยังรองรับรายการเพิ่มเติมอีกด้วย ตัวอย่างเช่นเครื่องมือค้นหา Yandex ใช้บันทึก "โฮสต์" เพื่อกำหนดมิเรอร์หลักของไซต์ (มิเรอร์หลักของไซต์คือไซต์ที่อยู่ในดัชนีเครื่องมือค้นหา) แต่ละรายการมีวัตถุประสงค์ของตัวเองและสามารถปรากฏได้หลายครั้ง ขึ้นอยู่กับจำนวนหน้าและ/หรือไดเร็กทอรีที่ถูกบล็อกจากการจัดทำดัชนีและจำนวนโรบ็อตที่คุณติดต่อ รูปแบบบรรทัดที่ต้องการสำหรับไฟล์ robots.txt จะเป็นดังนี้: post_name[ไม่จำเป็น ช่องว่าง] : [ไม่จำเป็น ช่องว่าง] ความหมาย[ช่องว่างเพิ่มเติม] เพื่อให้ไฟล์ robots.txt ได้รับการพิจารณาว่าถูกต้อง จะต้องมีคำสั่ง "Disallow" อย่างน้อย 1 รายการต่อท้ายรายการ "User-agent" ไฟล์ robots.txt ที่ว่างเปล่าโดยสิ้นเชิงจะเทียบเท่ากับการไม่มีไฟล์ robots.txt ซึ่งหมายถึงการอนุญาตให้จัดทำดัชนีทั้งไซต์ รายการตัวแทนผู้ใช้รายการ “User-agent” ต้องมีชื่อของโรบ็อตการค้นหา ในรายการนี้ คุณสามารถบอกโรบ็อตแต่ละตัวว่าหน้าใดของเว็บไซต์ที่จะจัดทำดัชนีและหน้าใดไม่ทำดัชนี ตัวอย่างของรายการ “User-agent” ซึ่งเข้าถึงเครื่องมือค้นหาทั้งหมดโดยไม่มีข้อยกเว้น และใช้สัญลักษณ์ “*”: ตัวอย่างของบันทึก “User-agent” ซึ่งมีการติดต่อเฉพาะหุ่นยนต์เครื่องมือค้นหาของ Rambler เท่านั้น: ตัวแทนผู้ใช้: StackRambler หุ่นยนต์เครื่องมือค้นหาแต่ละตัวมีชื่อของตัวเอง มีสองวิธีหลักในการค้นหา (ชื่อ): บนเว็บไซต์ของเสิร์ชเอ็นจิ้นหลายแห่งมีส่วน "ช่วยเหลือผู้ดูแลเว็บ" เฉพาะทางซึ่งมักจะระบุชื่อของโรบ็อตการค้นหา เมื่อดูบันทึกของเว็บเซิร์ฟเวอร์ เช่น เมื่อดูการเรียกไปยังไฟล์ robots.txt คุณจะเห็นชื่อจำนวนมากที่มีชื่อของเครื่องมือค้นหาหรือบางส่วน ดังนั้นสิ่งที่คุณต้องทำคือเลือกชื่อที่ต้องการและป้อนลงในไฟล์ robots.txt รายการ "ไม่อนุญาต"บันทึก "ไม่อนุญาต" ต้องมีคำแนะนำที่ระบุให้โรบ็อตค้นหาทราบจากบันทึก "ตัวแทนผู้ใช้" ว่าไฟล์และ/หรือไดเร็กทอรีใดบ้างที่ไม่ได้รับอนุญาตจากการจัดทำดัชนี มาดูตัวอย่างต่างๆ ของการบันทึก "ไม่อนุญาต" ตัวอย่างรายการใน robots.txt (อนุญาตให้ทุกอย่างจัดทำดัชนี): ไม่อนุญาต: ตัวอย่าง (ห้ามใช้ไซต์นี้โดยสมบูรณ์ ใช้สัญลักษณ์ “/” สำหรับสิ่งนี้): ไม่อนุญาต: / ตัวอย่าง (ไฟล์ “page.htm” ที่อยู่ในไดเร็กทอรีรากและไฟล์ “page2.htm” ที่อยู่ในไดเร็กทอรี “dir” ไม่ได้รับอนุญาตให้จัดทำดัชนี): ไม่อนุญาต: /page.htm ไม่อนุญาต: /dir/page2.htm ตัวอย่าง (ไดเร็กทอรี “cgi-bin” และ “ฟอรั่ม” ดังนั้น เนื้อหาทั้งหมดของไดเร็กทอรีนี้จึงไม่ได้รับอนุญาตสำหรับการจัดทำดัชนี): ไม่อนุญาต: /cgi-bin/ ไม่อนุญาต: /forum/ คุณสามารถบล็อกเอกสารและ (หรือ) ไดเร็กทอรีจำนวนหนึ่งที่เริ่มต้นด้วยอักขระเดียวกันจากการจัดทำดัชนีโดยใช้รายการ "Disallow" เพียงรายการเดียว ในการดำเนินการนี้ คุณจะต้องป้อนอักขระเริ่มต้นที่เหมือนกันโดยไม่มีเครื่องหมายทับ ตัวอย่าง (ไดเร็กทอรี “dir” ถูกห้ามสำหรับการจัดทำดัชนี เช่นเดียวกับไฟล์และไดเร็กทอรีทั้งหมดที่ขึ้นต้นด้วยตัวอักษร “dir” เช่น ไฟล์: “dir.htm”, “direct.htm”, ไดเร็กทอรี: “dir”, “directory1 ” ", "ไดเรกทอรี2" ฯลฯ): รายการ "อนุญาต"ตัวเลือก "อนุญาต" ใช้เพื่อแสดงข้อยกเว้นจากไดเร็กทอรีและเพจที่ไม่สามารถจัดทำดัชนีได้ซึ่งระบุโดยรายการ "ไม่อนุญาต" ตัวอย่างเช่น มีบันทึกดังนี้: ไม่อนุญาต: /forum/ แต่ในกรณีนี้ จำเป็นต้องสร้างดัชนีเพจ page1 ในไดเร็กทอรี /forum/ จากนั้นจะต้องมีบรรทัดต่อไปนี้ในไฟล์ robots.txt: ไม่อนุญาต: /forum/ อนุญาต: /forum/page1 รายการแผนผังไซต์รายการนี้ระบุตำแหน่งของแผนผังเว็บไซต์ในรูปแบบ xml ซึ่งใช้โดยโรบ็อตการค้นหา รายการนี้ระบุเส้นทางไปยังไฟล์นี้ แผนผังเว็บไซต์: http://site.ru/sitemap.xml รายการ "โฮสต์"เครื่องมือค้นหา Yandex ใช้บันทึก "โฮสต์" มีความจำเป็นต้องกำหนดมิเรอร์หลักของไซต์ เช่น หากไซต์มีมิเรอร์ (มิเรอร์เป็นสำเนาบางส่วนหรือทั้งหมดของไซต์ บางครั้งการมีทรัพยากรที่ซ้ำกันเป็นสิ่งจำเป็นสำหรับเจ้าของไซต์ที่มีผู้เยี่ยมชมสูงเพื่อเพิ่มความน่าเชื่อถือและ ความพร้อมใช้งานของบริการ) จากนั้นใช้คำสั่ง "โฮสต์" คุณสามารถเลือกชื่อที่คุณต้องการจัดทำดัชนีได้ มิฉะนั้นยานเดกซ์จะเลือกมิเรอร์หลักด้วยตัวเองและชื่ออื่น ๆ จะถูกห้ามไม่ให้สร้างดัชนี เพื่อให้เข้ากันได้กับโรบ็อตการค้นหา ซึ่งไม่ยอมรับคำสั่ง Host เมื่อประมวลผลไฟล์ robots.txt จำเป็นต้องเพิ่มรายการ "Host" ทันทีหลังรายการ Disallow ตัวอย่าง: www.site.ru – กระจกหลัก: โฮสต์: www.site.ru การบันทึก "การรวบรวมข้อมูลล่าช้า"รายการนี้รับรู้โดยยานเดกซ์ มันเป็นคำสั่งสำหรับหุ่นยนต์ที่จะใช้ระยะเวลาที่กำหนด (เป็นวินาที) ระหว่างหน้าการจัดทำดัชนี บางครั้งสิ่งนี้จำเป็นเพื่อปกป้องไซต์จากการโอเวอร์โหลด ดังนั้นรายการต่อไปนี้หมายความว่าหุ่นยนต์ Yandex จำเป็นต้องย้ายจากหน้าหนึ่งไปอีกหน้าหนึ่งไม่เร็วกว่า 3 วินาที: ความคิดเห็นบรรทัดใดๆ ใน robots.txt ที่ขึ้นต้นด้วยอักขระ "#" จะถือเป็นความคิดเห็น อนุญาตให้แสดงความคิดเห็นที่ส่วนท้ายของบรรทัดคำสั่ง แต่โรบ็อตบางตัวอาจไม่รู้จักบรรทัดอย่างถูกต้อง ตัวอย่าง (ความคิดเห็นอยู่ในบรรทัดเดียวกับคำสั่ง): ไม่อนุญาต: /cgi-bin/ #comment ขอแนะนำให้วางความคิดเห็นไว้ในบรรทัดแยกต่างหาก อนุญาตให้เว้นวรรคที่ต้นบรรทัดได้ แต่ไม่แนะนำ 4. ตัวอย่างไฟล์ robots.txtตัวอย่าง (ความคิดเห็นอยู่ในบรรทัดแยก): ไม่อนุญาต: /cgi-bin/#comment ตัวอย่างไฟล์ robots.txt ที่อนุญาตให้โรบ็อตทั้งหมดจัดทำดัชนีทั้งไซต์: โฮสต์: www.site.ru ตัวอย่างไฟล์ robots.txt ที่ห้ามไม่ให้โรบ็อตทั้งหมดจัดทำดัชนีไซต์: โฮสต์: www.site.ru ตัวอย่างไฟล์ robots.txt ที่ห้ามมิให้โรบ็อตทั้งหมดสร้างดัชนีไดเร็กทอรี “abc” รวมถึงไดเร็กทอรีและไฟล์ทั้งหมดที่ขึ้นต้นด้วยอักขระ “abc” โฮสต์: www.site.ru ตัวอย่างของไฟล์ robots.txt ที่ป้องกันไม่ให้หน้า “page.htm” ที่อยู่ในไดเรกทอรีรากของเว็บไซต์ไม่ได้รับการจัดทำดัชนีโดยโรบ็อตการค้นหาของ Googlebot: ตัวแทนผู้ใช้: googlebot ไม่อนุญาต: /page.htm โฮสต์: www.site.ru ตัวอย่างไฟล์ robots.txt ที่ห้ามการจัดทำดัชนี: – ไปยังโรบ็อต “googlebot” – หน้า “page1.htm” ที่อยู่ในไดเร็กทอรี “ไดเรกทอรี” – ไปยังโรบ็อต “Yandex” – ไดเรกทอรีและเพจทั้งหมดที่ขึ้นต้นด้วยสัญลักษณ์ “dir” (/dir/, /direct/, dir.htm, ทิศทาง.htm ฯลฯ) และอยู่ในไดเรกทอรีรากของเว็บไซต์ ตัวแทนผู้ใช้: googlebot ไม่อนุญาต: /directory/page1.htm ตัวแทนผู้ใช้: Yandex 5. ข้อผิดพลาดที่เกี่ยวข้องกับไฟล์ robots.txtข้อผิดพลาดที่พบบ่อยที่สุดประการหนึ่งคือไวยากรณ์กลับด้าน ผิด: ไม่อนุญาต: Yandex ขวา: ตัวแทนผู้ใช้: Yandex ผิด: ไม่อนุญาต: /dir/ /cgi-bin/ /forum/ ขวา: ไม่อนุญาต: /cgi-bin/ ไม่อนุญาต: /forum/ เมื่อประมวลผลข้อผิดพลาด 404 (ไม่พบเอกสาร) หากเว็บเซิร์ฟเวอร์แสดงหน้าพิเศษ และไฟล์ robots.txt หายไป อาจเป็นไปได้ที่โรบอตการค้นหาจะได้รับเมื่อร้องขอไฟล์ robots.txt หน้าพิเศษซึ่งไม่ใช่ไฟล์ในการจัดการการจัดทำดัชนีทั้งหมด ข้อผิดพลาดที่เกี่ยวข้องกับการใช้ตัวพิมพ์ไม่ถูกต้องในไฟล์ robots.txt ตัวอย่างเช่น หากคุณต้องการปิดไดเร็กทอรี "cgi-bin" ในรายการ "Disallow" คุณจะไม่สามารถเขียนชื่อของไดเร็กทอรีเป็นตัวพิมพ์ใหญ่ "cgi-bin" ได้ ผิด: ไม่อนุญาต: /CGI-BIN/ ขวา: ไม่อนุญาต: /cgi-bin/ ข้อผิดพลาดที่เกี่ยวข้องกับเครื่องหมายทับเปิดหายไปเมื่อปิดไดเร็กทอรีจากการจัดทำดัชนี ผิด: ไม่อนุญาต: page.HTML ขวา: ไม่อนุญาต: /page.HTML เพื่อหลีกเลี่ยงข้อผิดพลาดที่พบบ่อยที่สุด คุณสามารถตรวจสอบไฟล์ robots.txt ได้โดยใช้ Yandex.Webmaster หรือ Google Webmaster Tools การตรวจสอบจะดำเนินการหลังจากดาวน์โหลดไฟล์ 6. บทสรุปดังนั้นการมีไฟล์ robots.txt ตลอดจนการรวบรวมไฟล์อาจส่งผลต่อการโปรโมตเว็บไซต์ในเครื่องมือค้นหา หากไม่ทราบไวยากรณ์ของไฟล์ robots.txt คุณสามารถป้องกันไม่ให้หน้าเว็บที่ได้รับการโปรโมตที่เป็นไปได้ รวมถึงทั้งไซต์ไม่ได้รับการจัดทำดัชนี และในทางกลับกัน การรวบรวมไฟล์นี้อย่างมีประสิทธิภาพสามารถช่วยส่งเสริมทรัพยากรได้อย่างมาก ตัวอย่างเช่น คุณสามารถบล็อกเอกสารที่รบกวนการโปรโมตหน้าที่จำเป็นจากการจัดทำดัชนี |
อ่าน: |
---|
ใหม่
- หากรองเท้าไม่พอดีกับ Aliexpress: การกระทำที่ถูกต้องในกรณีนี้ ผลิตภัณฑ์ Aliexpress มีขนาดที่เหมาะสม
- ข้อพิพาทใน AliExpress เข้าร่วมข้อพิพาทใน AliExpress
- 3 ฐานข้อมูลแบบกระจาย
- ผู้จัดการเนื้อหา - ความรับผิดชอบ เงินเดือน การฝึกอบรม ข้อเสียและข้อดีของการทำงานเป็นผู้เชี่ยวชาญด้านเนื้อหา
- จะป้องกันตัวเองจากการขุดที่ซ่อนอยู่ในเบราว์เซอร์ของคุณได้อย่างไร?
- การกู้คืนรหัสผ่านใน Ask
- วิธีเปิดกล้องบนแล็ปท็อป
- ทำไมเพลงไม่เล่นบน VKontakte?
- วิธีเพิ่มขนาดของไดรฟ์ C โดยเสียค่าใช้จ่ายของไดรฟ์ D โดยไม่สูญเสียข้อมูล
- สาเหตุของการทำงานผิดพลาดบนเมนบอร์ด หากชิปเซ็ตบนเมนบอร์ดเกิดไฟไหม้