ไม่ต้องการให้ bot หรือ Search Engine มาทำ index บางหน้าหรือบางได
สำหรับคำสั่งที่สามารถใช้ใน robots.txt ได้ มีดังนี้ครับ
# ข้อความบรรทัดนี้คือ comment
User-agent: * หมายถึงทุก Search Engine
User-agent: Search Engine หมายถึง ชื่อ Search Engine ที่ระบุ
Disallow: ไม่มีอะไรต่อท้าย หมายถึงยอมให้ Search Engine เข้ามาทำ Index ได้
Disallow: / หมายถึง ไม่ให้ Search Engine ทำการ Index ตั้งแต่ไดเร็คทอรี่ราก หรือ
Disallow: /path/to หมายถึงไม่ให้ Search Engine ทำการ Index ไดเร็คทอรี่ที่กำหนด หรือ
Disallow: /*.ext$ หมายถึงไม่ให้ Search Engine ทำการ Index ไฟล์ที่นามสกุลที่เรากำหนด
ไฟล์ robots.txt นี้ เราจะสร้างด้วย notepad ธรรมดาแล้วอัปโหลดไว้บนไดเร็คทอรี่รากของ server ครับ
ตัวอย่างการกำหนดในไฟล์ robots.txt
ไม่ต้องการให้ SE เข้ามาทำ Index site ของเรา (ทุกยี่ห้อเลย)
User-agent: *
Disallow: /
กำหนด บาง SE ไม่ให้ทำการ index site ของเรา (ทั้งเว็บไซต์)
User-agent: Googlebot
User-agent: msnbot
Disallow: /
ป้องกัน บางไดเร็คทอรี่ (ไดเร็คทอรี่ path/)
User-agent: *
Disallow: /path
หรือ (ไดเร็คทอรี่ path/to/)
Disallow: /path/to
ป้องกันบางไฟล์ เช่น ไฟล์ page.php ในไดเร็คทอรี่ path/to
User-agent: *
Disallow: /path/to/page.php
หรือ สำหรับไม่ให้ SE ทำ Index ไฟล์ นามสกุล jpg ทั้งหมด
Disallow: /*.jpg$
นอกจากนั้นเรายังสามารถกำหนดลงใน meta ของ เพจได้ด้วย สำหรับทำการป้องกันแค่บางเพจที่เราต้องการ
<meta name="Googlebot" content="noindex, nofollow" />
<meta name="MSNbot" content="noindex, nofollow" />
หรือสำหรับ บอต ทุกยี่ห้อ
<meta name="robots" content="noindex, nofollow" />