การอนุญาตให้เฉพาะ Search Engine หลักเท่านั้นเข้ามาเก็บข้อมูลเว็บไซต์เราได้
วิธีในการ Block Bot ก็มีหลายวิธี เช่น ใช้ .htaccess ในการบล็อกการเข้าถึง
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule .* - [R=403,L]
ตัวอย่างด้านบน googlebot bingbot Baiduspider คือ Search Engine ที่ถูกบล็อก เราสามารถเพิ่มได้อีกครับ โดยเวลาใส่ให้คั่นแต่ละรายการด้วย |
ข้อเสียของการใช้ htaccess ในการบล็อก Search Engine คือเราต้องใส่รายการเยอะมาก เพราะมี Bot ที่ควรบล็อก มากกว่า Bot ที่ควรอนุญาต
อีกวิธีที่ผมแนะนำคือการใช้ความสามารถของ robots.txt ในการจัดการกับ Serch Engine ซึ่งเป็นหน้าที่ของมันโดยตรงอยู่แล้ว
หลักการก็คือบล็อก Search Engine ทั้งหมดไว้ก่อน
User-agent: *
Disallow: /
จากนั้นค่อยเลือก Search Engine ที่จะอนุญาต ซึ่งมีน้อยกว่า
User-agent: Googlebot
Allow: /
โค้ดเต็มๆที่ผมใช้อยู่ โดยจะอนุญาตเฉพาะ Bot หลักๆเท่านั้นให้สามารถมา Index เว็บไซต์ของเราได้
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: Google
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Bingbot
Allow: /
User-agent: Bing
Allow: /
User-agent: Slurp
Allow: /
User-Agent: MSNBot
Allow: /
User-Agent: MSNBot-Media
Allow: /
User-Agent: BingPreview
Allow: /