Robots คืออะไร

คำตอบนั้นก็คือ file ที่ช่วยให้เราสามารถสั่งงานไอ้เจ้า Robots น้อยได้เท่านั้นเอง โดย Robots จากทุกที่ไม่ว่าจะเป็นของ Google , MSN , Yahoo ล้วนแล้วแต่ต้องอ่าน file นี้ก่อน file index ด้วยกันทั้งนั้น เพราะอะไรเหรอคับ ก็เพราะว่า file นี้นั้นจะเป็นตัวไปกำหนดว่า เจ้า Robots ที่เข้ามาอ่านนั้นจะสามารถเข้าถึงส่วนไหนได้บ้าง และ ไม่สามารถเข้าถึงส่วนไหนได้บ้าง

ในส่วน Robots.txt ของ joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

หลัก ๆ ก็มีแค่นี้ ส่วนนี้ไม่ต้องแก้ไขอะไรนะครับ ปล่อยไว้เช่นเดิม เพราะเป็นสว่นที่ไม่ต้องการให้ บอทเข้ามาค้นหา อาจจะ กับส่วนหรือลิ้งก์ที่ละเอียดอ่อน หรือข้อมูลลับที่ไม่อยากเปิดเผย เช่น ข้อมูลยูส รหัสผ่าน อาจจะเป็นช่องโหว่ให้ผู้ที่ไม่ประสงค์ดี เข้ามาทำมิดีมิร้ายกับเว็บไซต์ของเรา

มาดูความหมายของคำสั่ง ใน robots.txt
1. ต้องการสั่งงานเจ้า Robot ทุกตัวพิมพ์ประโยคนี้ใน file robots.txt ครับ User-agent: *

2. ต้องการสั้งงานเจ้า Robot แค่เพียงบางตัวก็ทำได้แต่เราต้องรู้ด้วยว่ามันมีชื่ออะไรเช่น
User-agent: Googlebot
User-agent: msnbot
User-agent: Slurp
ซึ่งแต่ละบรรทัดนั้นอาจจะเขียนทั้ง 3 บรรทัดหรือ 2 หรือ 1 ก็ได้คับ
ซึ่งแต่เราอันนั้นก็จะเป็นของเว็บไซต์ดังๆทั้งนั้น นั้นก็คือ
ของ Google , MSN , Yahoo ตามลำดับ

3. เมื่อเรารู้แล้วว่าเราจะสั่งงานกับเจ้า Robot ตัวไหนบ้างจากนี้เราก็มาสั่งมันกันสักที โดยที่เราจะทำการห้ามมันไม่ให้ไปเก็บข้อมูลตรงส่วนไหนบ้างโดยใช้คำสั่ง Disallow เช่น
3.1 ในกรณีที่เราต้องการไม่ให้มันมาเก็บข้อมูลของเราทั้งเว็บไซต์จะใช้คำสั่ง
Disallow: /
3.2 ในกรณีที่เราต้องการไม่ให้มันมาเก็บข้อมูล บาง file <เช่น homework.pdf จะใช้คำสั่ง
Disallow: /homework.pdf
3.3 ในกรณีที่เราไม่ต้องการให้มันมาเก็บข้อมูลของ ทั้ง folder ก็จะใช้คำสั่ง เช่น folder admin ก็จะใช้คำสั่ง
Disallow: /admin/
3.4 ในกรณีที่เราไม่ต้องการให้มันมาเก็บข้อมูลบางชนิดหรือบางนามสกุลก็สามารถทำได้เช่น พวก .pdf ซึ่งเป็น file เอกสารก็สามารถทำได้โดย
Disallow: /*.pdf
3.5 ในกรณีที่เราต้องการห้ามเฉพาะบาง folder ที่อยู่ใน folder ย่อยเท่านั้นก็ทำได้เช่น
Disallow: /images/private_images และนี่คือตัวอย่าง file robots.txt อย่างง่ายๆน่ะคับ
User-agent: *
Disallow: /errors/
Disallow: /images/
Disallow: /file/*.pdf
ซึ่ง ที่เขียน 4 บรรทัด ข้างต้นนี้เราเราก็สามารถนำไปใส่ลงใน file robots.txt ได้เลยจากนั้นก็ up ขึ้น host เพิ่มทำการสั่งงานเจ้า robots น้อยของเราได้จากทุกที่

ข้อมูลบางส่วนจาก http://www.forum.huakala.com/index.php?topic=2624.0

การใช้ robots.txt อย่างมีประสิทธิภาพ

ไฟล์ robots.txt จะบอกให้เครื่องมือสำหรับค้นหาเข้าถึงหรือไม่ก่อนที่จะทำการรวบรวมข้อมูลจากบางส่วนของเว็บไซต์คุณ ไฟล์ที่จะต้องตั้งชื่อควรจะวางอยู่ในรากของไซต์

http://www.youdomain.com/robots.txt

 
Googlebot คืออะไร
คุณคงเคยได้ยินเหล่านัก SEO ทังหลายชอบพูดถึง Robots ของ Search Engine ต่างๆ มากมาย วันนี้ผมอยากพาคุณไปรู้จักกับเจ้า Robot ของ Search Engine ที่ใครๆก็กล่าวขานว่าเป็นอันดับ 1 ของโลก ถ้าเราทำถูกใจมันล่ะก็เว็บดังแน่นอน แน่นอนครับมันคือ Robot ของ google พร้อมแล้วมาทำความรู้จักกับมันกันเลยครับ

Googlebot หรือ Googlespider นั้นมีหน้าที่หลักๆ ก็คือการเข้าไป Crawling และทำสำเนาข้อมูลหน้าเพจ ของเว็บไซต์หรือบล็อกต่างๆ เพื่อใช้ในการทำดัชนี (Index) โดยจะไต่ไปตามลิงค์ต่างๆ ที่มีอยู่ในหน้าเพจหรือเว็บไซต์ การทำงานของ Googlebot นั้นจะทำการบันทึก
ข้อมูลต่างๆ ที่ได้รับจากหน้าเพจเข้าสู่ฐานข้อมูลของ Google Server เพื่อใช้ในการประมวลผลและจัดอันดับตามความเหมาะสม ที่ระบบของ
Google สร้างขึ้นมาโดยเฉพาะ นอกจากนี้การ รเข้ามาตรวจสอบข้อมูลใหม่ๆ อีกเรื่อยๆ เพื่อทำการบันทึกข้อมูลที่อาจมีการเปลี่ยนแปลงในหน้า
เพจเก่าที่เคยบันทึกไป แล้วด้วยเช่นกัน นั่นก็แสดงว่าถ้าเราอัพเดทข้อมูลเว็บเราบ่อยๆบอทมันจะเข้ามาเว็บเราบ่อยตาม ไปด้วย 

Google Bot หรือ Google Spider นั้นมีด้วยกัน 2 ชนิดหลักๆดังนี้ครับ

Deepbot = ทำงานเพียงเดือนละครั้งเท่านั้น

Freshbot = ทำงานทุกวันตลอด 24 ชั่วโมง

เพื่อเราจะได้เข้าใจกลไกการทำของเขาได้มากยิ่งขึ้นเราลองมาดูคำอธิบายน้อยๆกันข้างล่างครับ

Deepbot

Deepbot เป็น Spider ตัวหนึ่งของ Google ที่มีนิสัยชอบไปไหนมาไหนไกลๆ เป็นนักค้นหาครับเจ้านี้และขยันมากๆ ครับจะค้นทุกอย่างที่ใคร
ต่อใครไม่เคยรู้เจ้า Spider ตัวนี้จะรู้หมดครับ และหาเจอทุกอย่างที่มีอยู่ในโลกออนไลน์ (อันนี้แหละที่แม้แต่ในระบบที่ล็อกอินก็ยังเข้าไปบันทึกได้) เพราะเดินทางไปเรื่อยๆ และก็จะค้นๆๆๆ แม้แต่เว็บที่ไม่เคยมีการโปรโมทเลยเขาก็หาพบ เจ๋งมากๆ ตัวนี้แต่ด้วยเหตุที่เจาะทะลุทะลวง และ เดินทางไกลๆ นี่เองทำให้ Deepbot สามารถทำงานได้ เพียงเดือนละครั้งเท่านั้นครับ โอ้พระเจ้าช่วยตัวนี้เขาแรงจริงๆ

Freshbot

Freshbot จะทำหน้าที่ในการไล่ตรวจข้อมูลเก่าๆ และข้อมูลใหม่ๆ ที่มีการนำเสนอบ่อยๆ เช่นบล็อกต่างๆ รวมไปถึงไปตรวจเว็บที่ Deepbot เคยไปเก็บบันทึกมาอย่างมากมายด้วย ทั้งนี้ Freshbot จะทำหน้าที่ในการตรวจสอบข้อมูลใหม่ๆ ที่เกิดขึ้นในแต่ละวันและขยันมากๆ ครับในแต่ละวันนั้น Freshbot จะเข้าไปตรวจหน้าเพจต่างๆ ทั้งเก่าและใหม่หลายๆ ครั้ง ยิ่งเว็บไหนหรือบล็อกไหนอัพเดทบ่อยๆ ยิ่งไปบ่อยครับนั่นเลยทำให้ได้รับข้อมูลอะไรต่างๆ ที่ใหม่และสดอยู่เสมอนั่นเอง

Googlebot Robots META Tag

สำหรับการใส่ เมต้า แท็ก นั้นก็มีที่เกี่ยวกับ google ดังนี้ครับ

<meta name=”googlebot” content=”noindex”>   ใช้สำหรับใส่ในหน้าที่เราไม่ต้องการให้ google มองเพราะเราคงไม่อยากให้ search
แล้วมาเจอหน้า admin ของเรา

<meta name=”googlebot” CONTENT=”nofollow”>  “Googlebot” กำหนดเฉพาะ search engine Google เท่านั้น ถ้าต้องการทุกๆ search engine กำหนดเป็น “ROBOTS

<meta name=”googlebot” CONTENT=”index”> เพื่อให้ google ทำการ index มาที่เว็บเรา

<meta name=”googlebot” CONTENT=”follow”> เพื่อให้ Google ทำการ follow มาที่เว็บเรา

และยังมีอย่างอื่นอีกมากมายที่เรายังไม่ได้กล่าวถึงลองเข้าไปดูที่ Webmaster Tools Meta tags ของ Googleซิครับ

การเข้าใจผิดเกี่ยวกับ Googlebot Robots META Tag

คือการเขียน ลักษณะนี้ครับ <meta name=”googlebot” content=”index, follow”>ซึ่งเป็นการเขียนที่ผิดมาตรฐานและไม่จำเป็น มันเป็น
การเพิ่มน้ำหนักไฟล์ของคุณซะมากกว่า อย่าไปเสียเวลาเขียนลักษณะนี้เลยครับ

WP ROBOT คืออะไร ?
Plug In wordpress ใช้ดึงข้อมูลจาก Amazon , Youtube อื่นๆ ดึงบทความมาโพส

เว็บขายของ amazon ที่ทำด้วย WordPress ใช้ Plugin “wp robot” ซึ่ง Plugin นี้ทำงานแบบ autopost โดยจะ Post สินค้าเรื่อยๆ ทุกๆ กี่ชม. แล้วแต่เราจะกำหนด เป็น Plugin ทีเด็ดของ wordpress ที่ใช้ทำ amazon เลยก็ว่าได้

แต่พบว่าช่วงหลัง website ที่ใช้ wordpress + wp robot จะโดน deindex
google ทำการลดอันดับของ blog wordpress ที่ ใช้ plugin ตัวนี้ เพราะ google จะคอยปรับสมดุลของตนเองตลอดเวลา เพื่อให้ผู้ search เจอบทความที่หลากหลายและมีคุณภาพ อาจเพราะช่วงหลังมานี้เว็บไซต์แนว wordpress + wp robot ได้เกิดขึ้นมากมาย ทำให้ search คำไหน ๆ ก็ไปติดเว็บไซต์พวกนี้ ทำให้ผู้ค้นหาไม่เจอข้อมูลที่หลากหลายก็เป็นได้

อีกทั้งบทความที่ Post โดย wp robot นั้นล้วนแล้วแต่เป็น duplicate content เพราะว่าดึงมาจากฐานข้อมูลเดียวกัน ทำให้ได้ content ที่เหมือนกัน ทำให้นักสู้ amazon งานนี้ต้องหาแนวทางใหม่กันอีก

วิธีที่แก้คือ เปลี่ยนมา review สินค้าด้วยตนเอง

Google จับทาง wp robot ได้แล้วหรือเนี้ย

 

ช่วงหลัง ๆ ผมสังเกตุเว็บขายของ amazon ของผมที่ทำด้วย WordPress ใช้ Plugin “wp robot” ซึ่ง Plugin นี้ทำงานแบบ autopost โดยจะ Post สินค้าเรื่อย ๆ ทุก ๆ กี่ ชม. แล้วแต่เราจะกำหนด เป็น Plugin ทีเด็ดของ wordpress ที่ใช้ทำ amazon เลยก็ว่าได้

แต่พบว่าช่วงหลัง website ของผมและของเพื่อน ๆ พี่ ๆ ที่ผมรู้ัจัก ที่ใช้ wordpress + wp robot จะโดน de index กันทั่วหน้า จากมะก่อนที่เคย index เป็นจำนวนหลายหน้ามากต่อวัน

จึงเป็นไปได้ว่าตอนนี้ google จะจับทางได้แล้ว และทำการลดอันดับของ blog wordpress ที่ใช้ plugin ตัวนี้ เพราะ google จะคอยปรับสมดุลของตนเองตลอดเวลา เพื่อให้ผู้ search เจอบทความที่หลากหลายและมีคุณภาพ อาจเพราะช่วงหลังมานี้เว็บไซต์แนว wordpress + wp robot ได้เกิดขึ้นมากมายเป็นดอกเห็ด ทำให้ search คำไหน ๆ ก็ไปติดเว็บไซต์พวกนี้ ทำให้ผู้ค้นหาไม่เจอข้อมูลที่หลากหลายก็เป็นได้ แต่นี้ก็เป็นแค่ข้อสันนิษฐาน ของผมเท่านั้น

อีกทั้งบทความที่ Post โดย wp robot นั้นล้วนแล้วแต่เป็น duplicate content เพราะว่าดึงมาจากฐานข้อมูลเดียวกัน ทำให้ได้ content ที่เหมือนกัน ทำให้นักสู้ amazon งานนี้ต้องหาแนวทางใหม่กันอีกแล้ว

สุดท้ายนี้เกี่ยวกับ wp robot จะโดน google นั้นจับทางได้หรือไม่อันนี้ผมไม่แน่ใจ 100 เปอเซ็น เพราะยังขายสินค้าได้บ้าง แต่จำนวน index ลดน้อยลง วิธีที่แก้ที่ผมคิดว่าทำได้ตอนนี้คือ เปลี่ยนมา review สินค้าด้วยตนเอง ซึ่งหวังว่าทำแบบนี้ท่าน google คงจะพอใจนะ

หมวดหมู่:คุย...เว็บไซต์
  1. ยังไม่มีความเห็น
  1. No trackbacks yet.

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s

%d bloggers like this: