วันอังคารที่ 18 มกราคม พ.ศ. 2554

เว็บไซต์ค้นหาที่ได้รับความนิยมและการใช้ Search Engines

เว็บไซต์ที่ให้บริการค้นหาข้อมูลที่ได้รับความนิยม

เว็บไซต์ที่ให้บริการค้นหาข้อมูลที่ได้รับความนิยม
ที่มา:http://www.ku.ac.th/magazine_online/search_engine.html
        การพิมพ์ข้อมูลอิเล็กทรอนิกส์มีอัตราที่เพิ่มขึ้นอย่างรวดเร็ว เชื่อกันว่าข้อมูลข่าวสารที่จัดพิมพ์ในรูป Web หรือโฮมเพ็จเพื่อเผยแพร่บนอินเทอร์เน็ต มีมากกว่า 1000 ล้านหน้า (1000 หน้า URL reference)
เมื่อข้อมูลข่าวสารบนอินเทอร์เน็ตมีมากมายเช่นนี้ ทำให้ระบบการค้นหาเป็นเรื่องที่สำคัญมากยิ่งขึ้น เมื่อผู้ใช้อินเทอร์เน็ตต้องการเครื่องมือในการค้นหา จึงมีผู้พัฒนาระบบค้นหาข้อมูลบนอินเทอร์เน็ตที่เรียกว่า Search Engine และสร้างสถานีบริการไว้บนอินเทอร์เน็ต
สถานีบริการที่ใช้ในการค้นหาข้อมูลบนอินเทอร์เน็ตที่รู้จักกันดีมีหลายแห่ง เช่น yahoo.com, altavista.com excite.com, webcrawler.com เป็นต้น สถานีบริการเหล่านี้จึงเป็นที่รู้จักและใช้ประโยชน์กันอย่างกว้างขวาง โดยผู้ใช้อินเทอร์เน็ตทุกคนรู้จักกันดี
แต่หากพิจารณาข้อมูลที่อยู่บนอินเทอร์เน็ตกว่าหนึ่งพันล้านหน้า ระบบการค้นหาที่ให้บริการอยู่นี้ยังไม่สามารถเก็บดัชนีค้นหาและให้การค้นหาได้ครบทุกแห่ง จากการประมาณการของสถานีค้นหาที่ใหญ่ที่สุด เช่น yahoo.com หรือ altavista.com จะค้นหาข้อมูลได้ไม่ถึงครึ่งของเอกสารที่มีอยู่ในอินเทอร์เน็ต
         หากนำข้อมูลของหนังสือทุกเล่มจากห้องสมุดรัฐสภาอเมริกันมาเก็บรวมกันในรูปดิจิตอล มีผู้คำนวณดูว่าถ้าจะเก็บในรูป ASCII จะได้ประมาณ 20 เทราไบต์ (โดยมีหนังสือในห้องสมุดประมาณ 20 ล้านเล่ม) และข้อมูลในอินเทอร์เน็ตที่เรียกดูได้ทั้งหมดจะรวมกัน น่าจะอยู่ที่ประมาณ 14 เทราไบต์ อัตราการเพิ่มของข้อมูลที่มีมากกว่า 20 เปอร์เซนต์ต่อปี ดังนั้นในอีกไม่กี่ปีข้างหน้า ข้อมูลที่เก็บในอินเทอร์เน็ตที่เรียกดูได้แบบสาธารณะน่าจะมีมากกว่า 100 เทราไบต์
หลักการของเครื่องค้นหาที่สำคัญคือโปรแกรมหุ่นยนต์ ที่จะทำงานอัตโนมัติ และวิ่งเข้าไปซอกแซกในอินเทอร์เน็ต พร้อมคัดลอกข้อมูลมาจัดทำดัชนี และจัดโครงสร้างไว้ในฐานข้อมูลเพื่อจะเอื้อประโยชน์ให้ผู้เรียกค้นดูได้ โปรแกรมหุ่นยนต์นี้จะต้องทำงานเป็นระยะและวนกลับมาปรังปรุงข้อมูลใหม่ เพราะข้อมูลบนอินเทอร์เน็ตมีการเปลี่ยนแปลงเร็วมาก
ที่สำคัญคือข้อมูลบนอินเทอร์เน็ตมีหลากหลายภาษา จีน ไทย ฝรั่ง พม่า ลาว โปรแกรมค้นหาจะชาญฉลาดจัดทำดัชนีเหล่านี้ได้หมดหรือ? เรื่องนี้เป็นเรื่องที่น่าคิด
       โดยเฉพาะเรื่องภาษาไทย ที่เอกสารเขียนติดกัน คำหลักที่ใช้ค้นหาเป็นเรื่องใหญ่ที่จะต้องศึกษาวิจัย เชื่อแน่ว่าโปรแกรมหุ่นยนต์ของฝรั่งที่พัฒนาขึ้นก็ยากที่จะเข้าใจภาษาไทยได้ดี
เมื่อเป็นเช่นนี้ทีมงานภาควิชาวิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ จึงได้ดำเนินการทำการวิจัยและพัฒนาสร้าง Nontri Search ซึ่งเป็นโปรแกรมค้นหาข้อมูลที่เอื้อประโยชน์ต่อคนไทยและจะทำให้รู้ใจคนไทยได้มากยิ่งขึ้น
การทำงานของโปรแกรมที่พัฒนาขึ้นประกอบด้วยตัวโปรแกรมหุ่นยนต์ ที่จะเสาะแสวงหาที่อยู่ของเว็บเพ็จต่าง ๆ ปัจจุบันเน้นเฉพาะเว็บเพ็จที่ตั้งอยู่ในประเทศไทยเป็นหลัก โดยศึกษาวิเคราะห์จากโครงสร้างไอพีแอดเดรสและข้อมูลจากเนมเซิร์ฟเวอร์ ที่มีการจดทะเบียนใช้งานในเมืองไทย หุ่นยนต์จะลองทำการวิ่งเข้าหาเครื่องแต่ละเครื่องเพื่อคัดลอกข้อมูลมา จากนั้นวิเคราะห์ข้อมูลและจัดทำดัชนีค้นหาไว้
สิ่งที่ Nontri Search ทำได้ในขณะนี้คือ จะวิ่งค้นหาเป็นรอบ ๆ เพื่อปรับปรุงข้อมูลและดูว่าข้อมูลมีการเปลี่ยนแปลงหรือไม่ เพื่อปรับปรุงดัชนีให้ทันสมัย แทบไม่น่าเชื่อว่า ปัจจุบันภายในประเทศไทย มีข้อมูลเกือบหกแสนหน้า (ยูอาร์แอล) การจัดทำดัชนีจะเก็บไว้ในเซิร์ฟเวอร์ ซึ่งปัจจุบันในเซิร์ฟเวอร์ขนาดใหญ่เครื่องหนึ่งรองรับฐานข้อมูลนี้
การจัดทำดัชนีและจุดอ้างอิงยูอาร์แอล เมื่อผู้ใช้เรียกถาม Nontri Search ก็จะเรียกค้นจากฐานข้อมูลแล้วนำมาแสดงให้ การจัดทำดัชนีนี้เป็นเรื่องที่น่าสนใจมาก เพราะมีเรื่องราวที่จะต้องปรับแต่งและวิจัยหาความเหมาะสมได้อีกมาก
การพัฒนาระบบค้นหาข้อมูลจึงเป็นศาสตร์ที่สำคัญยิ่งสำหรับอนาคต เพราะลองนึกดูว่า ถ้าเราต้องการให้ค้นหาข้อมูลทั้งหมดในอินเทอร์เน็ต ซึ่งมีกว่าพันล้านยูอาร์แอล มีความจุกว่า 14 เทราไบต์ ระบบการค้นหาและทำดัชนีจะเป็นระบบที่ซับซ้อนพอดู เพราะต้องให้บริการได้เร็ว
งานวิจัย Nontri Search จึงเป็นผลงานที่ชาวมหาวิทยาลัยเกษตรศาสตร์ ได้จัดทำขึ้นเพื่อประชาคมอินเทอร์เน็ตที่เป็นคนไทย งานพัฒนานี้จะต้องกระทำต่อไป

http://raktukkonnaka.spaces.live.com/blog/cns!C6A83A39A6E3D506!166.entry



การใช้ Search Engines

1. ใช้เครื่องมือแปลเว็บเพ็จให้เป็นประโยชน์
นอกจากภาษาอังกฤษแล้วที่เราท่านอาจจะอ่านออกบ้าง ไม่ออกบ้างเช่นผม เป็นต้น ถ้าไปเจอภาษาอื่น ๆ
โดยเฉพาะเว็บแคร็กที่เราคุ้นเคยกันดีอยู่แล้ว ควรจะใช้เครื่องมือแปลภาษาบ้าง จะได้รู้ว่ามันคืออะไร เช่น
 หรือซึ่งถ้าใครใช้ MyIE2 อยู่แล้วมันก็มีอยู่ในโปรแกรมแล้ว ตรงลูกครสีเขียวเล็ก ๆ (ปุ่ม Go) ข้าง ๆ จะมีลูกศรอันจิ๋วนั่นแหละครับคลิกเลย
2. ใช้ Directories
เจ้านี่จะเป็นตัวช่วยกำจัดข้อมูลที่เราต้องการหาให้เหลือน้อยลงได้เป็นการประหยัดเวลา โดยการหาเฉพาะที่เราต้องการเท่านั้น
3. ใช้ “advanced tips”
อันนี้ก้วยเจ๋งบวกอึ้งย้งเลย บางอันผมยังไม่เคยทราบ โปรดทราบว่า x ใช้แทนอักษรหรือคำที่เราต้องการ
A. "xxxx" ถ้าเราต้องการหาคำเฉพาะเจาะจง ให้พิมพ์ใส่ในเครื่องหมายฟันหนู อย่าลืมว่า google ไม่ใช่ case sensitive หมายถึงว่า เมื่อเราพิมพ์คำว่า Thailand โดยไม่ได้ใส่เครื่องหมาย มันก็จะหาข้อมูลที่มีคำว่าไทยแลนด์มาให้ดูเป็นกระตั้ก
B. -x / ถ้าใส่เครื่องหมายลบอยู่ข้างหน้าตามด้วย / คำที่อยู่ระหว่าง 2 เครื่องหมายนี้จะไม่ถูกค้นหา
C. filetype:xxx / เป็นการหา file extension โดยเฉพาะครับ (exe, mp3, etc)
D. -filetype:xxx / พอใส่เครื่องหมายลบเพิ่มเป็นการบอกว่าไม่ต้องค้นนะ ไฟล์สกุลนี้
E. allinurl:x / เป็นการหา URL ที่เราต้องการ อ่านว่า ออลอินยูอาร์แอล:คำที่ต้องการหา
F. allintext:x / หาคำที่ต้องการในหน้าเว็บ
G. allintitle:x / หา html title ในหน้าเว็บนั้น
H. allinanchor:x / หาคำที่ต้องการในลิงค์ที่โชว์อยู่
I. OR นั่นก็คือหรือนั่นเอง หมายถึงให้หาคำนี้หรือคำนั้น
J. ~X ให้หาคำที่เหมือนกันหรือคล้ายคลึงกัน ในกรณีที่เราคิดอะไรไม่ออกอ่ะครับ
4. ใช้จุดกับตัวเลข
สมมุตินะครับสมมุติว่าผมเป็นเด็ก (ทำไมกลายเป็นน้องพลับไปได้หว่า…) เอาใหม่ เช่นถ้าเราต้องการหาเครื่องเล่น MP3 ราคาอยู่ในราวไม่เกิน $90 เราก็พิมพ์ว่า mp3 player $0..$90 มันก็จะหาให้เราเฉพาะราคาระหว่าง 0~90 เหรียญเท่านั้น เพราะเราใส่จุดไป 2 ตัวนั่นเอง ทิปนี้ใช้กับตัวเลขอื่น ๆ เช่นวันที่ น้ำหนัก ฯลฯ ได้ด้วยครับ
5. ใส่เครื่องหมายบวก +
เคยพิมพ์คำที่เราต้องการหาแล้วเจอข้อความนี้ไหมครับ
"The following words are very common and were not included in your search:"
เราสามารถใส่ + หน้าคำที่เราต้องการถึงแม้มันจะเป็นคำธรรมดาเป็นการบังคับกูลเกิลหาให้เราครับ
6. ใช้ Preferences
Google มีตัวปรับแต่งการหาให้เหมาะสมกับความต้องการของเราครับ ใช้มันให้เป็นประโยชน์มากที่สุด ตรงใกล้กับช่อง search box ด้านขวามือนั่นแหละครับมี Options หลายตัวให้เราเลือกใช้ เช่น Open results in new browser, Display 10-50 or 100 results per page
7. ใช้ดอกจัน *
อันนี้น่าจะรู้กันดีอยู่แล้วนะครับเรียกว่า Wildcard searches เป็นการหาคำแบบกว้าง ๆ เช่น *mp3 มันก็จะหาทุกคำที่มีเอ็มพี3ให้ทั้งหมด
8. หาไปทุกที่
ครับ ถ้าเราหาไม่เจอใน web section ก็หาใน group section ถ้าไม่เจอก็ใช้ search engine ตัวอื่น ๆ เช่น yahoo, altavista หาต่อไป หรือเพื่อให้แน่ใจคำที่เราต้องการหา ให้ใช้ serch engine หลาย ๆ ตัวหาในคำ ๆ เดียวกันเพื่อเปรียบเทียบผลที่ได้รับ ยกตัวอย่างเช่น หาคำว่า”การตายของดิสนีย์ (disney death)” ถ้าหาใน altavista จะมี disney เพียบแต่คำว่า death ไม่มีหรอกครับ อ่ะ อ่ะ คนทำเว็บนี้กลัวตายตบท้ายด้วยการที่ผู้เขียนยกตัวอย่างการหาคำเฉพาะที่ต้องการโดยใช้เทคนิคตามที่ได้กล่าวมาแล้ว
เขาต้องการหาคำว่า Sepultura เป็นชื่อวงดนตรี Heavy metal ของบราซิล (เฮอะ..ผมก็ชอบนะพวก Heavy metal or Heavy rock แต่ต้องเป็นวงเก่า ๆหน่อยเช่น Mountain, Lead Zaplin, UFO, Uriah Heep, Three dog night, Wish boon Ash อะไรพวกเนี้ย)
http://www.com-th.net/webboard/index.php?topic=257.0

ไม่มีความคิดเห็น:

แสดงความคิดเห็น