Archive for ตุลาคม 10th, 2007

You are currently browsing the ejeepss blog weblog archives for the day วันพุธ, ตุลาคม 10th, 2007.

Information Extraction

Information Extraction
หมายถึงกระบวนการในการสกัดสารสนเทศ ออกจากเอกสารที่เราสนใจ ตัวอย่างเช่น หากเราอ่านหนังสือพิมพ์ 1 เล่ม เราคงเลือกอ่านเฉพาะคอลัมน์ที่สนใจ และในคอลัมน์ที่เราสนใจนั้น อาจยาวมาก ซึ่งหลายท่านอาจจะอ่านเฉพาะย่อหน้า หรือจุดที่สนใจเท่านั้น ดังนั้น หากเราจะทำอย่างไรให้คอมพิวเตอร์เข้าใจและสกัดเฉพาะสารสนเทศ ที่เราสนใจ เราอาจต้องใช้เทคนิค หรือ Algorithm ที่จะทำให้คอมพิวเตอร์เข้าใจเนื้อหาข้อเอกสารข้อความ และสกัดเอาสิ่งที่เราสนใจออกมา
ในงานด้าน Search Engine นั้น ถามว่าได้่ใช้หลักการ Information Extraction หรือไม่? คำตอบคือจำเป็นต้องใช้เป็นอย่ากมาก ตัวอย่างเช่น Google ใช้ Google Bot (โปรแกรมไต่ตาม Link Webpage เพื่อเก็บข้อมูลใน Index Server เพื่อให้ผู้ใช้มาค้นได้อย่างรวดเร็ว) นั้น ยิ่งใช้หลักการของ Information Extraction เป็นอย่างมาก เนื่องจากเมื่อ Google Bot มาไต่ไปยังเว็บเป้าหมาย ก็จะเก็บเอกสาร HTML ทั้งหมด ไปเพื่อวิเคราะห์ว่า ในหน้า […]