Information Extraction
Information Extraction
หมายถึงกระบวนการในการสกัดสารสนเทศ ออกจากเอกสารที่เราสนใจ ตัวอย่างเช่น หากเราอ่านหนังสือพิมพ์ 1 เล่ม เราคงเลือกอ่านเฉพาะคอลัมน์ที่สนใจ และในคอลัมน์ที่เราสนใจนั้น อาจยาวมาก ซึ่งหลายท่านอาจจะอ่านเฉพาะย่อหน้า หรือจุดที่สนใจเท่านั้น ดังนั้น หากเราจะทำอย่างไรให้คอมพิวเตอร์เข้าใจและสกัดเฉพาะสารสนเทศ ที่เราสนใจ เราอาจต้องใช้เทคนิค หรือ Algorithm ที่จะทำให้คอมพิวเตอร์เข้าใจเนื้อหาข้อเอกสารข้อความ และสกัดเอาสิ่งที่เราสนใจออกมา
ในงานด้าน Search Engine นั้น ถามว่าได้่ใช้หลักการ Information Extraction หรือไม่? คำตอบคือจำเป็นต้องใช้เป็นอย่ากมาก ตัวอย่างเช่น Google ใช้ Google Bot (โปรแกรมไต่ตาม Link Webpage เพื่อเก็บข้อมูลใน Index Server เพื่อให้ผู้ใช้มาค้นได้อย่างรวดเร็ว) นั้น ยิ่งใช้หลักการของ Information Extraction เป็นอย่างมาก เนื่องจากเมื่อ Google Bot มาไต่ไปยังเว็บเป้าหมาย ก็จะเก็บเอกสาร HTML ทั้งหมด ไปเพื่อวิเคราะห์ว่า ในหน้า […]
Entries (RSS)