ระบบสืบค้นด้วยความหมาย
“เราต้องการเอาชนะกูเกิ้ล”
ณ ห้องสมุดประจำรัฐแซกโซนี – มหาวิทยาลัยเดรสเด็น (Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden ชื่อย่อ: SLUB) มีการนำเทคโนโลยีอรรถศาสตร์มาพัฒนาระบบสืบค้นแค็ตตาล็อกรูปแบบใหม่ที่อำนวยความสะดวกแก่ผู้ใช้ ดร.อาคิม บอนเท่อ ผู้แทนผู้อำนวยการห้องสมุดให้สัมภาษณ์ถึงข้อดีของระบบ SLUBsemantics
ระบบการจัดการข้อมูลอิเล็กทรอนิกส์ของพวกเราทั้งหมดสร้างขึ้นจากแนวคิดเลขฐานสอง หมายความว่า เราจะต้องแทนค่าชุดสัญลักษณ์ของตัวอักษรที่เรียงกัน เช่น “เ ก อ เ ธ่” ด้วยชุดเลขศูนย์และเลขหนึ่งก่อน จึงจะนำไปใช้ประมวลผลต่อได้ แต่ระบบสืบค้นด้วยความหมายของเรานี้เหมือนกับการสอนวิธีการพูดให้กับ ระบบอีกทีหนึ่งครับ อธิบายง่ายๆ ก็คือ ข้อมูลต่างๆ จะไม่ถูกนำไปประมวลผลแบบเครื่องจักร แต่จะนำไปเชื่อมโยงกับเนื้อหาต่างๆ แทน ดังนั้นคำหนึ่งคำจะมีเครือข่ายทางความหมายและมีความสัมพันธ์กับคำอื่นที่จัดอยู่ในหมวดเดียวกัน ทั้งหมดนี้เกิดขึ้นจากระบบภาษาคอมพิวเตอร์ที่เรียกว่า Resource Description Framework (RDF) ระบบนี้ทำให้คอมพิวเตอร์รู้ว่าพวกเราเชื่อมโยงชุดสัญลักษณ์ของคำว่า “เกอเธ่” กับความหมายและบริบทใด ซึ่งในที่นี้คือ นักเขียนในช่วงศตวรรษที่ 18 ที่เป็นเจ้าของงานเขียนอย่างเรื่อง “เฟาสท์”
ระบบที่รองรับหลายภาษาและสามารถแบ่งแยกความหมาย
ห้องสมุดของคุณได้ทำงานร่วมกับบริษัทน้องใหม่อย่าง Avantgarde Labs เพื่อผลิตระบบสืบค้นทางความหมาย แล้วอะไรที่ทำให้ระบบ SLUBsemantics แตกต่างจากระบบสืบค้นแค็ตตาล็อกที่มีมาแต่เดิมคะระบบของเรารองรับหลายภาษาครับ อย่างเช่นถ้าคุณป้อนคำว่า “เกียร์ออโต้” เข้าไป คุณจะได้ผลการค้นหาทั้งภาษาอังกฤษหรือแม้กระทั่งภาษาโปลิช นอกจากนี้ SLUBsemantics ยังสามารถแปลศัพท์ในชีวิตประจำวันให้เป็นศัพท์ทางวิชาการหรือจะแปลกลับก็ได้ เช่น ถ้าคุณสืบค้นคำว่า “เนื้อบูด” คุณก็จะเจอทุกอย่างที่เกี่ยวกับเรื่องความปลอดภัยของผู้บริโภค หรือถ้าป้อนคำว่า “Adiposita“ คุณก็จะเจอข้อมูลเรื่องโรคอ้วนทันที ซึ่งวิธีการสืบค้นแบบข้อความในระบบแค็ตตาล็อกแบบเก่าจะทำไม่ได้
นอกจากนี้ SLUBsemantics ยังสามารถแก้ปัญหาเรื่องความหมายอันหลากหลายของคำต่างๆ ได้ด้วย เช่น ถ้าคุณป้อนคำว่า “Python” เข้าไป ซึ่งในที่นี้คุณอาจหมายความถึงงู ภาษาโปรแกรมเมอร์ หรือกลุ่มนักแสดงตลก Monty Python ก็ได้ ถ้าเป็นระบบดั้งเดิม ผลการค้นหาจะออกมาผสมปนเปกัน แต่โปรแกรมของเราจะแบ่งผลการค้นหาออกเป็นกลุ่ม ได้แก่ ด้านชีววิทยา คอมพิวเตอร์ และด้านวงการบันเทิง
โปรแกรม SLUBsemantics สร้างขึ้นจากแนวคิดที่มีอยู่ก่อนแล้วหรือคะ
ใช่ครับ เราเอาความรู้และแนวคิดที่มีอยู่แล้วมาปรับใช้ เช่น เว็บไซต์ Wikipedia เป็นตัวช่วยเรื่องการแปลความหมายของคำ เราได้พัฒนาขั้นตอนการทำงานที่สามารถนำคำค้นของผู้ใช้ไปเทียบกับคำหลักใน Wikipedia จากนั้นเราจะเอาความหมายและคำศัพท์ภาษาต่างๆ ที่ปรากฏอยู่ในนั้นเป็นตัวตั้งและนำมาเปรียบเทียบกับข้อมูลในคลังของเราอีก ทีหนึ่ง
ระบบการสืบค้นอันสมบูรณ์แบบ
คุณมีแผนจะพัฒนาระบบอย่างไรอีกคะณ ตอนนี้เราอิงข้อมูลจาก Wikipedia เท่านั้น ซึ่งถึงแม้ว่าจะจัดเป็นคลังข้อมูลขนาดมหึมาแล้วแต่ก็ยังมีข้อจำกัดอยู่ ด้วยเหตุนี้ในโปรเจ็กต์ของเราที่ชื่อว่า d:swarm เรากำลังพยายามค้นหาและรวบรวมข้อมูลจากแหล่งต่างๆ ให้ได้จำนวนมากที่สุด โดยจะดึงข้อมูลและจัดเก็บรวมกันเพื่อให้ได้มาซึ่งคลังข้อมูลที่หลากหลาย แต่ในขณะเดียวกันก็จะกรองข้อมูลที่ซ้ำซ้อนออก จัดว่าเป็นระบบการสืบค้นด้วยคำที่สมบูรณ์แบบเลยครับ พัฒนาการก้าวต่อไปที่เราตั้งเป้าไว้ก็คือการเข้าถึงข้อมูลเชิงลึกโดยที่ปราศจากข้อมูลที่ซ้ำกันนั่นเอง
หมายความว่าคุณอยากจะทำระบบให้ดีกว่ากูเกิ้ลใช่ไหมคะ
ใช่ครับ แม้ว่ามันจะฟังดูค่อนข้างทะเยอทะยาน แต่ข้อดีของเราก็คือ ระบบของเราไม่เน้นความกว้างของข้อมูล แต่เน้นความลึก ในขณะที่กูเกิ้ลต้องหาคำตอบที่เหมาะสมให้ผู้คนหลากหลายประเภททั่วโลก แต่โปรแกรมของเราตอนนี้ออกแบบมาเพื่อให้บริการคนเพียงกลุ่มหนึ่ง ณ ที่นี้เท่านั้น กลุ่มเป้าหมายหลักของเราจึงไม่ใช่มหาเศรษฐีมีเงินพันล้าน แต่เป็นคนเพียง 80,000 คน และเมื่อเรารู้ว่าผู้ใช้ของเรามาจากไหนและต้องการสิ่งใด เราเลยเอาความต้องการที่ชัดเจนนี้มาออกแบบระบบที่มีความละเอียดอ่อนกว่ากูเกิ้ล เข้าถึงข้อมูลแบบเฉพาะทาง เน้นศัพท์เฉพาะด้านและศัพท์วิชาการ แต่ก็นั่นแหละครับ ท้ายที่สุดแล้วก็คือเราต้องการให้บริการที่ดีกว่ากูเกิ้ล
ระบบที่ตลาดจับตามอง
มีห้องสมุดอื่นๆ สนใจระบบสืบค้นของคุณบ้างหรือยังคะมีแล้วครับ ตอนนี้ห้องสมุดอังกฤษกำลังทดสอบตัวโปรแกรมนำร่องที่สร้างจากเทคโนโลยีของเรา นอกจากนี้เรายังได้พูดคุยกับห้องสมุดใหญ่แห่งอื่นๆ ในเยอรมนีและในภาคพื้นทวีปยุโรป ที่สำคัญก็คือเรากำลังพูดคุยกับหอสมุดแห่งชาติเยอรมันที่เมืองไลพ์ซิกและเมืองแฟรงก์เฟิร์ตซึ่งเป็นผู้ออกแบบและพัฒนาเทคนิคของระบบห้องสมุดดิจิตอลเยอรมนี ซึ่งจากตรงนั้นแล้วก็ถือว่าเราอยู่ไม่ไกลจากระบบห้องสมุดดิจิตอลของยุโรปที่ ชื่อ Europeana แล้วครับ
ในอนาคต ระบบสืบค้นด้วยความหมายและห้องสมุดต่างๆ จะพัฒนาไปในทิศทางใดคะ
ผมคิดว่าห้องสมุดต่างๆ จะต้องเดินทางนี้ต่อไป เราควรนำเอากูเกิ้ล Flickr และสินค้าหรือผลผลิตอื่นๆ ในอุตสาหกรรมอินเตอร์เน็ตมาเป็นตัวตั้งและดูว่ามีจุดไหนที่เราสามารถพัฒนาให้ดีกว่า ถึงแม้ว่าเราจะไม่ได้เป็นคู่แข่งทางเศรษฐกิจกับบริษัทเหล่านี้ แต่เราก็ถือว่ายังอยู่ในระบบเศรษฐกิจที่มีอุปสงค์และอุปทาน ห้องสมุดทุกแห่งต้องตอบคำถามให้ได้ว่าตนเองตั้งอยู่เพื่ออะไร ในวันนี้ อีก 10 ปี หรือ 20 ปีข้างหน้า และแน่นอนว่าห้องสมุดประจำเมืองเล็กๆ กับห้องสมุดขนาดมหึมาอย่างห้องสมุด SLUB ของเราย่อมมีคำตอบที่ไม่เหมือนกัน