ระบบสืบค้นด้วยความหมาย “เราต้องการเอาชนะกูเกิ้ล”

ณ ห้องสมุดประจำรัฐแซกโซนี – มหาวิทยาลัยเดรสเด็น (Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden ชื่อย่อ: SLUB) มีการนำเทคโนโลยีอรรถศาสตร์มาพัฒนาระบบสืบค้นแค็ตตาล็อกรูปแบบใหม่ที่อำนวยความสะดวกแก่ผู้ใช้  ดร.อาคิม บอนเท่อ ผู้แทนผู้อำนวยการห้องสมุดให้สัมภาษณ์ถึงข้อดีของระบบ SLUBsemantics

Dr Achim Bonte Dr Achim Bonte | © SLUB คุณบอนเท่อ “เครือข่ายทางความหมาย” ของคุณคืออะไรคะ

ระบบการจัดการข้อมูลอิเล็กทรอนิกส์ของพวกเราทั้งหมดสร้างขึ้นจากแนวคิดเลขฐานสอง หมายความว่า เราจะต้องแทนค่าชุดสัญลักษณ์ของตัวอักษรที่เรียงกัน เช่น “เ ก อ เ ธ่” ด้วยชุดเลขศูนย์และเลขหนึ่งก่อน จึงจะนำไปใช้ประมวลผลต่อได้ แต่ระบบสืบค้นด้วยความหมายของเรานี้เหมือนกับการสอนวิธีการพูดให้กับ ระบบอีกทีหนึ่งครับ อธิบายง่ายๆ ก็คือ ข้อมูลต่างๆ จะไม่ถูกนำไปประมวลผลแบบเครื่องจักร แต่จะนำไปเชื่อมโยงกับเนื้อหาต่างๆ แทน ดังนั้นคำหนึ่งคำจะมีเครือข่ายทางความหมายและมีความสัมพันธ์กับคำอื่นที่จัดอยู่ในหมวดเดียวกัน ทั้งหมดนี้เกิดขึ้นจากระบบภาษาคอมพิวเตอร์ที่เรียกว่า Resource Description Framework (RDF) ระบบนี้ทำให้คอมพิวเตอร์รู้ว่าพวกเราเชื่อมโยงชุดสัญลักษณ์ของคำว่า “เกอเธ่” กับความหมายและบริบทใด ซึ่งในที่นี้คือ นักเขียนในช่วงศตวรรษที่ 18 ที่เป็นเจ้าของงานเขียนอย่างเรื่อง “เฟาสท์”

ระบบที่รองรับหลายภาษาและสามารถแบ่งแยกความหมาย

ห้องสมุดของคุณได้ทำงานร่วมกับบริษัทน้องใหม่อย่าง Avantgarde Labs เพื่อผลิตระบบสืบค้นทางความหมาย แล้วอะไรที่ทำให้ระบบ SLUBsemantics แตกต่างจากระบบสืบค้นแค็ตตาล็อกที่มีมาแต่เดิมคะ

ระบบของเรารองรับหลายภาษาครับ อย่างเช่นถ้าคุณป้อนคำว่า “เกียร์ออโต้” เข้าไป คุณจะได้ผลการค้นหาทั้งภาษาอังกฤษหรือแม้กระทั่งภาษาโปลิช นอกจากนี้ SLUBsemantics ยังสามารถแปลศัพท์ในชีวิตประจำวันให้เป็นศัพท์ทางวิชาการหรือจะแปลกลับก็ได้ เช่น ถ้าคุณสืบค้นคำว่า “เนื้อบูด” คุณก็จะเจอทุกอย่างที่เกี่ยวกับเรื่องความปลอดภัยของผู้บริโภค หรือถ้าป้อนคำว่า “Adiposita“ คุณก็จะเจอข้อมูลเรื่องโรคอ้วนทันที ซึ่งวิธีการสืบค้นแบบข้อความในระบบแค็ตตาล็อกแบบเก่าจะทำไม่ได้

นอกจากนี้ SLUBsemantics ยังสามารถแก้ปัญหาเรื่องความหมายอันหลากหลายของคำต่างๆ ได้ด้วย เช่น ถ้าคุณป้อนคำว่า “Python” เข้าไป ซึ่งในที่นี้คุณอาจหมายความถึงงู ภาษาโปรแกรมเมอร์ หรือกลุ่มนักแสดงตลก Monty Python ก็ได้ ถ้าเป็นระบบดั้งเดิม ผลการค้นหาจะออกมาผสมปนเปกัน แต่โปรแกรมของเราจะแบ่งผลการค้นหาออกเป็นกลุ่ม ได้แก่ ด้านชีววิทยา คอมพิวเตอร์ และด้านวงการบันเทิง
 
วิดีโอสาธิตการสืบค้นด้วย SLUBsemantics

โปรแกรม SLUBsemantics สร้างขึ้นจากแนวคิดที่มีอยู่ก่อนแล้วหรือคะ

ใช่ครับ เราเอาความรู้และแนวคิดที่มีอยู่แล้วมาปรับใช้ เช่น เว็บไซต์ Wikipedia เป็นตัวช่วยเรื่องการแปลความหมายของคำ เราได้พัฒนาขั้นตอนการทำงานที่สามารถนำคำค้นของผู้ใช้ไปเทียบกับคำหลักใน Wikipedia จากนั้นเราจะเอาความหมายและคำศัพท์ภาษาต่างๆ ที่ปรากฏอยู่ในนั้นเป็นตัวตั้งและนำมาเปรียบเทียบกับข้อมูลในคลังของเราอีก ทีหนึ่ง

ระบบการสืบค้นอันสมบูรณ์แบบ

คุณมีแผนจะพัฒนาระบบอย่างไรอีกคะ

ณ ตอนนี้เราอิงข้อมูลจาก Wikipedia เท่านั้น ซึ่งถึงแม้ว่าจะจัดเป็นคลังข้อมูลขนาดมหึมาแล้วแต่ก็ยังมีข้อจำกัดอยู่ ด้วยเหตุนี้ในโปรเจ็กต์ของเราที่ชื่อว่า d:swarm เรากำลังพยายามค้นหาและรวบรวมข้อมูลจากแหล่งต่างๆ ให้ได้จำนวนมากที่สุด โดยจะดึงข้อมูลและจัดเก็บรวมกันเพื่อให้ได้มาซึ่งคลังข้อมูลที่หลากหลาย แต่ในขณะเดียวกันก็จะกรองข้อมูลที่ซ้ำซ้อนออก จัดว่าเป็นระบบการสืบค้นด้วยคำที่สมบูรณ์แบบเลยครับ พัฒนาการก้าวต่อไปที่เราตั้งเป้าไว้ก็คือการเข้าถึงข้อมูลเชิงลึกโดยที่ปราศจากข้อมูลที่ซ้ำกันนั่นเอง 

หมายความว่าคุณอยากจะทำระบบให้ดีกว่ากูเกิ้ลใช่ไหมคะ

ใช่ครับ แม้ว่ามันจะฟังดูค่อนข้างทะเยอทะยาน แต่ข้อดีของเราก็คือ ระบบของเราไม่เน้นความกว้างของข้อมูล แต่เน้นความลึก ในขณะที่กูเกิ้ลต้องหาคำตอบที่เหมาะสมให้ผู้คนหลากหลายประเภททั่วโลก แต่โปรแกรมของเราตอนนี้ออกแบบมาเพื่อให้บริการคนเพียงกลุ่มหนึ่ง ณ ที่นี้เท่านั้น กลุ่มเป้าหมายหลักของเราจึงไม่ใช่มหาเศรษฐีมีเงินพันล้าน แต่เป็นคนเพียง 80,000 คน และเมื่อเรารู้ว่าผู้ใช้ของเรามาจากไหนและต้องการสิ่งใด เราเลยเอาความต้องการที่ชัดเจนนี้มาออกแบบระบบที่มีความละเอียดอ่อนกว่ากูเกิ้ล เข้าถึงข้อมูลแบบเฉพาะทาง เน้นศัพท์เฉพาะด้านและศัพท์วิชาการ แต่ก็นั่นแหละครับ ท้ายที่สุดแล้วก็คือเราต้องการให้บริการที่ดีกว่ากูเกิ้ล

ระบบที่ตลาดจับตามอง

มีห้องสมุดอื่นๆ สนใจระบบสืบค้นของคุณบ้างหรือยังคะ

มีแล้วครับ ตอนนี้ห้องสมุดอังกฤษกำลังทดสอบตัวโปรแกรมนำร่องที่สร้างจากเทคโนโลยีของเรา นอกจากนี้เรายังได้พูดคุยกับห้องสมุดใหญ่แห่งอื่นๆ ในเยอรมนีและในภาคพื้นทวีปยุโรป ที่สำคัญก็คือเรากำลังพูดคุยกับหอสมุดแห่งชาติเยอรมันที่เมืองไลพ์ซิกและเมืองแฟรงก์เฟิร์ตซึ่งเป็นผู้ออกแบบและพัฒนาเทคนิคของระบบห้องสมุดดิจิตอลเยอรมนี ซึ่งจากตรงนั้นแล้วก็ถือว่าเราอยู่ไม่ไกลจากระบบห้องสมุดดิจิตอลของยุโรปที่ ชื่อ Europeana แล้วครับ

ในอนาคต ระบบสืบค้นด้วยความหมายและห้องสมุดต่างๆ จะพัฒนาไปในทิศทางใดคะ

ผมคิดว่าห้องสมุดต่างๆ จะต้องเดินทางนี้ต่อไป เราควรนำเอากูเกิ้ล Flickr และสินค้าหรือผลผลิตอื่นๆ ในอุตสาหกรรมอินเตอร์เน็ตมาเป็นตัวตั้งและดูว่ามีจุดไหนที่เราสามารถพัฒนาให้ดีกว่า ถึงแม้ว่าเราจะไม่ได้เป็นคู่แข่งทางเศรษฐกิจกับบริษัทเหล่านี้ แต่เราก็ถือว่ายังอยู่ในระบบเศรษฐกิจที่มีอุปสงค์และอุปทาน ห้องสมุดทุกแห่งต้องตอบคำถามให้ได้ว่าตนเองตั้งอยู่เพื่ออะไร ในวันนี้ อีก 10 ปี หรือ 20 ปีข้างหน้า และแน่นอนว่าห้องสมุดประจำเมืองเล็กๆ กับห้องสมุดขนาดมหึมาอย่างห้องสมุด SLUB ของเราย่อมมีคำตอบที่ไม่เหมือนกัน