Archiv für März, 2004

Volltextsuche != Metadatensuche ? Ein typischer IT Dialog

Für ein Migrationsprojekt einer Internet Seite hatte ich heute mit unserem Leid Architekten eine sehr nette Diskussion. Wobei die typischen Verständnisprobleme innerhalb von Projekten recht deutlich hervorgehoben werden. D.h. die Änderung der Vorgaben im laufenden Projekt bei einem zu straffen Zeitplan.

Vorbemerkung:
Anpassungen im Projekt zur Laufzeit halte ich generell für empfehlenswert, da dies in der Regel dazu führt, das ein Projekt für alle beteiligten mit Erfolg zum Abschluß gebracht wird. Jedoch muss hierfür eine stetige offene Diskussion stattfinden und Lösungen entwickelt werden.

Vorgeschichte:
Es geht um eine Website mit ca. 5000 Dokumenten in 2 Hauptsprachen sowie 17 weiteren Sprachen. Die Ursprüngliche Spezifikation sah vor, das auf einem Content Managment System die Daten als XML Files ausgegeben werden un mit Hilfen eines Application Servers gerendert und angezeigt werden. Die Suchmaschine würde ihre Daten anhand der Änderungsinformationen, die aus dem CMS kommen aktualisieren und somit zeitnahe Suche über neue Dokumente ermöglichen. Meine Aufgabe ist die Implementierung der Suche, und so wurde im Rahmen der Spezifikation vor mir besonders darauf geachtet, dass Ranking möglichst gut beinflußbar bleibt. Im Laufe des Projektes wurde die Strukturierte Datenübergabe nun gekippt. Anstelle dessen werden XML Dateien mit nur einem Feld generiert, welches gekapselt von CDATA Klammern im Prinzip den HTML Code und den Content vermischt enthält. Besucher der Website werden nach dem Launch nur eine einfaches Eingabefeld haben und einen Suchbutton.

Der Dialog:
“Durch die Umstellung der Site auf die CDATA Lösung müssen wir einiges an den Vorgaben für die Volltextindizierung ändern”
“Volltextindizierung? Haben wir eine Volltextsuchmaschine?”
“Ja, klar”
“Wieso?”
“Ähm… User gibt Suchbegriff ein. Klick auf OK. Ergebnisliste. Ist eine Volltextsuche.”
“Ja! Das sagst Du mir jetzt. Mein Gott!!”
“Ähm… steht so in der Spezifikation = von Dir unterschrieben = Basis… was sollen wir sonst haben wie eine Volltextsuche?”
(lauter) “Dumpfbacke! Wegen Dir (?) implementieren wir den ganzen Sch”” mit den Metadaten…”
“Ja und?”
“… und jetzt kommst Du an und meinst, wir bräuchten das nicht mehr. Super! Echt Toll.”
“Ähm was, stop, wieso? Warum brauche ich die nicht mehr?”
“Du sagst Doch, wir implementieren eine Volltextsuche.”
“Moment! Volltextsuche ist das Gegenteil von Kategoriensuche. Soll heißen User kann über einen Volltext suchen…”
(unterbricht)”… Kategorien haben wir auch. Das will der Kunde!”
“… der Volltext wird von der Suchmaschine automatisch gebildet anhand aller Informationen. D.h. den eigentlichen Inhalt und allen Feldern….”
(unterbricht) “… ich hab für solche Belehrungen keine Zeit … Die Metadaten geben wir doch noch!” (Anmerkung: hier handelt es sich um Felder wie Author, Date, Title)
“Ja aber, wir haben keine Möglichkeiten mehr anhand der einzelnen Datenfeldern wie Abstrakt und Langtext in der Relevanz zu unterscheiden. Aus Sicht der Suchmaschine ist das nun alles eins.”
“… egal! Das brauchen wir nicht…”
“Ranking ist aber ein entscheidendes Qualitätskriterium. Des weiteren müssen wir uns jetzt auf automatisch generierte Abstrakts verlassen und können nicht mehr bestimme. Nimm Datenfeld X oder generiere den Abstrakt aus Y.”
“Das ist nicht mein Problem. Ich muss jetzt gehen.”

Comments

Switch to our mobile site