Treß, Alexander (1998) Analyse, Vergleich und Implementierung von Indexverfahren für Patentdatenbanken. Diploma thesis, Universität Ulm.
Full text not available from this repository.Abstract
Im Rahmen einer freien Mitarbeit stellte sich die Aufgabe, eine Patentdatenbank aufzubauen. Das zu erwartende Datenvolumen im Endstadium lag bei fünf Millionen Patentschriften, wobei in der ersten Phase nur ein kleiner Teil dieser Daten zur Verfügung stand.
Zur Realisierung wurde ein von Mitarbeitern des Europäischen Molekularbiologischen Laboratoriums (EMBL, European Molecular Biology Laboratory) entwickeltes System (SRS, Sequence Retrieval System) lizenziert. Das SRS wird hauptsächlich dazu benutzt, chemische Strukturen wie Proteine und Nucleotide zu katalogisieren und die Suche nach solchen Strukturen zu ermöglichen. Ein besonders interessanter Aspekt dieses Paketes liegt darin, daß anhand der Strukturinformationen über die zu verwaltenden Dokumente automatisch ein WWW-taugliches Suchsystem generiert wird.
Bei der Arbeit mit dieser Textdatenbank bereitete vor allem die Indexierungskomponente Probleme. Ein Aspekt hierbei war, daß der Suchindex nur über die komplette Datenmenge aufgebaut werden konnte und daher ein nachträgliches Anhängen neuer Dokumente nicht möglich war. Dies machte sich insbesondere durch die Tatsache, daß während der Erstellung eines Index alle Informationen über das Vokabular und die Dokumentverweise im Hauptspeicher gehalten werden, störend bemerkbar. Durch die enormen Hauptspeicheranforderungen (ungefähr in der Größenordnung der zu indexierenden Textdatei) sah man sich gezwungen, die Patentschriften jahrgangsweise aufzuteilen. Diese Probleme stellten die Motivation dar, sich mit dem Aufbau solcher Textdatenbanken im Rahmen einer Diplomarbeit genauer zu befassen.
Item Type: | Thesis (Diploma) |
---|---|
Subjects: | DBIS Teaching > Internal Work |
Depositing User: | Christiane Köppl |
Date Deposited: | 08 Mar 2009 13:22 |
Last Modified: | 08 Mar 2009 13:22 |
URI: | http://dbis.eprints.uni-ulm.de/id/eprint/452 |