Wortart

Wortart

Für diejenigen, die an ein paar Informationen über diese Seite interessiert sind: Es ist ein Nebenprojekt, das ich während der Arbeit an Describing Words and Related Words entwickelt habe. Bei beiden Projekten geht es um Wörter, aber sie haben weitaus größere Ziele. Ich hatte die Idee für eine Website, die einfach die Wortarten der gesuchten Wörter erklärt – wie ein Wörterbuch, aber mit dem Schwerpunkt auf der Wortart der Wörter. Und da ich bereits einen Großteil der Infrastruktur der anderen beiden Websites aufgebaut hatte, dachte ich mir, dass es nicht viel mehr Arbeit sein würde, diese Seite zum Laufen zu bringen.

Das Wörterbuch basiert auf dem erstaunlichen Wiktionary-Projekt von wikimedia. Ich habe zunächst mit WordNet begonnen, aber dann festgestellt, dass dort viele Wortarten/Lemmata fehlen (Determinatoren, Pronomen, Abkürzungen und vieles mehr). Dies veranlasste mich, die 1913er Ausgabe von Websters Dictionary zu untersuchen, die nun öffentlich zugänglich ist. Nachdem ich es jedoch einen Tag lang in eine Datenbank eingearbeitet hatte, stellte ich fest, dass es viel zu viele Fehler enthielt (vor allem bei der Part-of-Speech-Kennzeichnung), als dass es für Word Type in Frage käme.

Schließlich wandte ich mich wieder Wiktionary zu, das ich bereits kannte, aber gemieden hatte, weil es für das Parsing nicht richtig strukturiert war. Dabei bin ich auf das UBY-Projekt gestoßen – ein erstaunliches Projekt, das mehr Anerkennung verdient. Die Forscher haben das gesamte Wiktionary und andere Quellen geparst und alles in einer einzigen, einheitlichen Ressource zusammengefasst. Ich habe einfach die Wiktionary-Einträge extrahiert und sie in diese Schnittstelle eingefügt! Es hat also etwas mehr Arbeit gekostet als erwartet, aber ich bin froh, dass ich nach den ersten paar Fehlern drangeblieben bin.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.