Word Type
For dem, der er interesseret i lidt info om dette websted: Det er et sideprojekt, som jeg har udviklet, mens jeg arbejdede på Describing Words and Related Words. Begge disse projekter er baseret på ord, men har meget større mål. Jeg havde en idé om et websted, der simpelthen forklarer ordtyperne for de ord, man søger efter – ligesom en ordbog, men med fokus på ordets talemåde. Og da jeg allerede havde en stor del af infrastrukturen på plads fra de to andre websteder, tænkte jeg, at det ikke ville være alt for meget mere arbejde at få dette op at køre.
Ordbogen er baseret på det fantastiske Wiktionary-projekt fra wikimedia. Jeg startede i første omgang med WordNet, men indså så, at der manglede mange typer ord/lemmer (determinanter, pronominer, forkortelser og mange flere). Dette fik mig til at undersøge 1913-udgaven af Websters Dictionary – som nu er offentligt tilgængeligt. Efter en dags arbejde med at få den ind i en database indså jeg imidlertid, at der var alt for mange fejl (især med part-of-speech tagging) til, at den kunne være brugbar til Word Type.
Endeligt gik jeg tilbage til Wiktionary – som jeg allerede kendte til, men som jeg havde undgået, fordi den ikke er ordentligt struktureret til parsing. Det var der, jeg faldt over UBY-projektet – et fantastisk projekt, som har brug for mere anerkendelse. Forskerne har analyseret hele Wiktionary og andre kilder og samlet det hele til en enkelt samlet ressource. Jeg har simpelthen ekstraheret Wiktionary-posterne og smidt dem ind i denne grænseflade! Så det krævede lidt mere arbejde end forventet, men jeg er glad for, at jeg blev ved efter de første par blundere.