Beschreibung
'Every time I fire a linguist, system performance goes up.'
Der Grund, warum Fred Jelinek (ehem. IBM-Mitarbeiter) diese Behauptung in den 1980'ern aufstellen konnte, ist gleichzeitig Kernthematik dieser Veranstaltung: Systeme, welche via statistischer Verfahren natürliche Sprache analysieren, sind im Allgemeinen (linguistisch) wissensarm, erzielen jedoch trotzdem (vllt. sogar erstaunlich) gute Ergebnisse.
Anhand von praktischen Implementierungen, dazu zählen unter anderem ein n-Gramm-basierter Sprach- und Themenklassifizierer, sowie ein ad hoc Retrieval-System (VSM mit tf*idf-Gewichtung und relevance feedback), werden den Teilnehmern Grundlagen der Nutzung von Frequenzdaten im Kontext der statististschen Sprachverarbeitung anwendungsnah vermittelt:
Block 1:
NLP-Kontextualisierung, Korpora, Frequenzen, Zipf, n-Gramme, Implementierung von n-Gramm-basierten Klassifizierern
Block 2:
Information Retrieval, Vector Space Model, (tfXidf) Termgewichtung, SEO (Search Engine Optimization: query expansion, relevance feedback, insbesondere Latent Semantic Indexing), Implementierung eines ad hoc IR-Systems mit SEO (LSI)
Literatur:
D. Jurafsky; J.H. Martin. 2000+. Speech and Language Processing. Prentice-Hall.
C. D. Manning; H. Schütze. 1999+. Foundations of Statistical Natural Language Processing. The MIT Press.
Angekündigte Literatur (siehe unten)
Personen
Dozent
Nino Simunic M.A.
Veranstaltungstermin
Projekt
2 SWS, Fr 14:00 - 16:00 Uhr, LF 226
Ressourcen
Folien, Handouts, und Quelltexte werden nach den Sitzungen an die Teilnehmer versendet.
Weitere Ressourcen (Links, Material)
N-Gram-Based Text Categorization (1994)
perldsc - Perl Data Structures Cookbook
Building a Vector Space Search Engine in Perl (2003)
SVD and LSI Tutorial (www.miislita.com)
Indexing by Latent Semantic Analysis (Deerwester et al., 1990)
|