Universität Duisburg-Essen
 Kopfgrafik Lehrangebot
Kopfgrafik Lehrangebot

Statistische Sprachverarbeitung, SS 2007

Beschreibung

'Every time I fire a linguist, system performance goes up.'

Der Grund, warum Fred Jelinek (ehem. IBM-Mitarbeiter) diese Behauptung in den 1980'ern aufstellen konnte, ist gleichzeitig Kernthematik dieser Veranstaltung: Systeme, welche via statistischer Verfahren natürliche Sprache analysieren, sind im Allgemeinen (linguistisch) wissensarm, erzielen jedoch trotzdem (vllt. sogar erstaunlich) gute Ergebnisse.

Anhand von praktischen Implementierungen, dazu zählen unter anderem ein n-Gramm-basierter Sprach- und Themenklassifizierer, sowie ein ad hoc Retrieval-System (VSM mit tf*idf-Gewichtung und relevance feedback), werden den Teilnehmern Grundlagen der Nutzung von Frequenzdaten im Kontext der statististschen Sprachverarbeitung anwendungsnah vermittelt:

Block 1:
  • NLP-Kontextualisierung, Korpora, Frequenzen, Zipf, n-Gramme, Implementierung von n-Gramm-basierten Klassifizierern


  • Block 2:
  • Information Retrieval, Vector Space Model, (tfXidf) Termgewichtung, SEO (Search Engine Optimization: query expansion, relevance feedback, insbesondere Latent Semantic Indexing), Implementierung eines ad hoc IR-Systems mit SEO (LSI)

    Literatur:
  • D. Jurafsky; J.H. Martin. 2000+. Speech and Language Processing. Prentice-Hall.

  • C. D. Manning; H. Schütze. 1999+. Foundations of Statistical Natural Language Processing. The MIT Press.

  • Angekündigte Literatur (siehe unten)
  • Personen

    Dozent
    Nino Simunic M.A.

    Veranstaltungstermin

    Projekt
    2 SWS, Fr 14:00 - 16:00 Uhr, LF 226

    Ressourcen

  • Folien, Handouts, und Quelltexte werden nach den Sitzungen an die Teilnehmer versendet.

    Weitere Ressourcen (Links, Material)

  • N-Gram-Based Text Categorization (1994)
  • perldsc - Perl Data Structures Cookbook
  • Building a Vector Space Search Engine in Perl (2003)
  • SVD and LSI Tutorial (www.miislita.com)
  • Indexing by Latent Semantic Analysis (Deerwester et al., 1990)
  • Letzte Änderung: Freitag, 22.6.2007