Descripción de la Materia

Modalidad

El curso será evaluado a través de trabajos prácticos en los que se deben realizar diversos ejercicios de programación de modelos y experimentación con datos. Para la aprobación del curso, deben ser aprobados todos los trabajos prácticos.

Programa

Procesamiento básico de texto: Expresiones regulares, tokenización, segmentación, normalización, lematización y stemming.
Modelado de lenguaje: N-gramas, suavizado add-one y por interpolación, back-off. Evaluación con perplexity. Aplicaciones: Generación de lenguaje y atribución de autoría.
Etiquetado de secuencias: Etiquetado morfosintáctico (PoS tagging) y Reconocimiento de Entidades Nombradas (NER). Modelos Ocultos de Markov (HMMs). Modelos de Máxima Entropía (MEMMs). Algoritmo de Viterbi y beam search. Ingeniería de features, evaluación y análisis de error.
Modelos avanzados: word embeddings (word2vec, fasttext, GloVe, etc.) y modelos de lenguaje neuronales (ULMFiT, OpenAI, ELMo, etc.).
Otros temas: Análisis de sentimiento (sentiment analysis), análisis sintáctico (parsing), extracción de información (information extraction), traducción automática (machine translation), etc.

Bibliografía

Daniel Jurafsky and James H. Martin. Speech and Language Processing, 2nd Edition . Prentice Hall, 2nd edition, 2008.
Christopher D. Manning and Hinrich Schtze. Foundations of statistical natural language processing. Hardcover, 1999.
Daniel Jurafsky and James H. Martin. Speech and Language Processing, 3rd Edition Draft. 2019.
Jacob Eisenstein, Natural Language Processing, 1st edition, Draft. MIT Press. , 2019.
Yoav Goldberg, "A primer on neural network models for natural language processing." Journal of Artificial Intelligence Research 57 (2016): 345-420.
Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning, 2019, MIT Press.
Proceedings de las principales conferencias y revistas del área: ACL, NAACL, EACL, TACL, EMNLP, COLING, etc.