Descripción de la Materia

Modalidad

Se realizarán cuatro Trabajos Prácticos (TPs). Los primeros tres serán realizados en torno a tres temas principales (modelado de lenguaje, etiquetado de secuencias y representaciones de palabras). En cada uno de ellos se implementarán sistemas completos, y se realizarán experimentos que permitan evaluar y comparar los diferentes modelos. Los TPs serán guiados a través de ejercicios con objetivos claros y medibles. La evaluación será realizada a través de una entrega de código fuente y de un informe de resultados. Además de la resolución de los ejercicios, se evaluarán aspectos cualitativos como el uso de buenas prácticas de programación (versionado, testing, coding style, documentación, etc.). El cuarto y último TP será de tema libre y tratará sobre el estudio y la replicación de resultados obtenidos en publicaciones científicas de conferencias o revistas del área. La evaluación será a través de la entrega de un informe y de una defensa oral.

Para la regularización del curso, deben aprobarse los primeros tres TPs. Para la aprobación, deben aprobarse todos los TPs, y se debe realizar una defensa oral del cuarto TP.

Programa

Procesamiento básico de texto: Expresiones regulares, tokenización, segmentación, normalización, lematización y stemming.
Modelado de lenguaje: N-gramas, suavizado add-one y por interpolación, back-off. Evaluación con métricas de teoría la información (entropía y perplejidad). Aplicaciones: Generación de lenguaje y atribución de autoría.
Etiquetado de secuencias: Etiquetado morfosintáctico (PoS tagging) y Reconocimiento de Entidades Nombradas (NER). Aprendizaje supervisado. Clasificadores: árboles de decision, regresiones logísticas y SVMs. Modelos Ocultos de Markov (HMMs), de Máxima Entropía (MEMMs) y Conditional Random Fields (CRFs). Algoritmo de Viterbi y beam search. Ingeniería de features, evaluación y análisis de error.
Representación de palabras y modelos neuronales: Representación vectorial de palabras (word embeddings): word2vec, fasttext y GloVe. Aprendizaje y evaluación. Representación de oraciones y documentos. Modelos de lenguaje neuronales: ULMFiT, OpenAI, ELMo, BERT.
Temas complementarios: Análisis de sentimiento (sentiment analysis), análisis sintáctico (parsing), extracción de información (information extraction), traducción automática (machine translation), recuperación de información (information retrieval) y búsqueda de respuestas (question answering).