El curso será evaluado a través de trabajos prácticos en los que se deben
realizar diversos ejercicios de programación de modelos y experimentación con
datos. Para la aprobación del curso, deben ser aprobados todos los trabajos
prácticos.
Programa
Procesamiento básico de texto: Expresiones regulares, tokenización, segmentación, normalización, lematización y stemming.
Modelado de lenguaje: N-gramas, suavizado add-one y por interpolación, back-off. Evaluación con perplexity. Aplicaciones: Generación de lenguaje y atribución de autoría.
Etiquetado de secuencias: Etiquetado morfosintáctico (PoS tagging) y Reconocimiento de Entidades Nombradas (NER). Modelos Ocultos de Markov (HMMs). Modelos de Máxima Entropía (MEMMs). Algoritmo de Viterbi y beam search. Ingeniería de features, evaluación y análisis de error.
Modelos avanzados: word embeddings (word2vec, fasttext, GloVe, etc.) y modelos de lenguaje neuronales (ULMFiT, OpenAI, ELMo, etc.).
Otros temas: Análisis de sentimiento (sentiment analysis), análisis sintáctico (parsing), extracción de información (information extraction), traducción automática (machine translation), etc.