materias:pln2015:teoricos
Tabla de Contenidos
Teóricos 2015
12 de agosto
- el pipeline clásico de procesamiento
- referencias: ACL (NAACL, EACL), CoLing, EMNLP, NiPS y algunas conferencias secundarias, también escuelas de verano (ESSLLI, NASSLLI, JHU) y muchos MOOCs (p.ej., NLP en Coursera por Dan Jurafsky y Chris Manning)
- evaluación y challenges (CoNLL, CLEF, TREC, ACE, MUC, SemEval, KDD y Kaggle)
14 de agosto
19 de agosto
- Modelos de lenguaje: n-gramas y suavizado (smoothing).
- capítulo 4 de Jurafsky & Martin
21 de agosto
- Presentación del Práctico 1.
- Evaluación de modelos de lenguaje: log-probability, cross-entropy y perplexity.
- capítulo 4 de Jurafsky & Martin
26 de agosto
- Presentación de nuevos ejercicios del Práctico 1.
- Suavizado de modelos de lenguaje: discounting y Katz back-off.
- capítulo 4 de Jurafsky & Martin
- Videolectures del curso de Collins:
28 de agosto
- Etiquetado de secuencias: Introducción. HMMs.
- capítulo 5 de Jurafsky & Martin
- Videolectures del curso de Collins:
2 de septiembre
- Clase de Pablo Duboue sobre Generación de Lenguaje Natural.
4 de septiembre
- Etiquetado de secuencias: Decodificación con HMMs: El algoritmo de Viterbi.
- capítulo 5 de Jurafsky & Martin
- Videolectures del curso de Collins:
9 de septiembre
- Extracción de expresiones multipalabra.
- capítulo 5, Collocations, de Manning & Schütze
- filminas sobre expresiones multipalabra de Timothy Baldwin, no todas, sino: 1-20,38-44,101-176 y algunas otras
- pasos para un extractor simple:
- por frecuencia: obtener los bigramas, trigramas más frecuentes
- filtros de PoS
- medidas de asociación: información mútua, test de hipótesis, likelihood ratio
- usaremos un pedacito de La Voz del Interior.
- si quieren leer algo más resumidito, les recomiendo el apartado sobre Collocations de los apuntes de clase de Chris Northwood. Conciso y al punto.
11 de septiembre
- Etiquetado de secuencias:
- Repaso del algoritmo de Viterbi. Ejemplo.
- Introducción a los Maximum Entropy Markov Models (MEMMs) (también llamados log-linear models).
- Videolectures:
16 de septiembre
- Desambiguación e inducción de sentidos.
- filminas de Kathy McKeown sobre WSD
- veremos los siguientes papers:
- Dan Yarowsky. 1995. Unsupervised Word Sense Disambiguation Rivaling Supervised Methods. ACL.
- Pantel, P. and Lin, D. 2002. Discovering Word Senses from Text. KDD-02.
- J. Véronis. 2004. HyperLex: Lexical Cartography for Information Retrieval. Computer, Speech and Language, 18 (3).
- y problemas y soluciones del Semeval 2015
18 de septiembre
- Clasificación para Reconocimiento de Entidades Nombradas (Named Entity Recognition): Codificación BIO y features. Árboles de decisión y SVMs.
23 de septiembre
Semana del estudiante.
- Clase de consulta para el práctico 1.
25 de septiembre
Semana del estudiante pero hay clase igual porque no tenemos otra cosa mejor para hacer:
- Clasificación de Textos y el clasificador Naive Bayes.
- Introducción a scikit-learn para clasificación de textos:
30 de septiembre
Feriado por el día de San Jerónimo.
2 de octubre
- Extracción de relaciones.
7 de octubre
- Introducción al Análisis Sintáctico.
- Del curso de Collins:
- Del curso de Jurafsky y Manning:
9 de octubre
- Gramáticas Libres de Contexto (CFGs). Elementos sintácticos principales del lenguaje natural.
- Gramáticas Libres de Contexto Probabilísticas (PCFGs).
14 de octubre
- Forma Normal de Chomsky (CNF). Algoritmo CKY para PCFGs.
16 de octubre
- Ejemplos de Forma Normal de Chomsky y del algoritmo CKY. Evaluación de parsers: precision, recall y F1.
21 de octubre
- Debilidades de las PCFGs. PCFGs lexicalizadas.
23 de octubre
- PCFGs no lexicalizadas. Splitting y merging de no terminales: Markovización horizontal y vertical, parent annotation, etc. PCFGs con estados latentes.
28 de octubre
- Adquisición léxica (Laura)
- palabras cuyo significado no se representa referencialmente, sino como una estructura (o como una función que busca argumentos, al estilo de la Gramática Categorial (la CCG es una gramática categorial práctica)).
- recursos donde los verbos se representan como escenas o como estructuras con argumentos: FrameNet, VerbNet, Unified Verb Index
30 de octubre
4 de noviembre
- Análisis Sintáctico de dependencias. Parsing basado en transiciones.
6 de noviembre
- Búsqueda y Recuperación de Información.
11 de noviembre
- Clustering para Procesamiento del Lenguaje Natural
- filminas (versión resumida) del curso de Information Retrieval del grupo de PLN de Stanford
- revisitamos el paper de Pantel y Lin sobre clustering para descubrir sentidos: Discovering Word Senses from Text, KDD 2002
13 de noviembre
18 de noviembre
Clase de Paula Estrella sobre Traducción Automática.
20 de noviembre
materias/pln2015/teoricos.txt · Última modificación: 2018/08/10 03:03 por 127.0.0.1