====== Teóricos 2015 ====== [[materias:pln2015|(volver a la página principal)]] ===== 12 de agosto ===== * presentación, motivación (con [[http://web.stanford.edu/class/cs124/lec/munro_from_language_to_information_stanford.pdf|filminas]] de [[http://www.robertmunro.com/|Rob Munro]] de [[http://idibon.com/|Idibon]]), objetivos de la materia, organización * el [[http://cs.famaf.unc.edu.ar/~laura/pln2013/files/page0_1.pdf|pipeline clásico]] de procesamiento * referencias: [[http://www.aclweb.org/aclwiki/index.php?title=Main_Page|ACL]] (NAACL, EACL), CoLing, EMNLP, NiPS y algunas conferencias secundarias, también escuelas de verano (ESSLLI, NASSLLI, JHU) y muchos MOOCs (p.ej., [[https://www.coursera.org/course/nlp|NLP en Coursera]] por [[http://web.stanford.edu/~jurafsky/|Dan Jurafsky]] y [[http://nlp.stanford.edu/manning/|Chris Manning]]) * evaluación y challenges (CoNLL, CLEF, TREC, ACE, MUC, SemEval, KDD y Kaggle) * conociendo herramientas básicas: [[http://www.nltk.org/|nltk]], [[http://nlp.lsi.upc.edu/freeling/|freeling]], [[http://nlp.stanford.edu/software/|stanford nlp]], [[https://code.google.com/p/word2vec/|word2vec]], [[http://scikit-learn.org/|scikit-learn]] ===== 14 de agosto ===== * esenciales lingüísticos, con [[http://cs.famaf.unc.edu.ar/~laura/pln2013/files/page0_2.pdf|filminas]] de [[http://ufal.mff.cuni.cz/jan-hajic|Jan Hajic]] en su [[http://www.cs.jhu.edu/~hajic/courses/cs465/syllabus.html|curso en JHU]] ===== 19 de agosto ===== * Modelos de lenguaje: n-gramas y suavizado (smoothing). * capítulo 4 de Jurafsky & Martin * [[http://www.cs.berkeley.edu/~klein/cs288/fa14/slides/fa14lecture2-6pp.pdf|filminas]] ===== 21 de agosto ===== * Presentación del [[materias:pln:practico1|Práctico 1]]. * Evaluación de modelos de lenguaje: log-probability, cross-entropy y perplexity. * capítulo 4 de Jurafsky & Martin * [[http://www.cs.columbia.edu/~mcollins/lm-spring2013.pdf|notas sobre language modeling]] del [[http://www.cs.columbia.edu/~cs4705/|curso de Michael Collins]]. ===== 26 de agosto ===== * Presentación de nuevos ejercicios del [[materias:pln:practico1|Práctico 1]]. * Suavizado de modelos de lenguaje: discounting y Katz back-off. * capítulo 4 de Jurafsky & Martin * [[http://www.cs.columbia.edu/~mcollins/lm-spring2013.pdf|notas sobre language modeling]] del [[http://www.cs.columbia.edu/~cs4705/|curso de Michael Collins]]. * Videolectures del curso de Collins: * [[https://class.coursera.org/nlangp-001/lecture/51|Discounting Methods (Part 1)]] * [[https://class.coursera.org/nlangp-001/lecture/53|Discounting Methods (Part 2)]] ===== 28 de agosto ===== * Etiquetado de secuencias: Introducción. HMMs. * capítulo 5 de Jurafsky & Martin * [[http://www.cs.berkeley.edu/~klein/cs288/fa14/slides/fa14lecture8-1pp.pdf|filminas (de Klein)]] * Videolectures del curso de Collins: * [[https://class.coursera.org/nlangp-001/lecture/81|The Tagging Problem]] * [[https://class.coursera.org/nlangp-001/lecture/83|Generative Models for Supervised Learning]] * [[https://class.coursera.org/nlangp-001/lecture/85|Hidden Markov Models (HMMs): Basic Definitions]] * [[https://class.coursera.org/nlangp-001/lecture/87|Parameter Estimation in HMMs]] * [[http://www.cs.columbia.edu/~mcollins/hmms-spring2013.pdf|notas sobre tagging y HMMs (de Collins)]]. ===== 2 de septiembre ===== * Clase de Pablo Duboue sobre Generación de Lenguaje Natural. ===== 4 de septiembre ===== * Etiquetado de secuencias: Decodificación con HMMs: El algoritmo de Viterbi. * capítulo 5 de Jurafsky & Martin * [[http://www.cs.berkeley.edu/~klein/cs288/fa14/slides/fa14lecture8-1pp.pdf|filminas (de Klein)]] * Videolectures del curso de Collins: * [[https://class.coursera.org/nlangp-001/lecture/89|The Viterbi Algorithm for HMMs (Part 1)]] * [[https://class.coursera.org/nlangp-001/lecture/91|The Viterbi Algorithm for HMMs (Part 2)]] * [[https://class.coursera.org/nlangp-001/lecture/93|The Viterbi Algorithm for HMMs (Part 3)]] * [[http://www.cs.columbia.edu/~mcollins/hmms-spring2013.pdf|notas sobre tagging y HMMs (de Collins)]]. ===== 9 de septiembre ===== * Extracción de expresiones multipalabra. * capítulo 5, [[http://nlp.stanford.edu/fsnlp/promo/colloc.pdf|Collocations]], de [[http://nlp.stanford.edu/fsnlp/|Manning & Schütze]] * [[http://lingo.stanford.edu/pubs/altss2004.pdf|filminas sobre expresiones multipalabra]] de [[http://people.eng.unimelb.edu.au/tbaldwin/|Timothy Baldwin]], no todas, sino: 1-20,38-44,101-176 y algunas otras * pasos para un extractor simple: * por frecuencia: obtener los bigramas, trigramas más frecuentes * filtros de PoS * medidas de asociación: información mútua, test de hipótesis, likelihood ratio * usaremos [[http://cs.famaf.unc.edu.ar/~laura/corpus/lavoztextodump.txt.tar.gz|un pedacito de La Voz del Interior]]. * si quieren leer algo más resumidito, les recomiendo el apartado sobre Collocations de [[http://www.pling.org.uk/cs/nlp.html|los apuntes de clase de Chris Northwood]]. Conciso y al punto. ===== 11 de septiembre ===== * Etiquetado de secuencias: * Repaso del algoritmo de Viterbi. Ejemplo. * Introducción a los Maximum Entropy Markov Models (MEMMs) (también llamados //log-linear models//). * Videolectures: * [[https://class.coursera.org/nlangp-001/lecture/223|Independence Assumptions in Log-linear Taggers]] * [[https://class.coursera.org/nlangp-001/lecture/225|Features in Log-Linear Taggers]] * [[http://www.cs.columbia.edu/~mcollins/fall2014-loglineartaggers.pdf|notas sobre MEMMs (de Collins)]]. ===== 16 de septiembre ===== * Desambiguación e inducción de sentidos. * [[http://www.cs.columbia.edu/~kathy/NLP/ClassSlides/Slides09/Class12-RelationsWSD/myrelations.pdf|filminas]] de [[http://www.cs.columbia.edu/~kathy/|Kathy McKeown]] sobre WSD * veremos los siguientes papers: * Dan Yarowsky. 1995. [[http://www.aclweb.org/anthology/P95-1026|Unsupervised Word Sense Disambiguation Rivaling Supervised Methods]]. ACL. * Pantel, P. and Lin, D. 2002. [[http://www.patrickpantel.com/cgi-bin/Web/Tools/getfile.pl?type=paper&id=2002/kdd02.pdf|Discovering Word Senses from Text]]. KDD-02. * J. Véronis. 2004. [[http://www.up.univ-mrs.fr/veronis/pdf/2004-hyperlex-CSL.pdf|HyperLex: Lexical Cartography for Information Retrieval]]. Computer, Speech and Language, 18 (3). * y problemas y soluciones del [[http://alt.qcri.org/semeval2015/|Semeval 2015]] ===== 18 de septiembre ===== * Clasificación para Reconocimiento de Entidades Nombradas (Named Entity Recognition): Codificación BIO y features. Árboles de decisión y SVMs. * {{:materias:pln:slides.pdf|}} ===== 23 de septiembre ===== Semana del estudiante. * Clase de consulta para el práctico 1. ===== 25 de septiembre ===== Semana del estudiante pero hay clase igual porque no tenemos otra cosa mejor para hacer: * Clasificación de Textos y el clasificador Naive Bayes. * https://class.coursera.org/nlp/lecture/36 * https://class.coursera.org/nlp/lecture/37 * https://class.coursera.org/nlp/lecture/25 * https://class.coursera.org/nlp/lecture/26 * https://class.coursera.org/nlp/lecture/27 * https://class.coursera.org/nlp/lecture/28 * Introducción a scikit-learn para clasificación de textos: * http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html * [[http://nbviewer.ipython.org/url/cs.famaf.unc.edu.ar/~francolq/Clasificaci%C3%B3n%20de%20Texto%20con%20scikit-learn.ipynb#|Mi versión del mismo tutorial]] ===== 30 de septiembre ===== Feriado por el día de San Jerónimo. ===== 2 de octubre ===== * Extracción de relaciones. * [[https://class.coursera.org/nlp/lecture/138|What is Relation Extraction? (9:47)]] * [[https://class.coursera.org/nlp/lecture/139|Using Patterns to Extract Relations (6:17)]] * [[https://class.coursera.org/nlp/lecture/140|Supervised Relation Extraction (10:51)]] * [[https://class.coursera.org/nlp/lecture/141|Semi-Supervised and Unsupervised Relation Extraction (9:53)]] ===== 7 de octubre ===== * Introducción al Análisis Sintáctico. * Del curso de Collins: * [[https://class.coursera.org/nlangp-001/lecture/199|Introduction (0:28)]] * [[https://class.coursera.org/nlangp-001/lecture/95|Introduction to the Parsing Problem (Part 1) (10:37)]] * [[https://class.coursera.org/nlangp-001/lecture/97|Introduction to the Parsing Problem (Part 2) (4:20)]] * Del curso de Jurafsky y Manning: * [[https://class.coursera.org/nlp/lecture/161|Syntactic Structure: Constituency vs Dependency (8:46)]] * [[https://class.coursera.org/nlp/lecture/162|Empirical/Data-Driven Approach to Parsing (7:11)]] * [[https://class.coursera.org/nlp/lecture/163|The Exponential Problem in Parsing (14:30)]] * [[http://nbviewer.ipython.org/url/cs.famaf.unc.edu.ar/~francolq/Etiquetado%20de%20Secuencias%20con%20Feature%20Forge.ipynb|Etiquetado de Secuencias con Feature Forge]] ===== 9 de octubre ===== * Gramáticas Libres de Contexto (CFGs). Elementos sintácticos principales del lenguaje natural. * [[https://class.coursera.org/nlangp-001/lecture/99|Context-Free Grammars (Part 1) (12:11)]] * [[https://class.coursera.org/nlangp-001/lecture/101|Context-Free Grammars (Part 2) (2:22)]] * [[https://class.coursera.org/nlangp-001/lecture/103|A Simple Grammar for English (Part 1) (10:32)]] * [[https://class.coursera.org/nlangp-001/lecture/105|A Simple Grammar for English (Part 2) (5:30)]] * [[https://class.coursera.org/nlangp-001/lecture/107|A Simple Grammar for English (Part 3) (11:21)]] * [[https://class.coursera.org/nlangp-001/lecture/109|A Simple Grammar for English (Part 4) (2:20)]] * [[https://class.coursera.org/nlangp-001/lecture/111|Examples of Ambiguity (5:56)]] * Gramáticas Libres de Contexto Probabilísticas (PCFGs). * [[https://class.coursera.org/nlangp-001/lecture/197|Introduction (1:12)]] * [[https://class.coursera.org/nlangp-001/lecture/113|Basics of PCFGs (Part 1) (9:43)]] * [[https://class.coursera.org/nlangp-001/lecture/115|Basics of PCFGs (Part 2) (8:26)]] ===== 14 de octubre ===== * Forma Normal de Chomsky (CNF). Algoritmo CKY para PCFGs. * [[https://class.coursera.org/nlangp-001/lecture/117|The CKY Parsing Algorithm (Part 1) (7:31)]] * [[https://class.coursera.org/nlangp-001/lecture/119|The CKY Parsing Algorithm (Part 2) (13:22)]] * [[https://class.coursera.org/nlangp-001/lecture/121|The CKY Parsing Algorithm (Part 3) (10:07)]] ===== 16 de octubre ===== * Ejemplos de Forma Normal de Chomsky y del algoritmo CKY. Evaluación de parsers: precision, recall y F1. * [[https://class.coursera.org/nlp/lecture/166|Grammar Transforms (12:05)]] * [[https://class.coursera.org/nlp/lecture/167|CKY Parsing (23:25)]] * [[https://class.coursera.org/nlp/lecture/168|CKY Example (21:52)]] * [[https://class.coursera.org/nlp/lecture/169|Constituency Parser Evaluation (9:45)]] ===== 21 de octubre ===== * Debilidades de las PCFGs. PCFGs lexicalizadas. * [[https://class.coursera.org/nlangp-001/lecture/125|Weaknesses of PCFGs (14:59)]] * [[https://class.coursera.org/nlangp-001/lecture/127|Introduction (00:17)]] * [[https://class.coursera.org/nlangp-001/lecture/129|Lexicalization of a Treebank (10:44)]] * [[https://class.coursera.org/nlangp-001/lecture/131|Lexicalized PCFGs: Basic Definitions (12:40)]] * [[https://class.coursera.org/nlangp-001/lecture/133|Parameter Estimation in Lexicalized PCFGs (Part 1) (5:28)]] * [[https://class.coursera.org/nlangp-001/lecture/135|Parameter Estimation in Lexicalized PCFGs (Part 2) (9:08)]] * [[https://class.coursera.org/nlangp-001/lecture/137|Evaluation of Lexicalized PCFGs (Part 1) (9:32)]] * [[https://class.coursera.org/nlangp-001/lecture/139|Evaluation of Lexicalized PCFGs (Part 2) (11:28)]] ===== 23 de octubre ===== * PCFGs no lexicalizadas. Splitting y merging de no terminales: Markovización horizontal y vertical, parent annotation, etc. PCFGs con estados latentes. * [[https://class.coursera.org/nlp/lecture/173|The Return of Unlexicalized PCFGs (20:53)]] * [[https://class.coursera.org/nlp/lecture/174|Latent Variable PCFGs (12:07)]] ===== 28 de octubre ===== * Adquisición léxica (Laura) * palabras cuyo significado no se representa referencialmente, sino como una estructura (o como una función que busca argumentos, al estilo de la [[https://en.wikipedia.org/wiki/Categorial_grammar|Gramática Categorial]] (la [[http://groups.inf.ed.ac.uk/ccg/|CCG]] es una gramática categorial práctica)). * recursos donde los verbos se representan como escenas o como estructuras con argumentos: [[https://framenet.icsi.berkeley.edu/fndrupal/|FrameNet]], [[https://verbs.colorado.edu/~mpalmer/projects/verbnet.html|VerbNet]], [[http://verbs.colorado.edu/verb-index/index.php|Unified Verb Index]] * [[http://alt.qcri.org/semeval2016/|SemEval]] ===== 30 de octubre ===== ===== 4 de noviembre ===== * Análisis Sintáctico de dependencias. Parsing basado en transiciones. * [[https://class.coursera.org/nlp/lecture/175|Dependency Parsing Introduction (10:25)]] * [[https://class.coursera.org/nlp/lecture/177|Greedy Transition-Based Parsing (31:05)]] ===== 6 de noviembre ===== * Búsqueda y Recuperación de Información. * [[https://class.coursera.org/nlp/lecture/178|Introduction to Information Retrieval (9:16)]] * [[https://class.coursera.org/nlp/lecture/179|Term-Document Incidence Matrices (8:59)]] * [[https://class.coursera.org/nlp/lecture/180|The Inverted Index (10:42)]] * [[https://class.coursera.org/nlp/lecture/181|Query Processing with the Inverted Index (6:43)]] * [[https://class.coursera.org/nlp/lecture/182|Phrase Queries and Positional Indexes (19:45)]] * [[https://class.coursera.org/nlp/lecture/183|Introducing Ranked Retrieval (4:27)]] * [[https://class.coursera.org/nlp/lecture/184|Scoring with the Jaccard Coefficient (5:06)]] ===== 11 de noviembre ===== * Clustering para Procesamiento del Lenguaje Natural * [[http://web.stanford.edu/class/cs276/handouts/lecture12-clustering.ppt|filminas (versión resumida)]] del [[http://web.stanford.edu/class/cs276/|curso de Information Retrieval]] del grupo de PLN de Stanford * [[http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html|demo de k-means]] * [[http://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html|k-means en scikit-learn]] * revisitamos el paper de Pantel y Lin sobre clustering para descubrir sentidos: [[http://www.patrickpantel.com/download/papers/2002/kdd02.pdf|Discovering Word Senses from Text]], KDD 2002 ===== 13 de noviembre ===== ===== 18 de noviembre ===== Clase de Paula Estrella sobre Traducción Automática. ===== 20 de noviembre =====