====== Teóricos 2015 ======

[[materias:pln2015|(volver a la página principal)]]

===== 12 de agosto =====

  * presentación, motivación (con [[http://web.stanford.edu/class/cs124/lec/munro_from_language_to_information_stanford.pdf|filminas]] de [[http://www.robertmunro.com/|Rob Munro]] de [[http://idibon.com/|Idibon]]), objetivos de la materia, organización
  * el [[http://cs.famaf.unc.edu.ar/~laura/pln2013/files/page0_1.pdf|pipeline clásico]] de procesamiento
  * referencias: [[http://www.aclweb.org/aclwiki/index.php?title=Main_Page|ACL]] (NAACL, EACL), CoLing, EMNLP, NiPS y algunas conferencias secundarias, también escuelas de verano (ESSLLI, NASSLLI, JHU) y muchos MOOCs (p.ej., [[https://www.coursera.org/course/nlp|NLP en Coursera]] por [[http://web.stanford.edu/~jurafsky/|Dan Jurafsky]] y [[http://nlp.stanford.edu/manning/|Chris Manning]])
  * evaluación y challenges (CoNLL, CLEF, TREC, ACE, MUC, SemEval, KDD y Kaggle)
  * conociendo herramientas básicas: [[http://www.nltk.org/|nltk]], [[http://nlp.lsi.upc.edu/freeling/|freeling]], [[http://nlp.stanford.edu/software/|stanford nlp]], [[https://code.google.com/p/word2vec/|word2vec]], [[http://scikit-learn.org/|scikit-learn]]

===== 14 de agosto =====

  * esenciales lingüísticos, con [[http://cs.famaf.unc.edu.ar/~laura/pln2013/files/page0_2.pdf|filminas]] de [[http://ufal.mff.cuni.cz/jan-hajic|Jan Hajic]] en su [[http://www.cs.jhu.edu/~hajic/courses/cs465/syllabus.html|curso en JHU]]

===== 19 de agosto =====

  * Modelos de lenguaje: n-gramas y suavizado (smoothing).
    * capítulo 4 de Jurafsky & Martin
    * [[http://www.cs.berkeley.edu/~klein/cs288/fa14/slides/fa14lecture2-6pp.pdf|filminas]]

===== 21 de agosto =====

  * Presentación del [[materias:pln:practico1|Práctico 1]].
  * Evaluación de modelos de lenguaje: log-probability, cross-entropy y perplexity.
    * capítulo 4 de Jurafsky & Martin
    * [[http://www.cs.columbia.edu/~mcollins/lm-spring2013.pdf|notas sobre language modeling]] del [[http://www.cs.columbia.edu/~cs4705/|curso de Michael Collins]].

===== 26 de agosto =====

  * Presentación de nuevos ejercicios del [[materias:pln:practico1|Práctico 1]].
  * Suavizado de modelos de lenguaje: discounting y Katz back-off.
    * capítulo 4 de Jurafsky & Martin
    * [[http://www.cs.columbia.edu/~mcollins/lm-spring2013.pdf|notas sobre language modeling]] del [[http://www.cs.columbia.edu/~cs4705/|curso de Michael Collins]].
    * Videolectures del curso de Collins:
      * [[https://class.coursera.org/nlangp-001/lecture/51|Discounting Methods (Part 1)]]
      * [[https://class.coursera.org/nlangp-001/lecture/53|Discounting Methods (Part 2)]]

===== 28 de agosto =====

  * Etiquetado de secuencias: Introducción. HMMs.
    * capítulo 5 de Jurafsky & Martin
    * [[http://www.cs.berkeley.edu/~klein/cs288/fa14/slides/fa14lecture8-1pp.pdf|filminas (de Klein)]]
    * Videolectures del curso de Collins:
      * [[https://class.coursera.org/nlangp-001/lecture/81|The Tagging Problem]]
      * [[https://class.coursera.org/nlangp-001/lecture/83|Generative Models for Supervised Learning]]
      * [[https://class.coursera.org/nlangp-001/lecture/85|Hidden Markov Models (HMMs): Basic Definitions]]
      * [[https://class.coursera.org/nlangp-001/lecture/87|Parameter Estimation in HMMs]]
    * [[http://www.cs.columbia.edu/~mcollins/hmms-spring2013.pdf|notas sobre tagging y HMMs (de Collins)]].

===== 2 de septiembre =====

  * Clase de Pablo Duboue sobre Generación de Lenguaje Natural.

===== 4 de septiembre =====

  * Etiquetado de secuencias: Decodificación con HMMs: El algoritmo de Viterbi.
    * capítulo 5 de Jurafsky & Martin
    * [[http://www.cs.berkeley.edu/~klein/cs288/fa14/slides/fa14lecture8-1pp.pdf|filminas (de Klein)]]
    * Videolectures del curso de Collins:
      * [[https://class.coursera.org/nlangp-001/lecture/89|The Viterbi Algorithm for HMMs (Part 1)]]
      * [[https://class.coursera.org/nlangp-001/lecture/91|The Viterbi Algorithm for HMMs (Part 2)]]
      * [[https://class.coursera.org/nlangp-001/lecture/93|The Viterbi Algorithm for HMMs (Part 3)]]
    * [[http://www.cs.columbia.edu/~mcollins/hmms-spring2013.pdf|notas sobre tagging y HMMs (de Collins)]].

===== 9 de septiembre =====

  * Extracción de expresiones multipalabra.
    * capítulo 5, [[http://nlp.stanford.edu/fsnlp/promo/colloc.pdf|Collocations]], de [[http://nlp.stanford.edu/fsnlp/|Manning & Schütze]]
    * [[http://lingo.stanford.edu/pubs/altss2004.pdf|filminas sobre expresiones multipalabra]] de [[http://people.eng.unimelb.edu.au/tbaldwin/|Timothy Baldwin]], no todas, sino: 1-20,38-44,101-176 y algunas otras
    * pasos para un extractor simple:
      * por frecuencia: obtener los bigramas, trigramas más frecuentes
      * filtros de PoS
      * medidas de asociación: información mútua, test de hipótesis, likelihood ratio
      * usaremos [[http://cs.famaf.unc.edu.ar/~laura/corpus/lavoztextodump.txt.tar.gz|un pedacito de La Voz del Interior]].
    * si quieren leer algo más resumidito, les recomiendo el apartado sobre Collocations de [[http://www.pling.org.uk/cs/nlp.html|los apuntes de clase de Chris Northwood]]. Conciso y al punto.

===== 11 de septiembre =====

  * Etiquetado de secuencias:
    * Repaso del algoritmo de Viterbi. Ejemplo.
    * Introducción a los Maximum Entropy Markov Models (MEMMs) (también llamados //log-linear models//).
      * Videolectures:
        * [[https://class.coursera.org/nlangp-001/lecture/223|Independence Assumptions in Log-linear Taggers]]
        * [[https://class.coursera.org/nlangp-001/lecture/225|Features in Log-Linear Taggers]]
      * [[http://www.cs.columbia.edu/~mcollins/fall2014-loglineartaggers.pdf|notas sobre MEMMs (de Collins)]].

===== 16 de septiembre =====

  * Desambiguación e inducción de sentidos.
    * [[http://www.cs.columbia.edu/~kathy/NLP/ClassSlides/Slides09/Class12-RelationsWSD/myrelations.pdf|filminas]] de [[http://www.cs.columbia.edu/~kathy/|Kathy McKeown]] sobre WSD
    * veremos los siguientes papers:
      * Dan Yarowsky. 1995. [[http://www.aclweb.org/anthology/P95-1026|Unsupervised Word Sense Disambiguation Rivaling Supervised Methods]]. ACL. 
      * Pantel, P. and Lin, D. 2002. [[http://www.patrickpantel.com/cgi-bin/Web/Tools/getfile.pl?type=paper&id=2002/kdd02.pdf|Discovering Word Senses from Text]]. KDD-02.
      * J. Véronis. 2004. [[http://www.up.univ-mrs.fr/veronis/pdf/2004-hyperlex-CSL.pdf|HyperLex: Lexical Cartography for Information Retrieval]]. Computer, Speech and Language, 18 (3).
    * y problemas y soluciones del [[http://alt.qcri.org/semeval2015/|Semeval 2015]]

===== 18 de septiembre =====

  * Clasificación para Reconocimiento de Entidades Nombradas (Named Entity Recognition): Codificación BIO y features. Árboles de decisión y SVMs.
    * {{:materias:pln:slides.pdf|}}

===== 23 de septiembre =====

Semana del estudiante.

  * Clase de consulta para el práctico 1.

===== 25 de septiembre =====

Semana del estudiante pero hay clase igual porque no tenemos otra cosa mejor para hacer:

  * Clasificación de Textos y el clasificador Naive Bayes.
    * https://class.coursera.org/nlp/lecture/36
    * https://class.coursera.org/nlp/lecture/37
    * https://class.coursera.org/nlp/lecture/25
    * https://class.coursera.org/nlp/lecture/26
    * https://class.coursera.org/nlp/lecture/27
    * https://class.coursera.org/nlp/lecture/28
  * Introducción a scikit-learn para clasificación de textos:
    * http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
    * [[http://nbviewer.ipython.org/url/cs.famaf.unc.edu.ar/~francolq/Clasificaci%C3%B3n%20de%20Texto%20con%20scikit-learn.ipynb#|Mi versión del mismo tutorial]]

===== 30 de septiembre =====

Feriado por el día de San Jerónimo.

===== 2 de octubre =====

  * Extracción de relaciones.
    * [[https://class.coursera.org/nlp/lecture/138|What is Relation Extraction? (9:47)]]
    * [[https://class.coursera.org/nlp/lecture/139|Using Patterns to Extract Relations (6:17)]]
    * [[https://class.coursera.org/nlp/lecture/140|Supervised Relation Extraction (10:51)]]
    * [[https://class.coursera.org/nlp/lecture/141|Semi-Supervised and Unsupervised Relation Extraction (9:53)]]

===== 7 de octubre =====

  * Introducción al Análisis Sintáctico.
    * Del curso de Collins:
      * [[https://class.coursera.org/nlangp-001/lecture/199|Introduction (0:28)]]
      * [[https://class.coursera.org/nlangp-001/lecture/95|Introduction to the Parsing Problem (Part 1) (10:37)]]
      * [[https://class.coursera.org/nlangp-001/lecture/97|Introduction to the Parsing Problem (Part 2) (4:20)]]
    * Del curso de Jurafsky y Manning:
      * [[https://class.coursera.org/nlp/lecture/161|Syntactic Structure: Constituency vs Dependency (8:46)]]
      * [[https://class.coursera.org/nlp/lecture/162|Empirical/Data-Driven Approach to Parsing (7:11)]]
      * [[https://class.coursera.org/nlp/lecture/163|The Exponential Problem in Parsing (14:30)]]
  * [[http://nbviewer.ipython.org/url/cs.famaf.unc.edu.ar/~francolq/Etiquetado%20de%20Secuencias%20con%20Feature%20Forge.ipynb|Etiquetado de Secuencias con Feature Forge]]


===== 9 de octubre =====

  * Gramáticas Libres de Contexto (CFGs). Elementos sintácticos principales del lenguaje natural.
    * [[https://class.coursera.org/nlangp-001/lecture/99|Context-Free Grammars (Part 1) (12:11)]]
    * [[https://class.coursera.org/nlangp-001/lecture/101|Context-Free Grammars (Part 2) (2:22)]]
    * [[https://class.coursera.org/nlangp-001/lecture/103|A Simple Grammar for English (Part 1) (10:32)]]
    * [[https://class.coursera.org/nlangp-001/lecture/105|A Simple Grammar for English (Part 2) (5:30)]]
    * [[https://class.coursera.org/nlangp-001/lecture/107|A Simple Grammar for English (Part 3) (11:21)]]
    * [[https://class.coursera.org/nlangp-001/lecture/109|A Simple Grammar for English (Part 4) (2:20)]]
    * [[https://class.coursera.org/nlangp-001/lecture/111|Examples of Ambiguity (5:56)]]
  * Gramáticas Libres de Contexto Probabilísticas (PCFGs).
    * [[https://class.coursera.org/nlangp-001/lecture/197|Introduction (1:12)]]
    * [[https://class.coursera.org/nlangp-001/lecture/113|Basics of PCFGs (Part 1) (9:43)]]
    * [[https://class.coursera.org/nlangp-001/lecture/115|Basics of PCFGs (Part 2) (8:26)]]


===== 14 de octubre =====

  * Forma Normal de Chomsky (CNF). Algoritmo CKY para PCFGs.
    * [[https://class.coursera.org/nlangp-001/lecture/117|The CKY Parsing Algorithm (Part 1) (7:31)]]
    * [[https://class.coursera.org/nlangp-001/lecture/119|The CKY Parsing Algorithm (Part 2) (13:22)]]
    * [[https://class.coursera.org/nlangp-001/lecture/121|The CKY Parsing Algorithm (Part 3) (10:07)]]


===== 16 de octubre =====

  * Ejemplos de Forma Normal de Chomsky y del algoritmo CKY. Evaluación de parsers: precision, recall y F1.
    * [[https://class.coursera.org/nlp/lecture/166|Grammar Transforms (12:05)]]
    * [[https://class.coursera.org/nlp/lecture/167|CKY Parsing (23:25)]]
    * [[https://class.coursera.org/nlp/lecture/168|CKY Example (21:52)]]
    * [[https://class.coursera.org/nlp/lecture/169|Constituency Parser Evaluation (9:45)]]

===== 21 de octubre =====

  * Debilidades de las PCFGs. PCFGs lexicalizadas.
    * [[https://class.coursera.org/nlangp-001/lecture/125|Weaknesses of PCFGs (14:59)]]
    * [[https://class.coursera.org/nlangp-001/lecture/127|Introduction (00:17)]]
    * [[https://class.coursera.org/nlangp-001/lecture/129|Lexicalization of a Treebank (10:44)]]
    * [[https://class.coursera.org/nlangp-001/lecture/131|Lexicalized PCFGs: Basic Definitions (12:40)]]
    * [[https://class.coursera.org/nlangp-001/lecture/133|Parameter Estimation in Lexicalized PCFGs (Part 1) (5:28)]]
    * [[https://class.coursera.org/nlangp-001/lecture/135|Parameter Estimation in Lexicalized PCFGs (Part 2) (9:08)]]
    * [[https://class.coursera.org/nlangp-001/lecture/137|Evaluation of Lexicalized PCFGs (Part 1) (9:32)]]
    * [[https://class.coursera.org/nlangp-001/lecture/139|Evaluation of Lexicalized PCFGs (Part 2) (11:28)]]


===== 23 de octubre =====

  * PCFGs no lexicalizadas. Splitting y merging de no terminales: Markovización horizontal y vertical, parent annotation, etc. PCFGs con estados latentes.
    * [[https://class.coursera.org/nlp/lecture/173|The Return of Unlexicalized PCFGs (20:53)]]
    * [[https://class.coursera.org/nlp/lecture/174|Latent Variable PCFGs (12:07)]]

===== 28 de octubre =====

  * Adquisición léxica (Laura)
    * palabras cuyo significado no se representa referencialmente, sino como una estructura (o como una función que busca argumentos, al estilo de la [[https://en.wikipedia.org/wiki/Categorial_grammar|Gramática Categorial]] (la [[http://groups.inf.ed.ac.uk/ccg/|CCG]] es una gramática categorial práctica)). 
    * recursos donde los verbos se representan como escenas o como estructuras con argumentos: [[https://framenet.icsi.berkeley.edu/fndrupal/|FrameNet]],  [[https://verbs.colorado.edu/~mpalmer/projects/verbnet.html|VerbNet]], [[http://verbs.colorado.edu/verb-index/index.php|Unified Verb Index]]
    * [[http://alt.qcri.org/semeval2016/|SemEval]]

===== 30 de octubre =====

===== 4 de noviembre =====

  * Análisis Sintáctico de dependencias. Parsing basado en transiciones.
    * [[https://class.coursera.org/nlp/lecture/175|Dependency Parsing Introduction (10:25)]]
    * [[https://class.coursera.org/nlp/lecture/177|Greedy Transition-Based Parsing (31:05)]]

===== 6 de noviembre =====

  * Búsqueda y Recuperación de Información.
    * [[https://class.coursera.org/nlp/lecture/178|Introduction to Information Retrieval (9:16)]]
    * [[https://class.coursera.org/nlp/lecture/179|Term-Document Incidence Matrices (8:59)]]
    * [[https://class.coursera.org/nlp/lecture/180|The Inverted Index (10:42)]]
    * [[https://class.coursera.org/nlp/lecture/181|Query Processing with the Inverted Index (6:43)]]
    * [[https://class.coursera.org/nlp/lecture/182|Phrase Queries and Positional Indexes (19:45)]]
    * [[https://class.coursera.org/nlp/lecture/183|Introducing Ranked Retrieval (4:27)]]
    * [[https://class.coursera.org/nlp/lecture/184|Scoring with the Jaccard Coefficient (5:06)]]

===== 11 de noviembre =====

  * Clustering para Procesamiento del Lenguaje Natural
    * [[http://web.stanford.edu/class/cs276/handouts/lecture12-clustering.ppt|filminas (versión resumida)]] del [[http://web.stanford.edu/class/cs276/|curso de Information Retrieval]] del grupo de PLN de Stanford
    * [[http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html|demo de k-means]]
    * [[http://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html|k-means en scikit-learn]]
    * revisitamos el paper de Pantel y Lin sobre clustering para descubrir sentidos: [[http://www.patrickpantel.com/download/papers/2002/kdd02.pdf|Discovering Word Senses from Text]], KDD 2002 

===== 13 de noviembre =====


===== 18 de noviembre =====

Clase de Paula Estrella sobre Traducción Automática.


===== 20 de noviembre =====