Diferencias

Muestra las diferencias entre dos versiones de la página.

--- materias:pln:uba2018:practico3_draft [2018/02/18 22:13] – creado francolq
+++ materias:pln:uba2018:practico3_draft [2018/08/10 03:03] (actual) – editor externo 127.0.0.1
@@ Línea 1: / Línea 1: @@
 ====== Trabajo Práctico 3 - Análisis de Sentimientos ======
-[[materias:pln|(volver a la página principal)]]
+[[materias:pln:uba2018|(volver a la página principal)]]
-En este trabajo práctico ...
+En este trabajo práctico implementaremos modelos de análisis de sentimientos y haremos algunos experimentos con ellos.
   * Repositorio: https://github.com/PLN-FaMAF/PLN-UBA2018.
-  * Fecha de entrega: 22/02 a las 23:59.
+  * Fecha de entrega: 6/03 a las 23:59.
@@ Línea 26: / Línea 26: @@
-===== Ejercicio 1: Corpus AnCora: Estadísticas de etiquetas POS =====
+===== Ejercicio 1: Corpus de Tweets: Estadísticas Básicas =====
-Programar un script ''stats.py'' que muestre la siguiente información del corpus:
+El corpus InterTASS se compone de un conjunto de tweets en español, cada uno anotado con su polaridad general. Los valores posibles para la polaridad son los siguientes:
-  * Estadísticas básicas:
+  * ''P'': Polaridad positiva.
-    * Cantidad de oraciones.
+  * ''N'': Polaridad negativa.
-    * Cantidad de ocurrencias de palabras.
+  * ''NEU'': Polaridad neutra.
-    * Cantidad de palabras (vocabulario).
+  * ''NONE'': Sin polaridad.
-    * Cantidad de etiquetas (vocabulario de tags).
-  * Etiquetas más frecuentes: Una tabla con las 10 etiquetas más frecuentes y la siguiente información para cada una:
-    * Cantidad de veces que aparece (frecuencia), y porcentaje del total.
-    * Cinco palabras más frecuentes con esa etiqueta.
-    * **En el README, agregar a mano una breve descripción del significado de la etiqueta.**
-  * Niveles de ambigüedad de las palabras: Una figura similar a la Figura 5.10 de Jurafsky & Martin (2008). Para cada nivel de ambigüedad (de 1 a 9) mostrar:
-    * Cantidad de palabras y porcentaje del total.
-    * Cinco palabras más frecuentes.
-  * Incluir todas las estadísticas en el README.
-Uso del script:
+Puede encontrar una descripción más detallada del significado de cada etiqueta en [[https://cs.famaf.unc.edu.ar/~francolq/criterios_polaridad.pdf|este documento]].
-  $ python tagging/scripts/stats.py
+Programar un script ''stats.py'' que muestre las siguientes estadísticas básicas de la sección de entrenamiento del corpus InterTASS, y **por separado** para la sección de entrenamiento del corpus GeneralTASS:
+  * Cantidad total de tweets.
+  * Cantidad de tweets por cada valor de polaridad (''P'', ''N'', ''NEG'' y ''NONE'').
 Documentación:
-  * [[http://clic.ub.edu/corpus/|Corpus AnCora]]
+  * [[http://www.sepln.org/workshops/tass/2017/|TASS Workshop 2017]]
-  * [[https://web.archive.org/web/20160325024315/http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html|Etiquetas EAGLES]]
+  * [[https://cs.famaf.unc.edu.ar/~francolq/criterios_polaridad.pdf|Etiquetado de polaridad]]
-  * [[https://nlp.stanford.edu/software/spanish-faq.shtml#tagset|Stanford CoreNLP simplified tagset]]
+  * [[http://nbviewer.ipython.org/url/cs.famaf.unc.edu.ar/~francolq/An%C3%A1lisis%20de%20Sentimiento.ipynb|Jupyter notebook: Análisis de Sentimiento]]
-===== Ejercicio 2: Baseline Tagger =====
+===== Ejercicio 2: Mejoras al Clasificador Básico de Polaridad =====
-  * Programar un etiquetador baseline, que elija para cada palabra su etiqueta más frecuente observada en entrenamiento.
+Implementar, en el clasificador de sentimientos, **cuatro** de las seis posibles mejoras descriptas en las siguientes subsecciones. Para cada mejora, reportar:
-  * Para las palabras desconocidas, devolver la etiqueta 'nc0s000' (nombre común singular).
-  * Entrenar y evaluar el modelo baseline del ejercicio anterior. Reportar los resultados en el README.
-  * **Bonus**: Graficar la matriz de confusión como un mapa de calor (ver documentación abajo).
-Interfaz de ''BaselineTagger'' en  ''baseline.py'':
+  * Curvas de aprendizaje para los tres clasificadores (mnb, maxent y svm). Usar el script ''curve.py''.
+  * Resultado de la evaluación sobre el corpus de development de InterTASS. Usar el script ''eval.py''.
-<code python>
+Para **una sola de las mejoras**, usando maxent, reportar además:
-class BaselineTagger:
-    def __init__(self, n, tagged_sents):
+  * Features más relevantes para cada sentimiento. Usar ''print_maxent_features'' del módulo ''sentiment.analysis''.
-        """
+  * Tweet de ejemplo, con todos los features que intervienen y sus respectivos pesos para cada clase. Usar ''pprint_feature_weights_for_item''  del módulo ''sentiment.analysis''.
-        tagged_sents -- training sentences, each one being a list of pairs.
-        """
-    def tag(self, sent):
-        """Tag a sentence.
-        sent -- the sentence.
+==== Mejor Tokenizer ====
-        """
-    def tag_word(self, w):
+El tokenizer por defecto del ''CountVectorizer'' filtra toda la puntuación y los emojis. Sin embargo los emojis y algunas puntuaciones son indicadoras de sentimiento (e.g. "!" y "?"). Cambiar el tokenizer por uno que no elimine emojis y puntuación. Una opción posible es el tokenizador de NLTK.
-        """Tag a word.
-        w -- the word.
-        """
-    def unknown(self, w):
+==== Binarización de Conteos ====
-        """Check if a word is unknown for the model.
-        w -- the word.
+Modificar la configuración del ''CountVectorizer'' para que ignore las repeticiones de palabras.
-        """
-</code>
-Tests:
-  $ nosetests tagging/tests/test_baseline.py
+==== Normalización Básica de Tweets ====
-Ejemplo de uso de los scripts:
+Preprocesar los textos de los tweets de la siguiente manera:
-  $ python tagging/scripts/train.py -o baseline
+  * Eliminar menciones de usuarios.
-  $ python tagging/scripts/eval.py -i baseline
+  * Eliminar URLs.
+  * Contraer repeticiones de 3 o más vocales.
-Documentación:
-  * http://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html
+==== Filtrado de stopwords ====
+Modificar el ''CountVectorizer'' para que ignore stopwords del castellano (palabras sin carga semántica como artículos, preposiciones, etc.). Una posible fuente de stopwords es NLTK.
-===== Ejercicio 3: Features para Etiquetado de Secuencias =====
-  * Implementar en ''features.py'' los siguientes features básicos:
+==== Lematización o Stemming ====
-    * ''word_lower'': la palabra actual en minúsculas.
-    * ''word_istitle'': la palabra actual empieza en mayúsculas.
-    * ''word_isupper'': la palabra actual está en mayúsculas.
-    * ''word_isdigit'': la palabra actual es un número.
-  * También implementar los siguientes features paramétricos:
-    * ''NPrevTags(n)'': la tupla de los últimos ''n'' tags.
-    * ''PrevWord(f)'': Dado un feature ''f'', aplicarlo sobre la palabra anterior en lugar de la actual.
-Interfaz de los features paramétricos en ''features.py'':
+Modificar el tokenizador del ''CountVectorizer'' para que además haga stemming o lematización de las palabras. Una posibilidad es usar el Snowball stemmer que viene con NLTK.
-<code python>
+  * http://scikit-learn.org/stable/modules/feature_extraction.html#customizing-the-vectorizer-classes
-class NPrevTags(Feature):
+  * http://www.nltk.org/api/nltk.stem.html#module-nltk.stem.snowball
-    def __init__(self, n):
-        """Feature: n previous tags tuple.
-        n -- number of previous tags to consider.
+==== Manejo de Negaciones ====
-        """
-    def _evaluate(self, h):
+Modificar el tokenizador del ''CountVectorizer'' para que además maneje negaciones.
-        """n previous tags tuple.
+Al encontrar una negación ('no', 'tampoco', etc.), deben modificarse todas las palabras hasta el siguiente signo de puntuación, agregándoles el prefijo ''NOT_''.
-        h -- a history.
+Ejemplo:
-        """
+  este verano tampoco ha llegado a hacer calor, sobre todo si lo comparamos con el pasado
-class PrevWord(Feature):
+debe ser reemplazado por:
-    def __init__(self, f):
+  este verano tampoco NOT_ha NOT_llegado NOT_hacer NOT_calor , sobre todo si lo comparamos con el pasado
-        """Feature: the feature f applied to the previous word.
-        f -- the feature.
-        """
-    def _evaluate(self, h):
+===== Ejercicio 3: Evaluación Final =====
-        """Apply the feature to the previous word in the history.
-        h -- the history.
+  * Seleccionar, del ejercicio anterior, el clasificador que haya dado mejores resultados.
-        """
+  * Calcular y reportar los resultados de la evaluación con el corpus de test final de InterTASS. Usar el script ''eval.py'' con la opción ''-f''.
-</code>
-Tests:
-  $ nosetests tagging/tests/test_features.py
+===== Ejercicio 4 (punto bonus): Exploración de Parámetros ("Grid Search") =====
-Documentación:
+Para los tres tipos de clasificadores, pruebe diferentes combinaciones de parámetros y evalúe sobre el corpus de development. Reporte mejor resultado y configuración para cada clasificador.
-  * [[http://nbviewer.ipython.org/url/cs.famaf.unc.edu.ar/~francolq/Etiquetado%20de%20Secuencias%20con%20Feature%20Forge.ipynb|Etiquetado de Secuencias con Feature Forge]]
+  * [[http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html|maxent:]] Probar distintos valores para ''penalty'' y ''C''.
+  * [[http://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html|svm:]]  Probar distintos valores para ''penalty'' y ''C''.
+  * ...
+  * [[http://scikit-learn.org/stable/modules/grid_search.html|Tuning the hyper-parameters of an estimator (scikit-learn)]]
-===== Ejercicio 4: Maximum Entropy Markov Models =====
-  * Implementar un MEMM con el siguiente //pipeline// de scikit-learn:
+===== Ejercicio 5 (punto bonus): Lexicón de Sentimientos =====
-    * Vectorizador (''featureforge.vectorizer.Vectorizer'') con los features definidos en el ejercicio anterior.
-    * Clasificador de máxima entropía (''sklearn.linear_model.LogisticRegression'').
-  * Implementar un algoritmo de tagging en el método ''tag'' usando //beam inference// con un //beam// de tamaño 1.
-  * Agregar al script de entrenamiento (train.py) una opción de línea de comandos que permita utilizar el MEMM con distintos valores de ''n''.
-  * Entrenar y evaluar para varios valores de ''n'' (1, 2, 3 y 4).
-  * Probar también los siguientes clasificadores:
-    * ''sklearn.naive_bayes.MultinomialNB''
-    * ''sklearn.svm.LinearSVC''
-  * Reportar los resultados en el README. Reportar también tiempo de evaluación.
-  * **Bonus**: Inventar y agregar features que mejoren la calidad del tagger.
-Interfaz de ''MEMM'' en ''memm.py'':
+  * Obtener o elaborar un lexicón de palabras con polaridad positiva y negativa del castellano.
+  * Programar dos features que calculen la cantidad de ocurrencias de palabras positivas y negativas en cada tweet.
+  * Agregar estos nuevos features al pipeline (se puede usar FeatureUnion).
+  * Entrenar, evaluar y analizar los resultados.
-<code python>
-class MEMM:
-    def __init__(self, n, tagged_sents):
-        """
-        n -- order of the model.
-        tagged_sents -- list of sentences, each one being a list of pairs.
-        """
-    def sents_histories(self, tagged_sents):
-        """
-        Iterator over the histories of a corpus.
-        tagged_sents -- the corpus (a list of sentences)
-        """
-    def sent_histories(self, tagged_sent):
-        """
-        Iterator over the histories of a tagged sentence.
-        tagged_sent -- the tagged sentence (a list of pairs (word, tag)).
-        """
-    def sents_tags(self, tagged_sents):
-        """
-        Iterator over the tags of a corpus.
-        tagged_sents -- the corpus (a list of sentences)
-        """
-    def sent_tags(self, tagged_sent):
-        """
-        Iterator over the tags of a tagged sentence.
-        tagged_sent -- the tagged sentence (a list of pairs (word, tag)).
-        """
-    def tag(self, sent):
-        """Tag a sentence.
-        sent -- the sentence.
-        """
-    def tag_history(self, h):
-        """Tag a history.
-        h -- the history.
-        """
-    def unknown(self, w):
-        """Check if a word is unknown for the model.
-        w -- the word.
-        """
-</code>
-Tests:
-  $ nosetests tagging/tests/test_memm.py
 Documentación:
-  * Introducción a scikit-learn para clasificación de textos:
+  * Posibles fuentes de lexicones:
-    * http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
+    * [[http://habla.dc.uba.ar/gravano/sdal.php?lang=esp|Spanish DAL: Diccionario de Afectos en Español (Agustín Gravano et al.)]]
-    * [[http://nbviewer.ipython.org/url/cs.famaf.unc.edu.ar/~francolq/Clasificaci%C3%B3n%20de%20Texto%20con%20scikit-learn.ipynb#|Mi versión del mismo tutorial]]
+    * [[http://web.eecs.umich.edu/~mihalcea/downloads.html#SPANISH_SENT_LEXICONS|Sentiment Lexicons in Spanish (Veronica Perez Rosas et al.)]]
-  * Beam inference:
+  * [[http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.FeatureUnion.html|FeatureUnion (scikit-learn)]]
-    * [[https://class.coursera.org/nlp/lecture/133|video lecture]] (ir al minuto 07:10)
-    * [[https://d396qusza40orc.cloudfront.net/nlp/slides/04-02-Maximum_Entropy_Sequence_Models-v2.pdf|slides]]
-===== Ejercicio 5 (punto bonus): Algoritmo de Viterbi para MEMMs (con Beam)  =====
-Implementar el algoritmo de Viterbi para obtener la secuencia de tags de máxima probabilidad de acuerdo a un MEMM:
-  * Para obtener las probabilidades de los tags, usar el método ''predict_proba'' si el clasificador lo tiene (e.g. ''LogisticRegression'' y ''MultinomialNB''). Si no, usar la exponenciación (base 2) del método ''decision_function'' (e.g. ''LinearSVC'').
-  * Beam: En cada paso del Viterbi, guardar sólo los ''k'' taggings más probables, a donde ''k'' es un parámetro de la clase.
-  * Evaluar para varios clasificadores (''LogisticRegression'' y ''LinearSVC''), para varios valores de ''n'' (1, 2, 3 y 4), y para varios valores de ''k'' (1, 2 y 3). Reportar los resultados en el README. Reportar también tiempo de evaluación.
+/*
+===== Ejercicio 5 (punto bonus): Ensamble de Clasificadores =====
+*/