Diferencias

Muestra las diferencias entre dos versiones de la página.

--- materias:pln:uba2018:practico3_draft [2018/02/26 19:49] – francolq
+++ materias:pln:uba2018:practico3_draft [2018/08/10 03:03] (actual) – editor externo 127.0.0.1
@@ Línea 28: / Línea 28: @@
 ===== Ejercicio 1: Corpus de Tweets: Estadísticas Básicas =====
-El corpus ''InterTASS'' se compone de un conjunto de tweets en español, cada uno anotado con su polaridad general. Los valores posibles para la polaridad son los siguientes:
+El corpus InterTASS se compone de un conjunto de tweets en español, cada uno anotado con su polaridad general. Los valores posibles para la polaridad son los siguientes:
   * ''P'': Polaridad positiva.
@@ Línea 37: / Línea 37: @@
 Puede encontrar una descripción más detallada del significado de cada etiqueta en [[https://cs.famaf.unc.edu.ar/~francolq/criterios_polaridad.pdf|este documento]].
-Programar un script ''stats.py'' que muestre las siguientes estadísticas básicas de la sección de entrenamiento del corpus ''InterTASS'':
+Programar un script ''stats.py'' que muestre las siguientes estadísticas básicas de la sección de entrenamiento del corpus InterTASS, y **por separado** para la sección de entrenamiento del corpus GeneralTASS:
   * Cantidad total de tweets.
@@ Línea 51: / Línea 51: @@
 ===== Ejercicio 2: Mejoras al Clasificador Básico de Polaridad =====
-Implementar **cuatro** de las siguientes seis posibles mejoras al clasificador de sentimientos.
+Implementar, en el clasificador de sentimientos, **cuatro** de las seis posibles mejoras descriptas en las siguientes subsecciones. Para cada mejora, reportar:
+  * Curvas de aprendizaje para los tres clasificadores (mnb, maxent y svm). Usar el script ''curve.py''.
+  * Resultado de la evaluación sobre el corpus de development de InterTASS. Usar el script ''eval.py''.
+Para **una sola de las mejoras**, usando maxent, reportar además:
+  * Features más relevantes para cada sentimiento. Usar ''print_maxent_features'' del módulo ''sentiment.analysis''.
+  * Tweet de ejemplo, con todos los features que intervienen y sus respectivos pesos para cada clase. Usar ''pprint_feature_weights_for_item''  del módulo ''sentiment.analysis''.
 ==== Mejor Tokenizer ====
-El tokenizer por defecto del ''CountVectorizer'' filtra toda la puntuación. Sin embargo algunas puntuaciones son indicadoras de sentimiento (e.g. "!" y "?"). Cambiar el tokenizer por uno que no elimine puntuación. Una opción posible es el tokenizador de NLTK.
+El tokenizer por defecto del ''CountVectorizer'' filtra toda la puntuación y los emojis. Sin embargo los emojis y algunas puntuaciones son indicadoras de sentimiento (e.g. "!" y "?"). Cambiar el tokenizer por uno que no elimine emojis y puntuación. Una opción posible es el tokenizador de NLTK.
@@ Línea 100: / Línea 108: @@
-===== Ejercicio 3 (punto bonus): Lexicón de Sentimientos =====
+===== Ejercicio 3: Evaluación Final =====
-Incorporarlo como feature al clasifiador anterior.
+  * Seleccionar, del ejercicio anterior, el clasificador que haya dado mejores resultados.
+  * Calcular y reportar los resultados de la evaluación con el corpus de test final de InterTASS. Usar el script ''eval.py'' con la opción ''-f''.
-===== Ejercicio 4 (punto bonus): Validación Cruzada / Grid-search =====
+===== Ejercicio 4 (punto bonus): Exploración de Parámetros ("Grid Search") =====
+Para los tres tipos de clasificadores, pruebe diferentes combinaciones de parámetros y evalúe sobre el corpus de development. Reporte mejor resultado y configuración para cada clasificador.
-===== Ejercicio 5 (punto bonus): Ensamble de Clasificadores =====
+  * [[http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html|maxent:]] Probar distintos valores para ''penalty'' y ''C''.
+  * [[http://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html|svm:]]  Probar distintos valores para ''penalty'' y ''C''.
+  * ...
+  * [[http://scikit-learn.org/stable/modules/grid_search.html|Tuning the hyper-parameters of an estimator (scikit-learn)]]
+===== Ejercicio 5 (punto bonus): Lexicón de Sentimientos =====
+  * Obtener o elaborar un lexicón de palabras con polaridad positiva y negativa del castellano.
+  * Programar dos features que calculen la cantidad de ocurrencias de palabras positivas y negativas en cada tweet.
+  * Agregar estos nuevos features al pipeline (se puede usar FeatureUnion).
+  * Entrenar, evaluar y analizar los resultados.
+Documentación:
+  * Posibles fuentes de lexicones:
+    * [[http://habla.dc.uba.ar/gravano/sdal.php?lang=esp|Spanish DAL: Diccionario de Afectos en Español (Agustín Gravano et al.)]]
+    * [[http://web.eecs.umich.edu/~mihalcea/downloads.html#SPANISH_SENT_LEXICONS|Sentiment Lexicons in Spanish (Veronica Perez Rosas et al.)]]
+  * [[http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.FeatureUnion.html|FeatureUnion (scikit-learn)]]
+/*
+===== Ejercicio 5 (punto bonus): Ensamble de Clasificadores =====
+*/