materias:pln:uba2018:practico3_draft
Diferencias
Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
materias:pln:uba2018:practico3_draft [2018/02/26 19:49] – francolq | materias:pln:uba2018:practico3_draft [2018/08/10 03:03] (actual) – editor externo 127.0.0.1 | ||
---|---|---|---|
Línea 28: | Línea 28: | ||
===== Ejercicio 1: Corpus de Tweets: Estadísticas Básicas ===== | ===== Ejercicio 1: Corpus de Tweets: Estadísticas Básicas ===== | ||
- | El corpus | + | El corpus InterTASS se compone de un conjunto de tweets en español, cada uno anotado con su polaridad general. Los valores posibles para la polaridad son los siguientes: |
* '' | * '' | ||
Línea 37: | Línea 37: | ||
Puede encontrar una descripción más detallada del significado de cada etiqueta en [[https:// | Puede encontrar una descripción más detallada del significado de cada etiqueta en [[https:// | ||
- | Programar un script '' | + | Programar un script '' |
* Cantidad total de tweets. | * Cantidad total de tweets. | ||
Línea 51: | Línea 51: | ||
===== Ejercicio 2: Mejoras al Clasificador Básico de Polaridad ===== | ===== Ejercicio 2: Mejoras al Clasificador Básico de Polaridad ===== | ||
- | Implementar **cuatro** de las siguientes | + | Implementar, en el clasificador de sentimientos, |
+ | |||
+ | * Curvas | ||
+ | * Resultado de la evaluación sobre el corpus de development de InterTASS. Usar el script '' | ||
+ | |||
+ | Para **una sola de las mejoras**, usando maxent, reportar además: | ||
+ | |||
+ | * Features más relevantes para cada sentimiento. Usar '' | ||
+ | * Tweet de ejemplo, con todos los features que intervienen y sus respectivos pesos para cada clase. Usar '' | ||
==== Mejor Tokenizer ==== | ==== Mejor Tokenizer ==== | ||
- | El tokenizer por defecto del '' | + | El tokenizer por defecto del '' |
Línea 100: | Línea 108: | ||
- | ===== Ejercicio 3 (punto bonus): Lexicón de Sentimientos | + | ===== Ejercicio 3: Evaluación Final ===== |
- | Incorporarlo como feature al clasifiador | + | * Seleccionar, |
+ | * Calcular y reportar los resultados de la evaluación con el corpus de test final de InterTASS. Usar el script '' | ||
- | ===== Ejercicio 4 (punto bonus): | + | ===== Ejercicio 4 (punto bonus): |
+ | Para los tres tipos de clasificadores, | ||
- | ===== Ejercicio 5 (punto bonus): Ensamble de Clasificadores ===== | + | * [[http:// |
+ | * [[http:// | ||
+ | * ... | ||
+ | * [[http:// | ||
+ | |||
+ | |||
+ | ===== Ejercicio 5 (punto bonus): Lexicón de Sentimientos ===== | ||
+ | |||
+ | * Obtener o elaborar un lexicón de palabras con polaridad positiva y negativa del castellano. | ||
+ | * Programar dos features que calculen la cantidad de ocurrencias de palabras positivas y negativas en cada tweet. | ||
+ | * Agregar estos nuevos features al pipeline (se puede usar FeatureUnion). | ||
+ | * Entrenar, evaluar y analizar los resultados. | ||
+ | |||
+ | |||
+ | Documentación: | ||
+ | |||
+ | * Posibles fuentes de lexicones: | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | |||
+ | |||
+ | /* | ||
+ | ===== Ejercicio 5 (punto bonus): Ensamble de Clasificadores ===== | ||
+ | */ |
materias/pln/uba2018/practico3_draft.1519674561.txt.gz · Última modificación: 2018/08/10 03:03 (editor externo)