materias:pln:uba2018:practico3_draft
Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| materias:pln:uba2018:practico3_draft [2018/02/18 19:14] – francolq | materias:pln:uba2018:practico3_draft [2025/11/15 13:47] (actual) – editor externo 127.0.0.1 | ||
|---|---|---|---|
| Línea 1: | Línea 1: | ||
| ====== Trabajo Práctico 3 - Análisis de Sentimientos ====== | ====== Trabajo Práctico 3 - Análisis de Sentimientos ====== | ||
| - | [[materias: | + | [[materias: |
| - | En este trabajo práctico | + | En este trabajo práctico |
| * Repositorio: | * Repositorio: | ||
| - | * Fecha de entrega: | + | * Fecha de entrega: |
| Línea 26: | Línea 26: | ||
| - | ===== Ejercicio 1: Corpus de Sentimientos | + | ===== Ejercicio 1: Corpus de Tweets: Estadísticas Básicas |
| + | El corpus InterTASS se compone de un conjunto de tweets en español, cada uno anotado con su polaridad general. Los valores posibles para la polaridad son los siguientes: | ||
| + | * '' | ||
| + | * '' | ||
| + | * '' | ||
| + | * '' | ||
| - | ===== Ejercicio 2: ===== | + | Puede encontrar una descripción más detallada del significado de cada etiqueta en [[https:// |
| + | Programar un script '' | ||
| + | * Cantidad total de tweets. | ||
| + | * Cantidad de tweets por cada valor de polaridad ('' | ||
| + | |||
| + | Documentación: | ||
| + | |||
| + | * [[http:// | ||
| + | * [[https:// | ||
| + | * [[http:// | ||
| + | |||
| + | |||
| + | ===== Ejercicio 2: Mejoras al Clasificador Básico de Polaridad ===== | ||
| + | |||
| + | Implementar, | ||
| + | |||
| + | * Curvas de aprendizaje para los tres clasificadores (mnb, maxent y svm). Usar el script '' | ||
| + | * Resultado de la evaluación sobre el corpus de development de InterTASS. Usar el script '' | ||
| + | |||
| + | Para **una sola de las mejoras**, usando maxent, reportar además: | ||
| + | |||
| + | * Features más relevantes para cada sentimiento. Usar '' | ||
| + | * Tweet de ejemplo, con todos los features que intervienen y sus respectivos pesos para cada clase. Usar '' | ||
| + | |||
| + | |||
| + | ==== Mejor Tokenizer ==== | ||
| + | |||
| + | El tokenizer por defecto del '' | ||
| + | |||
| + | |||
| + | ==== Binarización de Conteos ==== | ||
| + | |||
| + | Modificar la configuración del '' | ||
| + | |||
| + | |||
| + | ==== Normalización Básica de Tweets ==== | ||
| + | |||
| + | Preprocesar los textos de los tweets de la siguiente manera: | ||
| + | |||
| + | * Eliminar menciones de usuarios. | ||
| + | * Eliminar URLs. | ||
| + | * Contraer repeticiones de 3 o más vocales. | ||
| + | |||
| + | |||
| + | ==== Filtrado de stopwords ==== | ||
| + | |||
| + | Modificar el '' | ||
| + | |||
| + | |||
| + | ==== Lematización o Stemming ==== | ||
| + | |||
| + | Modificar el tokenizador del '' | ||
| + | |||
| + | * http:// | ||
| + | * http:// | ||
| + | |||
| + | |||
| + | ==== Manejo de Negaciones ==== | ||
| + | |||
| + | Modificar el tokenizador del '' | ||
| + | Al encontrar una negación (' | ||
| + | |||
| + | Ejemplo: | ||
| + | |||
| + | este verano tampoco ha llegado a hacer calor, sobre todo si lo comparamos con el pasado | ||
| + | |||
| + | debe ser reemplazado por: | ||
| + | |||
| + | este verano tampoco NOT_ha NOT_llegado NOT_hacer NOT_calor , sobre todo si lo comparamos con el pasado | ||
| + | |||
| + | |||
| + | ===== Ejercicio 3: Evaluación Final ===== | ||
| + | |||
| + | * Seleccionar, | ||
| + | * Calcular y reportar los resultados de la evaluación con el corpus de test final de InterTASS. Usar el script '' | ||
| + | |||
| + | |||
| + | ===== Ejercicio 4 (punto bonus): Exploración de Parámetros ("Grid Search" | ||
| + | |||
| + | Para los tres tipos de clasificadores, | ||
| + | |||
| + | * [[http:// | ||
| + | * [[http:// | ||
| + | * ... | ||
| + | |||
| + | * [[http:// | ||
| + | |||
| + | |||
| + | ===== Ejercicio 5 (punto bonus): Lexicón de Sentimientos ===== | ||
| + | |||
| + | * Obtener o elaborar un lexicón de palabras con polaridad positiva y negativa del castellano. | ||
| + | * Programar dos features que calculen la cantidad de ocurrencias de palabras positivas y negativas en cada tweet. | ||
| + | * Agregar estos nuevos features al pipeline (se puede usar FeatureUnion). | ||
| + | * Entrenar, evaluar y analizar los resultados. | ||
| + | |||
| + | |||
| + | Documentación: | ||
| + | |||
| + | * Posibles fuentes de lexicones: | ||
| + | * [[http:// | ||
| + | * [[http:// | ||
| + | * [[http:// | ||
| + | |||
| + | |||
| + | /* | ||
| + | ===== Ejercicio 5 (punto bonus): Ensamble de Clasificadores ===== | ||
| + | */ | ||
materias/pln/uba2018/practico3_draft.1518992047.txt.gz · Última modificación: (editor externo)
