materias:pln:2019:practico2
Diferencias
Muestra las diferencias entre dos versiones de la página.
Próxima revisión | Revisión previa | ||
materias:pln:2019:practico2 [2019/04/01 19:00] – created francolq | materias:pln:2019:practico2 [2019/04/29 21:36] (actual) – francolq | ||
---|---|---|---|
Línea 6: | Línea 6: | ||
* Repositorio: | * Repositorio: | ||
- | * Fecha de entrega: 25/04 a las 23:59. | + | * Fecha de entrega: |
Línea 51: | Línea 51: | ||
* [[http:// | * [[http:// | ||
* [[http:// | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
* [[https:// | * [[https:// | ||
* [[https:// | * [[https:// | ||
Línea 61: | Línea 66: | ||
Implementar, | Implementar, | ||
- | * Curvas de aprendizaje para los tres clasificadores (mnb, maxent y svm). Usar el script '' | ||
* Resultado de la evaluación sobre el corpus de development de InterTASS. Usar el script '' | * Resultado de la evaluación sobre el corpus de development de InterTASS. Usar el script '' | ||
- | |||
- | Para **una sola de las mejoras**, usando maxent, reportar además: | ||
- | |||
- | * Features más relevantes para cada sentimiento. Usar '' | ||
- | * Tweet de ejemplo, con todos los features que intervienen y sus respectivos pesos para cada clase. Usar '' | ||
Línea 96: | Línea 95: | ||
==== Lematización o Stemming ==== | ==== Lematización o Stemming ==== | ||
- | Modificar el tokenizador del '' | + | Modificar el tokenizador del '' |
+ | Recursos: | ||
* http:// | * http:// | ||
- | * http:// | + | * Stemmers: |
+ | * [[http:// | ||
+ | * Lematizadores: | ||
+ | * [[https:// | ||
+ | * [[http:// | ||
Línea 116: | Línea 120: | ||
- | ===== Ejercicio 3: Evaluación Final ===== | + | ===== Ejercicio 3: Exploración de Parámetros ("Grid Search" |
+ | |||
+ | Para los tres tipos de clasificadores, | ||
+ | |||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | |||
+ | Documentación: | ||
+ | |||
+ | * **[[https:// | ||
+ | * [[http:// | ||
+ | |||
+ | |||
+ | ===== Ejercicio 4: Inspección de Modelos ===== | ||
+ | |||
+ | Para la regresión logística, haga una inspección de los parámetros internos: | ||
+ | |||
+ | - Imprima para cada clase los 10 features con más peso positivo y los 10 con más peso negativo. | ||
+ | - Haga un breve análisis sobre los features impresos: | ||
+ | - ¿Tienen sentido en general? | ||
+ | - ¿Hay features incorrectos, | ||
+ | - ¿De qué manera se podrían corregir? (no hace falta implementar) | ||
+ | |||
+ | Documentación: | ||
+ | |||
+ | * **[[https:// | ||
+ | |||
+ | |||
+ | ===== Ejercicio 5: Análisis de Error ===== | ||
+ | |||
+ | Para la regresión logística, haga un análisis de errores sobre el conjunto de development: | ||
+ | |||
+ | * Arme una tabla con todas las instancias mal clasificadas. | ||
+ | * Ordénelas utilizando algún criterio de relevancia. Ejemplos: | ||
+ | * Largo del tweet. | ||
+ | * Probabilidad asignada a la clase errónea. | ||
+ | * Diferencia entre la probabilidad de la clase errónea y la correcta. | ||
+ | |||
+ | Seleccione una instancia mal clasificada: | ||
+ | |||
+ | * Imprima los features que intervienen en su clasificación, | ||
+ | * Pruebe variaciones del texto del tweet, viendo de qué manera afecta las probabilidades. | ||
+ | * Proponga alguna modificación en el preprocesamiento que pueda mejorar la clasificación de la instancia. | ||
+ | |||
+ | |||
+ | Documentación: | ||
+ | |||
+ | * **[[https:// | ||
+ | |||
+ | |||
+ | ===== Ejercicio 6: Evaluación Final ===== | ||
* Seleccionar, | * Seleccionar, | ||
Línea 122: | Línea 176: | ||
- | ===== Ejercicio | + | ===== Ejercicio |
+ | |||
+ | * Obtener word embeddings pre-entrenados para el idioma castellano. | ||
+ | * Programar un transformador de scikit-learn que, dado un tokenizador, | ||
+ | * Incorporar estos features al pipeline de clasificación de polaridad. | ||
+ | * Entrenar, evaluar y analizar los resultados. | ||
+ | |||
+ | Recursos: | ||
+ | * [[https:// | ||
+ | * Embeddings: | ||
+ | * [[https:// | ||
+ | * [[https:// | ||
+ | |||
+ | |||
+ | /* | ||
+ | ===== Ejercicio 8 (punto bonus): Bolsa de Caracteres ===== | ||
+ | */ | ||
+ | |||
+ | |||
+ | ===== Ejercicio 8 (punto bonus): Lexicón de Sentimientos | ||
* Obtener o elaborar un lexicón de palabras con polaridad positiva y negativa del castellano. | * Obtener o elaborar un lexicón de palabras con polaridad positiva y negativa del castellano. | ||
- | * Programar | + | * Programar features que incorporen el uso de estas palabras en los tweets. Algunas opciones: |
+ | * Dos features, con conteos de cantidad | ||
+ | * Escalar los valores (usar StandardScaler). | ||
+ | * Si el lexicón tiene valores de intensidad, usarlos de alguna manera. | ||
* Agregar estos nuevos features al pipeline (se puede usar FeatureUnion). | * Agregar estos nuevos features al pipeline (se puede usar FeatureUnion). | ||
* Entrenar, evaluar y analizar los resultados. | * Entrenar, evaluar y analizar los resultados. | ||
Línea 132: | Línea 208: | ||
Documentación: | Documentación: | ||
+ | * **[[https:// | ||
* Posibles fuentes de lexicones: | * Posibles fuentes de lexicones: | ||
* [[http:// | * [[http:// | ||
Línea 137: | Línea 214: | ||
* [[https:// | * [[https:// | ||
* [[http:// | * [[http:// | ||
- | | + | * **[[http://kt.ijs.si/data/Emoji_sentiment_ranking/index.html|Emoji Sentiment Ranking v1.0]]** |
- | + | * Scikit-learn: | |
- | + | * [[http:// | |
- | /* | + | * [[https:// |
- | ===== Ejercicio 4 (punto bonus): Exploración de Parámetros ("Grid Search" | + | |
- | + | ||
- | Para los tres tipos de clasificadores, | + | |
- | + | ||
- | | + | |
- | * [[http:// | + | |
- | * | + | |
- | + | ||
- | * [[http:// | + | |
- | */ | + | |
/* | /* |
materias/pln/2019/practico2.1554145255.txt.gz · Última modificación: 2019/04/01 19:00 por francolq