materias:pln:2019:practico2
Diferencias
Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
materias:pln:2019:practico2 [2019/04/11 21:28] – [Ejercicio 7 (punto bonus): Lexicón de Sentimientos (y Emojis)] francolq | materias:pln:2019:practico2 [2019/04/29 21:36] (actual) – francolq | ||
---|---|---|---|
Línea 6: | Línea 6: | ||
* Repositorio: | * Repositorio: | ||
- | * Fecha de entrega: 25/04 a las 23:59. | + | * Fecha de entrega: |
Línea 51: | Línea 51: | ||
* [[http:// | * [[http:// | ||
* [[http:// | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
* [[https:// | * [[https:// | ||
* [[https:// | * [[https:// | ||
Línea 90: | Línea 95: | ||
==== Lematización o Stemming ==== | ==== Lematización o Stemming ==== | ||
- | Modificar el tokenizador del '' | + | Modificar el tokenizador del '' |
+ | Recursos: | ||
* http:// | * http:// | ||
- | * http:// | + | * Stemmers: |
+ | * [[http:// | ||
+ | * Lematizadores: | ||
+ | * [[https:// | ||
+ | * [[http:// | ||
Línea 114: | Línea 124: | ||
Para los tres tipos de clasificadores, | Para los tres tipos de clasificadores, | ||
- | * [[http:// | + | * [[http:// |
- | * [[http:// | + | * [[http:// |
Documentación: | Documentación: | ||
Línea 158: | Línea 168: | ||
* **[[https:// | * **[[https:// | ||
+ | |||
+ | |||
===== Ejercicio 6: Evaluación Final ===== | ===== Ejercicio 6: Evaluación Final ===== | ||
Línea 164: | Línea 176: | ||
- | /* | ||
===== Ejercicio 7 (punto bonus): Word Embeddings ===== | ===== Ejercicio 7 (punto bonus): Word Embeddings ===== | ||
- | */ | ||
+ | * Obtener word embeddings pre-entrenados para el idioma castellano. | ||
+ | * Programar un transformador de scikit-learn que, dado un tokenizador, | ||
+ | * Incorporar estos features al pipeline de clasificación de polaridad. | ||
+ | * Entrenar, evaluar y analizar los resultados. | ||
+ | |||
+ | Recursos: | ||
+ | * [[https:// | ||
+ | * Embeddings: | ||
+ | * [[https:// | ||
+ | * [[https:// | ||
+ | |||
+ | |||
+ | /* | ||
+ | ===== Ejercicio 8 (punto bonus): Bolsa de Caracteres ===== | ||
+ | */ | ||
- | ===== Ejercicio | + | ===== Ejercicio |
* Obtener o elaborar un lexicón de palabras con polaridad positiva y negativa del castellano. | * Obtener o elaborar un lexicón de palabras con polaridad positiva y negativa del castellano. | ||
* Programar features que incorporen el uso de estas palabras en los tweets. Algunas opciones: | * Programar features que incorporen el uso de estas palabras en los tweets. Algunas opciones: | ||
* Dos features, con conteos de cantidad de palabras positivas y negativas utilizadas. | * Dos features, con conteos de cantidad de palabras positivas y negativas utilizadas. | ||
- | * Escalar los valores | + | * Escalar los valores (usar StandardScaler). |
* Si el lexicón tiene valores de intensidad, usarlos de alguna manera. | * Si el lexicón tiene valores de intensidad, usarlos de alguna manera. | ||
* Agregar estos nuevos features al pipeline (se puede usar FeatureUnion). | * Agregar estos nuevos features al pipeline (se puede usar FeatureUnion). |
materias/pln/2019/practico2.1555018119.txt.gz · Última modificación: 2019/04/11 21:28 por francolq