Herramientas de usuario

Herramientas del sitio


materias:pln:2019:practico2

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
materias:pln:2019:practico2 [2019/04/15 20:29] – [Ejercicio 3: Exploración de Parámetros ("Grid Search")] francolqmaterias:pln:2019:practico2 [2019/04/29 21:36] (actual) francolq
Línea 6: Línea 6:
  
   * Repositorio: https://github.com/PLN-FaMAF/PLN-2019.   * Repositorio: https://github.com/PLN-FaMAF/PLN-2019.
-  * Fecha de entrega: 25/04 a las 23:59.+  * Fecha de entrega: <del>25/04</del> 2/5 a las 23:59.
  
  
Línea 51: Línea 51:
     * [[http://www.sepln.org/workshops/tass/2018/task-1|TASS 2018 Task 1]]     * [[http://www.sepln.org/workshops/tass/2018/task-1|TASS 2018 Task 1]]
       * [[http://www.sepln.org/workshops/tass/2018/task-1/private/evaluation/evaluate.php|Resultados]]       * [[http://www.sepln.org/workshops/tass/2018/task-1/private/evaluation/evaluate.php|Resultados]]
 +      * [[http://ceur-ws.org/Vol-2172/|Proceedings]]
 +      * [[http://ceur-ws.org/Vol-2172/p0_overview_tass2018.pdf|Overview]]
 +      * [[http://ceur-ws.org/Vol-2172/p2_elirf_tass2018.pdf|ELiRF-UPV (1st place)]]
 +      * [[http://ceur-ws.org/Vol-2172/p5_retuyt_tass2018.pdf|RETUYT (2nd place)]]
 +      * [[http://ceur-ws.org/Vol-2172/p1_atalaya_tass2018.pdf|Atalaya (3rd place)]]
     * [[https://competitions.codalab.org/competitions/21957|TASS 2019]]     * [[https://competitions.codalab.org/competitions/21957|TASS 2019]]
   * [[https://cs.famaf.unc.edu.ar/~francolq/criterios_polaridad.pdf|Etiquetado de polaridad]]   * [[https://cs.famaf.unc.edu.ar/~francolq/criterios_polaridad.pdf|Etiquetado de polaridad]]
Línea 90: Línea 95:
 ==== Lematización o Stemming ==== ==== Lematización o Stemming ====
  
-Modificar el tokenizador del ''CountVectorizer'' para que además haga stemming o lematización de las palabras. Una posibilidad es usar el Snowball stemmer que viene con NLTK.+Modificar el tokenizador del ''CountVectorizer'' para que además haga stemming o lematización de las palabras.
  
 +Recursos:
   * http://scikit-learn.org/stable/modules/feature_extraction.html#customizing-the-vectorizer-classes   * http://scikit-learn.org/stable/modules/feature_extraction.html#customizing-the-vectorizer-classes
-  * http://www.nltk.org/api/nltk.stem.html#module-nltk.stem.snowball+  * Stemmers: 
 +    * [[http://www.nltk.org/api/nltk.stem.html#module-nltk.stem.snowball|Snowball (NLTK)]] 
 +  * Lematizadores: 
 +    * [[https://spacy.io/|Spacy]] 
 +    * [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|Treetagger]] (con [[https://treetaggerwrapper.readthedocs.io/en/latest/|treetaggerwrapper]])
  
  
materias/pln/2019/practico2.1555360196.txt.gz · Última modificación: 2019/04/15 20:29 por francolq