| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa |
| materias:pln:2019:practico2 [2019/04/15 18:25] – [Lematización o Stemming] francolq | materias:pln:2019:practico2 [2025/11/15 13:47] (actual) – editor externo 127.0.0.1 |
|---|
| |
| * Repositorio: https://github.com/PLN-FaMAF/PLN-2019. | * Repositorio: https://github.com/PLN-FaMAF/PLN-2019. |
| * Fecha de entrega: 25/04 a las 23:59. | * Fecha de entrega: <del>25/04</del> 2/5 a las 23:59. |
| |
| |
| * [[http://www.sepln.org/workshops/tass/2018/task-1|TASS 2018 Task 1]] | * [[http://www.sepln.org/workshops/tass/2018/task-1|TASS 2018 Task 1]] |
| * [[http://www.sepln.org/workshops/tass/2018/task-1/private/evaluation/evaluate.php|Resultados]] | * [[http://www.sepln.org/workshops/tass/2018/task-1/private/evaluation/evaluate.php|Resultados]] |
| | * [[http://ceur-ws.org/Vol-2172/|Proceedings]] |
| | * [[http://ceur-ws.org/Vol-2172/p0_overview_tass2018.pdf|Overview]] |
| | * [[http://ceur-ws.org/Vol-2172/p2_elirf_tass2018.pdf|ELiRF-UPV (1st place)]] |
| | * [[http://ceur-ws.org/Vol-2172/p5_retuyt_tass2018.pdf|RETUYT (2nd place)]] |
| | * [[http://ceur-ws.org/Vol-2172/p1_atalaya_tass2018.pdf|Atalaya (3rd place)]] |
| * [[https://competitions.codalab.org/competitions/21957|TASS 2019]] | * [[https://competitions.codalab.org/competitions/21957|TASS 2019]] |
| * [[https://cs.famaf.unc.edu.ar/~francolq/criterios_polaridad.pdf|Etiquetado de polaridad]] | * [[https://cs.famaf.unc.edu.ar/~francolq/criterios_polaridad.pdf|Etiquetado de polaridad]] |
| ==== Lematización o Stemming ==== | ==== Lematización o Stemming ==== |
| |
| Modificar el tokenizador del ''CountVectorizer'' para que además haga stemming o lematización de las palabras. Una posibilidad es usar el Snowball stemmer que viene con NLTK. | Modificar el tokenizador del ''CountVectorizer'' para que además haga stemming o lematización de las palabras. |
| |
| Recursos: | Recursos: |
| * http://scikit-learn.org/stable/modules/feature_extraction.html#customizing-the-vectorizer-classes | * http://scikit-learn.org/stable/modules/feature_extraction.html#customizing-the-vectorizer-classes |
| * http://www.nltk.org/api/nltk.stem.html#module-nltk.stem.snowball | * Stemmers: |
| | * [[http://www.nltk.org/api/nltk.stem.html#module-nltk.stem.snowball|Snowball (NLTK)]] |
| * Lematizadores: | * Lematizadores: |
| * [[https://spacy.io/|Spacy]] | * [[https://spacy.io/|Spacy]] |