2015 |
Candido Junior, A., Magalhães, C., Caseli, H.M. & Zangirolami, R. (2015), "Topic Modeling for Keyword Extraction: using Natural Language Processing methods for keyword extraction in Portal Min@s", Revista de Estudos da Linguagem. Vol. 23(3), pp. 695-726. |
Abstract: Este artigo tem o objetivo da avaliar a aplicação de dois métodos automáticos eficientes na extração de palavras-chave, usados pelas comunidades da Linguística de Corpus e do Processamento da Língua Natural para gerar palavras-chave de textos literários: o WordSmith Tools e o Latent Dirichlet Allocation (LDA). As duas ferramentas escolhidas para este trabalho têm suas especificidades e técnicas diferentes de extração, o que nos levou a uma análise orientada para a sua performance. Objetivamos entender, então, como cada método funciona e avaliar sua aplicação em textos literários. Para esse fim, usamos análise humana, com conhecimento do campo dos textos usados. O método LDA foi usado para extrair palavras-chave por meio de sua integração com o Portal Min@s: Corpora de Fala e Escrita, um sistema geral de processamento de corpora, concebido para diferentes pesquisas de Linguística de Corpus. Os resultados do experimento confirmam a eficácia do WordSmith Tools e do LDA na extração de palavras-chave de um corpus literário, além de apontar que é necessária a análise humana das listas em um estágio anterior aos experimentos para complementar a lista gerada automaticamente, cruzando os resultados do WordSmith Tools e do LDA. Também indicam que a intuição linguística do analista humano sobre as listas geradas separadamente pelos dois métodos usados neste estudo foi mais favorável ao uso da lista de palavras-chave do WordSmith Tools. |
BibTeX:
@article{CandidoJr_etal_RELIN2015, author = {Candido Junior, Arnaldo and Magalhães, Célia and Caseli, Helena Medeiros and Zangirolami, Régis}, title = {Topic Modeling for Keyword Extraction: using Natural Language Processing methods for keyword extraction in Portal Min@s}, journal = {Revista de Estudos da Linguagem}, year = {2015}, volume = {23}, number = {3}, pages = {695--726}, url = {http://www.periodicos.letras.ufmg.br/index.php/relin/article/view/8916} } |
Inácio, M.L. & Caseli, H.M. (2015), "Etiquetação morfossintática de textos em português do Brasil no domínio do e-commerce", In Anais do IV Student Workshop on Information and Human Language Technology., pp. 1-6. |
BibTeX:
@inproceedings{Inacio_Caseli_TILIC2015, author = {Inácio, Márcio Lima and Caseli, Helena Medeiros}, title = {Etiquetação morfossintática de textos em português do Brasil no domínio do e-commerce}, booktitle = {Anais do IV Student Workshop on Information and Human Language Technology}, year = {2015}, pages = {1-6}, url = {http://www.lbd.dcc.ufmg.br/colecoes/tilic/2015/008.pdf} } |
Ito, F.T., Erdmann, H., Takabayashi, D., Santos, D.N. & Moreira, J. (2015), "Preprocessing Images to Improve Deep Neural Networks Classification", In Proceedings of XI Workshop de Visão Computacional. São Carlos, SP. October 2015., pp. 328-333. |
BibTeX:
@inproceedings{Ito_etal_WVC_2015, author = {Ito, F. T. and Erdmann, H. and Takabayashi, D. and Santos, D. N. and Moreira, J.}, title = {Preprocessing Images to Improve Deep Neural Networks Classification}, booktitle = {Proceedings of XI Workshop de Visão Computacional}, year = {2015}, pages = {328-333}, url = {http://wvc2015.eesc.usp.br/Proceedings_WVC2015.pdf} } |
Rondon, A.C., Caseli, H.M. & Ramisch, C. (2015), "Never-Ending Multiword Expressions Learning", In Proceedings of NAACL-HLT 2015. Denver, Colorado. June 2015., pp. 45-53. |
BibTeX:
@inproceedings{Rondon_etal_MWE2015, author = {Rondon, Alexandre Coelho and Caseli, Helena Medeiros and Ramisch, Carlos}, title = {Never-Ending Multiword Expressions Learning}, booktitle = {Proceedings of NAACL-HLT 2015}, year = {2015}, pages = {45-53}, url = {http://www.aclweb.org/anthology/W15-0908} } |
Silva, L.H. & Caseli, H.M. (2015), "Reconhecimento de entidades nomeadas em textos em português do Brasil no domínio do e-commerce", In Anais do IV Student Workshop on Information and Human Language Technology., pp. 1-7. |
BibTeX:
@inproceedings{Silva_Caseli_TILIC2015, author = {Silva, Lucas Hochleitner and Caseli, Helena Medeiros}, title = {Reconhecimento de entidades nomeadas em textos em português do Brasil no domínio do e-commerce}, booktitle = {Anais do IV Student Workshop on Information and Human Language Technology}, year = {2015}, pages = {1-7}, url = {http://www.lbd.dcc.ufmg.br/colecoes/tilic/2015/010.pdf} } |
Teixeira, R.O., Seno, E.R.M. & Caseli, H.M. (2015), "NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases", In Anais do IV Student Workshop on Information and Human Language Technology., pp. 1-5. |
BibTeX:
@inproceedings{Teixeira_etal_TILIC2015, author = {Teixeira, Rafael Oliveira and Seno, Eloize Rossi Marques and Caseli, Helena Medeiros}, title = {NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases}, booktitle = {Anais do IV Student Workshop on Information and Human Language Technology}, year = {2015}, pages = {1-5}, url = {http://www.lbd.dcc.ufmg.br/colecoes/tilic/2015/012.pdf} } |
Volpe, L.H.T. & Caseli, H.M. (2015), "Extração de relações semânticas de textos em português do Brasil no domínio do e-commerce", In Anais do IV Student Workshop on Information and Human Language Technology., pp. 1-7. |
BibTeX:
@inproceedings{Volpe_Caseli_TILIC2015, author = {Volpe, Leonardo Henrique Tozzatto and Caseli, Helena Medeiros}, title = {Extração de relações semânticas de textos em português do Brasil no domínio do e-commerce}, booktitle = {Anais do IV Student Workshop on Information and Human Language Technology}, year = {2015}, pages = {1-7}, url = {http://www.lbd.dcc.ufmg.br/colecoes/tilic/2015/013.pdf} } |
2014 |
Martins, D.B.J. & Caseli, H.M. (2014), "Automatic machine translation error identification", Machine Translation. Vol. 29(1), pp. 1-24. |
Abstract: Although machine translation (MT) has been an object of study for decades now, the texts generated by the state-of-the-art MT systems still present several errors for many language pairs. Aiming at coping with this drawback, lots of efforts have been made to post-edit those errors either manually or automatically. Manual post-editing is more accurate but can be prohibitive when too many changes have to be made. Automatic post-editing demands less effort but can also be less effective and give rise to new errors. A way to avoid unnecessary automatic post-editing and new errors is by previously selecting only the machine-translated segments that really need to be post-edited. Thus, this paper describes the experiments carried out to automatically identify MT errors generated by a state-of-the-art phrase-based statistical MT system. Despite the fact that our experiments have been carried out using a statistical MT engine, we believe the approach can also be applied to other types of MT systems. The experiments investigated the well-known machine-learning algorithms Naive Bayes, Decision Trees and Support Vector Machines. Using the decision tree algorithm it was possible to identify wrong segments with around 77 % precision and recall when a small training corpus of only 2,147 error instances was used. Our experiments were performed on English-to-Brazilian Portuguese MT, and although some of the features are language-dependent, the proposed approach is language-independent and can be easily generalized to other language pairs. |
BibTeX:
@article{Martins_Caseli_MT2014, author = {Martins, Débora Beatriz Jesus and Caseli, Helena Medeiros}, title = {Automatic machine translation error identification}, journal = {Machine Translation}, year = {2014}, volume = {29}, number = {1}, pages = {1--24}, url = {http://dx.doi.org/10.1007/s10590-014-9163-y}, doi = {http://doi.org/10.1007/s10590-014-9163-y} } |
Polastri, P.C., Caseli, H.M. & Seno, E.R.M. (2014), "Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso", In Proceedings of the Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish., pp. 1-6. |
BibTeX:
@inproceedings{Polastri_etal_TorPorEsp_2014, author = {Polastri, Paulo César and Caseli, Helena Medeiros and Seno, Eloize Rossi Marques}, title = {Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso}, booktitle = {Proceedings of the Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish}, year = {2014}, pages = {1-6}, url = {http://www.lbd.dcc.ufmg.br/colecoes/torporesp/2014/015.pdf} } |
Taba, L.S. & Caseli, H. (2014), "Automatic Semantic Relation Extraction from Portuguese Texts", In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). Reykjavik, Iceland. may 2014. European Language Resources Association (ELRA). |
BibTeX:
@inproceedings{Taba_Caseli_LREC2014, author = {Leonardo Sameshima Taba and Helena Caseli}, title = {Automatic Semantic Relation Extraction from Portuguese Texts}, booktitle = {Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)}, publisher = {European Language Resources Association (ELRA)}, year = {2014}, url = {http://www.lrec-conf.org/proceedings/lrec2014/pdf/522_Paper.pdf} } |
Vieira, T.L. & Caseli, H.M. (2014), "Aprendizado de Máquina Sem-Fim para Indução Automática de Léxico Bilíngue", In Proceedings of the Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish., pp. 1-8. |
BibTeX:
@inproceedings{Vieira_Caseli_TorPorEsp_2014, author = {Vieira, Thiago Lima and Caseli, Helena Medeiros}, title = {Aprendizado de Máquina Sem-Fim para Indução Automática de Léxico Bilíngue}, booktitle = {Proceedings of the Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish}, year = {2014}, pages = {1-8}, url = {http://www.lbd.dcc.ufmg.br/colecoes/torporesp/2014/008.pdf} } |
Vieira, T.L. & Caseli, H.M. (2014), "NEBEL: Never-Ending Bilingual Equivalent Learner", In Proceedings of the Human-Inspired Computing and Its Applications: 13th Mexican International Conference on Artificial Intelligence -- MICAI. Tuxtla Gutiérrez, Mexico. November 16-22 2014.(Part I), pp. 99-103. Springer International Publishing. |
BibTeX:
@inproceedings{Vieira_Caseli_MICAI2014, author = {Vieira, Thiago Lima and Caseli, Helena Medeiros}, title = {NEBEL: Never-Ending Bilingual Equivalent Learner}, booktitle = {Proceedings of the Human-Inspired Computing and Its Applications: 13th Mexican International Conference on Artificial Intelligence -- MICAI}, publisher = {Springer International Publishing}, year = {2014}, number = {Part I}, pages = {99--103}, url = {http://dx.doi.org/10.1007/978-3-319-13647-9_11}, doi = {http://doi.org/10.1007/978-3-319-13647-9_11} } |
2013 |
Beck, D.E. & Caseli, H.M. (2013), "Tree-based Statistical Machine Translation: Experiments with the English and Brazilian Portuguese Pair", Learning and Nonlinear Models. Vol. 11(1), pp. 11-25. |
BibTeX:
@article{Beck_Caseli_LNM_2013, author = {Beck, Daniel Emilio and Caseli, Helena Medeiros}, title = {Tree-based Statistical Machine Translation: Experiments with the English and Brazilian Portuguese Pair}, journal = {Learning and Nonlinear Models}, year = {2013}, volume = {11}, number = {1}, pages = {11-25} } |
Martins, D.B.J., Avanço, L.V., Nunes, M.G.V. & Caseli, H.M. (2013), "Annotating translation errors in Brazilian Portuguese autoautomatic translated ssentence: first step to automatic post-edition", In Proceedings of the Corpus Linguistics Conference. |
BibTeX:
@inproceedings{Martins_etal_CL2013, author = {Martins, Débora Beatriz Jesus and Avanço, Lucas Vinicius and Nunes, Maria Graças Volpe and Caseli, Helena Medeiros}, title = {Annotating translation errors in Brazilian Portuguese autoautomatic translated ssentence: first step to automatic post-edition}, booktitle = {Proceedings of the Corpus Linguistics Conference}, year = {2013}, url = {http://ucrel.lancs.ac.uk/cl2013/doc/CL2013-ABSTRACT-BOOK.pdf} } |
2012 |
Beck, D.E. & Caseli, H.M. (2012), "Bayesian Induction of Syntactic Language Models for Brazilian Portuguese", In Proceedings of the 10th International Conference for Computational Processing of the Portuguese Language. April 2012. Volume 7243, pp. 157-167. Springer-Verlag Berlin Heidelberg. |
BibTeX:
@inproceedings{Beck_Caseli_PROPOR2012, author = {Beck, Daniel Emilio and Caseli, Helena Medeiros}, title = {Bayesian Induction of Syntactic Language Models for Brazilian Portuguese}, booktitle = {Proceedings of the 10th International Conference for Computational Processing of the Portuguese Language}, publisher = {Springer-Verlag Berlin Heidelberg}, year = {2012}, volume = {7243}, pages = {157-167}, url = {http://www.springer.com/br/book/9783642288845?referer=www.springeronline.com} } |
Beck, D.E. & Caseli, H.M. (2012), "Portuguese-English Statistical Machine Translation using Tree Transducers", In Anais do IX Encontro Nacional de Inteligência Artificial (ENIA-2012)., pp. 1-12. |
BibTeX:
@inproceedings{Beck_Caseli_ENIA2012, author = {Beck, Daniel Emilio and Caseli, Helena Medeiros}, title = {Portuguese-English Statistical Machine Translation using Tree Transducers}, booktitle = {Anais do IX Encontro Nacional de Inteligência Artificial (ENIA-2012)}, year = {2012}, pages = {1-12}, url = {http://www.ppgia.pucpr.br/ enia/anais/enia/artigos/105729_2.pdf} } |
Taba, L.S. & Caseli, H.M. (2012), "Bayesian Induction of Syntactic Language Models for Brazilian Portuguese", In Proceedings of the 10th International Conference for Computational Processing of the Portuguese Language. April 2012. Volume 7243, pp. 186-192. Springer-Verlag Berlin Heidelberg. |
BibTeX:
@inproceedings{Taba_Caseli_PROPOR2012, author = {Taba, Leonardo Sameshima and Caseli, Helena Medeiros}, title = {Bayesian Induction of Syntactic Language Models for Brazilian Portuguese}, booktitle = {Proceedings of the 10th International Conference for Computational Processing of the Portuguese Language}, publisher = {Springer-Verlag Berlin Heidelberg}, year = {2012}, volume = {7243}, pages = {186-192}, url = {http://www.springer.com/br/book/9783642288845?referer=www.springeronline.com} } |
2011 |
Antonio, M.M. & Caseli, H.M. (2011), "Tradução orientada a dados", In Anais de Eventos da UFSCar. São Carlos, SP. Volume 7 |
BibTeX:
@inproceedings{CIC_Miguel_2011, author = {Antonio, Miguel M. and Caseli, Helena M.}, title = {Tradução orientada a dados}, booktitle = {Anais de Eventos da UFSCar}, year = {2011}, volume = {7} } |
Araújo, J.G. & Caseli, H.M. (2011), "Combining Models for the Alignment of Parallel Syntactic Trees", In Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology. Cuiabá, MT, Brazil. October, 24-26 2011., pp. 169-173. Sociedade Brasileira de Computação. |
Abstract: The alignment of syntactic trees is the task of aligning the internal and leaf nodes of two sentences in different languages structured as trees. The output of the alignment can be used, for instance, as knowledge resource for learning translation rules (for rule-based machine translation systems) or models (for statistical machine translation systems). This paper presents some experiments carried out based on two syntactic tree alignment algorithms presented in [Lavie et al. 2008] and [Tinsley et al. 2007]. Aiming at improving the performance of internal nodes alignment, some approaches for combining the output of these two algorithms were evaluated in Brazilian Portuguese and English parallel trees. |
BibTeX:
@inproceedings{STIL_Josue_2011, author = {Araújo, Josué G. and Caseli, Helena M.}, title = {Combining Models for the Alignment of Parallel Syntactic Trees}, booktitle = {Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology}, publisher = {Sociedade Brasileira de Computação}, year = {2011}, pages = {169-173}, url = {http://www.nilc.icmc.usp.br/til/stil2011_English/stil/artigos/Short/STIL2011_SP4.pdf} } |
Beck, D.E. (2011), "Syntax-based Statistical Machine Translation using Tree Automata and Tree Transducers", In Proceedings of the ACL 2011 Student Session. Portland, Oregon, USA. 19-24 June 2011 2011., pp. 36-40. |
Abstract: In this paper I present a Master’s thesis proposal in syntax-based Statistical Machine Translation. I propose to build discriminative SMT models using both tree-to-string and tree-to-tree approaches. Translation and language models will be represented mainly through the use of Tree Automata and Tree Transducers. These formalisms have important representational properties that makes them well-suited for syntax modeling. I also present an experiment plan to evaluate these models through the use of a parallel corpus written in English and Brazilian Portuguese. |
BibTeX:
@inproceedings{ACL_Daniel_2011, author = {Beck, Daniel Emilio}, title = {Syntax-based Statistical Machine Translation using Tree Automata and Tree Transducers}, booktitle = {Proceedings of the ACL 2011 Student Session}, year = {2011}, pages = {36-40}, url = {http://aclweb.org/anthology-new/P/P11/P11-3007.pdf} } |
Kawamorita, C.T. & Caseli, H.M. (2011), "Memórias de tradução: recursos e ferramentas para auxiliar o humano a traduzir", In Anais de Eventos da UFSCar. São Carlos. Volume 7 |
BibTeX:
@inproceedings{CIC_Cleber_2011, author = {Kawamorita, Cleber T. and Caseli, Helena M.}, title = {Memórias de tradução: recursos e ferramentas para auxiliar o humano a traduzir}, booktitle = {Anais de Eventos da UFSCar}, year = {2011}, volume = {7} } |
Schreiner, P., Villavicencio, A., Zilio, L. & Caseli, H.M. (2011), "Improving Lexical Alignment Using Hybrid Discriminative and Post-Processing Techniques", In Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology. Cuiabá, MT, Brazil. October 24-26 2011., pp. 97-106. Sociedade Brasileira de Computação. |
Abstract: Automatic lexical alignment is a vital step for empirical machine translation, and although good results can be obtained with existent models (e.g. Giza++), more precise alignment is still needed for successfully handling complex constructions such as multiword expressions. In this paper we propose an approach for lexical alignment combining statistical and linguistic information. We describe the development of a baseline discriminative aligner and a set of language dependent post-processing functions that allow the inclusion of shallow linguistic knowledge. The post-processing functions were designed to significantly improve word alignment mainly on verb-particle constructs both over our baseline and over Giza++. |
BibTeX:
@inproceedings{STIL_Paulo_2011, author = {Schreiner, Paulo and Villavicencio, Aline and Zilio, Leonardo and Caseli, Helena M.}, title = {Improving Lexical Alignment Using Hybrid Discriminative and Post-Processing Techniques}, booktitle = {Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology}, publisher = {Sociedade Brasileira de Computação}, year = {2011}, pages = {97-106}, url = {http://www.nilc.icmc.usp.br/til/stil2011_English/stil/artigos/Long/STIL2011_P11.pdf} } |
Sugiyama, B.A., Anacleto, J.C. & Caseli, H.M. (2011), "Assisting users in a cross-cultural communication by providing culturally contextualized translations", In Proceedings of SIGDOC 2011., pp. 1-6. |
Abstract: In this paper, we present a web-chat application called Culture-to-Chat (C2C). The purpose of this chat is to help users to produce messages in a English as a Second Language - ESL. Regarding this task, C2C has two resources that we named Cultural Translator and Machine Translator. The Cultural Translator uses a Brazilian Portuguese cultural knowledge base (from the Open Mind Common Sense – Br Project in collaboration to Media Lab - MIT) that works with the sender's vocabulary expression in order to provide alternative suggestions that can have the same colloquial meaning. The Machine Translation converts texts from a source language to a target language. The process that we used to combine these features and develop the application was based on an user-centered design approach with a focus on prototyping. We used different types of fidelity-levels (low, mid, high) before developing the functional web prototype version of C2C. User tests were then applied to evaluate usability issues. After collecting data from questionnaires and observation, problems were corrected and now we are heading to a larger user study regarding the C2C functionality. We have been performing a study case involving Brazilian and Canadian users. There are some initial results available from this study that will be discussed further. These data show that users appreciate the resources that help them design messages for cross-cultural communication. |
BibTeX:
@inproceedings{SIGDOC_2011, author = {Sugiyama, Bruno A. and Anacleto, Junia C. and Caseli, Helena M.}, title = {Assisting users in a cross-cultural communication by providing culturally contextualized translations}, booktitle = {Proceedings of SIGDOC 2011}, year = {2011}, pages = {1-6} } |
Vieira, T.L. & Caseli, H.M. (2011), "PorTAl: Recursos e Ferramentas de Tradução Automática para o Português do Brasil", In Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology. Cuiabá, MT, Brazil. October, 24-26 2011., pp. 179-183. Sociedade Brasileira de Computação. |
Abstract: Este artigo descreve o portal de traducao automática (TA) PorTAl desenvolvido com o intuito de integrar ferramentas e recursos úteis para TA e o processamento multilíngue. O PorTAl, atualmente em desenvolvimento, envolverá a disponibilização de ferramentas e recursos para os idiomas português do Brasil, inglês e espanhol (inicialmente). A longo prazo, acredita-se que o PorTAl impulsionará um avanço nas aplicacoes de processamento multilíngue,principalmente no que diz respeito ao português do Brasil. |
BibTeX:
@inproceedings{STIL_Thiago_2011, author = {Vieira, Thiago L. and Caseli, Helena M.}, title = {PorTAl: Recursos e Ferramentas de Tradução Automática para o Português do Brasil}, booktitle = {Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology}, publisher = {Sociedade Brasileira de Computação}, year = {2011}, pages = {179-183}, url = {http://www.nilc.icmc.usp.br/til/stil2011_English/stil/artigos/Short/STIL2011_SP6.pdf} } |
2010 |
Araújo, J.G. & Caseli, H.M. (2010), "Alignment of Portuguese-English syntactic trees using part-of-speech filters", In Proceedings of the Workshop on Natural Language Processing (in IBERAMIA 2010)., pp. 1-10. |
Abstract: The alignment of syntactic trees is the process of finding the correspondences between internal and leaf nodes of two parsing trees representing parallel sentences in different languages. The resource derived from this process can be used, for instance, in Machine Translation (MT) systems to learn translation rules. The model presented in this paper is based on the Prime Factorization and Alignments algorithm (PFA) (Lavie, 2008), which uses prime numbers to align parallel trees. Knowing that the lexical alignment influences the alignment of internal nodes, the experiments described in this paper were designed aiming at improving the accuracy of lexical alignments and, thus, verifying the impact of this improvement on the alignment of internal nodes. To do so we used GIZA++ (Och & Ney, 2003) combined with part-of-speech filters. |
BibTeX:
@inproceedings{WIBERAMIA_2010, author = {Araújo, Josué G. and Caseli, Helena M.}, title = {Alignment of Portuguese-English syntactic trees using part-of-speech filters}, booktitle = {Proceedings of the Workshop on Natural Language Processing (in IBERAMIA 2010)}, year = {2010}, pages = {1-10} } |
Araújo, J.G. & Caseli, H.M. (2010), "Alinhamento de árvores sintáticas português-inglês", In Anais do Workshop de Teses e Dissertações em Inteligência Artificial (WTDIA)., pp. 1-10. |
Abstract: O alinhamento de árvores sintáticas é a tarefa de alinhar os nós internos e os nós-folha de duas sentenças em línguas diferentes estruturadas em forma de árvore. As árvores sintáticas alinhadas podem ser usadas, por exemplo, para aprender regras de tradução. A investigação, o estudo, a implementação e a avaliação de métodos automáticos de alinhamento de árvores sintáticas é o objetivo do trabalho de mestrado do qual os experimentos descritos neste artigo fazem parte. Tais experimentos analisam duas hipóteses: (i) a qualidade do alinhamento lexical tem impacto na qualidade do alinhamento dos nós internos e (ii) o modelo baseado no algoritmo PFA (Lavie, 2008) emula o modo como um especialista humano gera o alinhamento manual dos nós internos. |
BibTeX:
@inproceedings{WTDIA_2010, author = {Araújo, Josué G. and Caseli, Helena M.}, title = {Alinhamento de árvores sintáticas português-inglês}, booktitle = {Anais do Workshop de Teses e Dissertações em Inteligência Artificial (WTDIA)}, year = {2010}, pages = {1-10} } |
Barchi, P.H., Caseli, H.M. & Anacleto, J.C. (2010), "Alinhamento de grafos: investigação do alinhamento de ConceptNets para a tradução automática", In Anais de Eventos da UFSCar. São Carlos. Volume 6, pp. 383. |
BibTeX:
@inproceedings{CIC_Paulo_2010, author = {Barchi, Paulo H. and Caseli, Helena M. and Anacleto, Junia C.}, title = {Alinhamento de grafos: investigação do alinhamento de ConceptNets para a tradução automática}, booktitle = {Anais de Eventos da UFSCar}, year = {2010}, volume = {6}, pages = {383} } |
Caseli, H. d.M. & Nunes, I.A. (2010), "Factored Translation between Brazilian Portuguese and English", In Proceedings of the Brazilian Symposium on Artificial Intelligence (SBIA) - LNAI.(6404), pp. 163-172. Springer-Verlag Berlin Heidelberg. |
Abstract: Factored translation is an extension of the state-of-the-art phrase-based statistical machine translation (PB-SMT). The main difference in factored translation approach is that a word is not only a token (its surface form) but a vector composed of different information such as lemma, part-of-speech or morphologic/syntactic tags. In this paper we present some experiments carried out to train and test factored translation models on Brazilian Portuguese and English texts. Using part-of-speech and morphological information, the factored models showed better results than the baseline (a PB-SMT), but the same gain in performance was not reached when flat syntactic tags were considered. |
BibTeX:
@inproceedings{SBIA_2010, author = {Caseli, Helena de Medeiros and Nunes, Israel Aono}, title = {Factored Translation between Brazilian Portuguese and English}, booktitle = {Proceedings of the Brazilian Symposium on Artificial Intelligence (SBIA) - LNAI}, publisher = {Springer-Verlag Berlin Heidelberg}, year = {2010}, number = {6404}, pages = {163-172} } |
Caseli, H.M. & Nunes, M.G.V. (2010), "Transfer rule and bilingual dictionary automatic induction in the ReTraTos project", In Proceedings of the PhD and MSc Dissertation Contest. Porto Alegre, RS. April 2010., pp. 1-8. |
Abstract: In this paper we present the ReTraTos methodology to automatically induce bilingual resources ---transfer rules and bilingual dictionaries--- from parallel corpora. These resources are very useful in Machine Translation (MT) and other bilingual Natural Language Processing (NLP) applications. As a result, several automatic approaches have been proposed to avoid the extensive hard work employed to manually build these resources. The automatic approaches described in this paper aim at building bilingual dictionaries and shallow-transfer rules by extracting knowledge from word-aligned and part-of-speech tagged parallel corpora. Experiments carried out with Brazilian Portuguese--Spanish and Brazilian Portuguese--English parallel texts show that the proposed methodologies can speed the development of these valuable computational resources and, thus, help the development of MT systems for new pairs of languages. Furthermore, the rule induction methodology is innovative in the way rules are identified and filtered. |
BibTeX:
@inproceedings{PROPOR_CTD_2010, author = {Caseli, Helena M. and Nunes, Maria Graças V.}, title = {Transfer rule and bilingual dictionary automatic induction in the ReTraTos project}, booktitle = {Proceedings of the PhD and MSc Dissertation Contest}, year = {2010}, pages = {1--8} } |
Caseli, H.M., Sugiyama, B.A. & Anacleto, J.C. (2010), "Using Common Sense to generate culturally contextualized Machine Translation", In Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas. Los Angeles, California. June 2010., pp. 24-31. |
Abstract: This paper reports an ongoing work in applying Common Sense knowledge to Machine Translation aiming at generating more culturally contextualized translations. Common Sense can be defined as the knowledge shared by a group of people in a given time, space and culture; and this knowledge, here, is represented by a semantic network called ConceptNet. Machine Translation, in turn, is the automatic process of generating an equivalent translated version of a source sentence. In this work we intend to use the knowledge represented in two ConceptNets, one in Brazilian Portuguese and another in English, to fix/filter translations built automatically. So, this paper presents the initial ideas of our work, the steps taken so far as well as some opportunities for collaboration. |
BibTeX:
@inproceedings{NAACL_W_2010_CS_MT, author = {Helena M. Caseli and Bruno A. Sugiyama and Junia C. Anacleto}, title = {Using Common Sense to generate culturally contextualized Machine Translation}, booktitle = {Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas}, year = {2010}, pages = {24--31}, url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2010/NAACL2010CSMT.pdf} } |
Meuchi, L.A. & Caseli, H.M. (2010), "Investigação do uso de informação semântica e sintática na tradução automática: inferência em ConceptNets paralelas e Data Oriented Translation", In Anais de Eventos da UFSCar. São Carlos. Volume 6, pp. 363. |
BibTeX:
@inproceedings{CIC_Lais_2010, author = {Meuchi, Laís A. and Caseli, Helena M.}, title = {Investigação do uso de informação semântica e sintática na tradução automática: inferência em ConceptNets paralelas e Data Oriented Translation}, booktitle = {Anais de Eventos da UFSCar}, year = {2010}, volume = {6}, pages = {363} } |
Pardo, T.A.S., Gasperin, C.V., Caseli, H.M. & das Graças V. Nunes, M. (2010), "Computational Linguistics in Brazil: An Overview", In Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas. Los Angeles, California. June 2010., pp. 1-7. |
Abstract: In this paper we give an overview of Computational Linguistics/Natural Language Processing in Brazil, describing the general research scenario, the main research groups, existing events and journals, and the perceived challenges, among other relevant information. We also identify opportunities for collaboration. |
BibTeX:
@inproceedings{NAACL_W_2010_NILC, author = {Thiago A. S. Pardo and Caroline V. Gasperin and Helena M. Caseli and Maria das Graças V. Nunes}, title = {Computational Linguistics in Brazil: An Overview}, booktitle = {Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas}, year = {2010}, pages = {1--7}, url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2010/NAACL2010NILC.pdf} } |
Ramisch, C., Caseli, H.M., A.Villavicencio, Machado, A. & Finatto, M.J. (2010), "A Hybrid Approach for Multiword Expression Identification", In Proceedings of the International Conference on Computational Processing of Portuguese Language (PROPOR 2010) - LNAI. Porto Alegre, RS, Brazil.(6001), pp. 65-74. Springer-Verlag Berlin Heidelberg. |
Abstract: Considerable attention has been given to the problem of Multiword Expression (MWE) identification and treatment, for NLP tasks like parsing and generation, to improve the quality of results. Statistical methods have been often employed for MWE identification, as an inexpensive and language independent way of finding co-occurrence patterns. On the other hand, more linguistically motivated methods for identification, which employ information such as POS filters and lexical alignment between languages, can produce more targeted candidate lists. In this paper we propose a hybrid approach that combines the strenghts of different sources of information using a machine learning algorithm to produce more robust and precise results. Automatic evaluation on gold standards shows that the performance of our hybrid method is superior to the individual results of statistical and alignment-based MWE extraction approaches for Portuguese and for English. This method can be used to aid lexicographic work by providing a more targeted MWE candidate list. |
BibTeX:
@inproceedings{PROPOR_2010, author = {C. Ramisch and H. M. Caseli and A.Villavicencio and A. Machado and M. J. Finatto}, title = {A Hybrid Approach for Multiword Expression Identification}, booktitle = {Proceedings of the International Conference on Computational Processing of Portuguese Language (PROPOR 2010) - LNAI}, publisher = {Springer-Verlag Berlin Heidelberg}, year = {2010}, number = {6001}, pages = {65--74}, url = {http://www.springer.com/computer/ai/book/978-3-642-12319-1} } |
Sugiyama, B.A., Anacleto, J.C. & Caseli, H.M. (2010), "Um chat bilíngue para aprendizado da segunda língua considerando a cultura dos participantes", In Anais do Simpósio Brasileiro de Informática na Educação., pp. 1-4. |
Abstract: Este trabalho apresenta uma proposta em desenvolvimento de um chat bilíngue para comunicação de usuários falantes do português (Brasil) e do inglês. O chat auxilia o usuário na elaboração de mensagens em língua estrangeira e para isso utiliza dois recursos: Tradutor Automático e Tradutor Cultural. Enquanto o Tradutor Automático fornece traduções instantâneas para a mensagem original, o Tradutor Cultural fornece sugestões para edição da mensagem traduzida, a fim de motivar o usuário a criar uma tradução mais contextualizada e evitar enganos por parte do destinatário. O trabalho pretende inserir o usuário em um processo de reflexão sobre a língua estrangeira, considerando sua cultura e contribuindo para a comunicação interpessoal. |
BibTeX:
@inproceedings{SBIE_2010, author = {Sugiyama, Bruno A. and Anacleto, Junia C. and Caseli, Helena M.}, title = {Um chat bilíngue para aprendizado da segunda língua considerando a cultura dos participantes}, booktitle = {Anais do Simpósio Brasileiro de Informática na Educação}, year = {2010}, pages = {1-4} } |
Sugiyama, B.A., Anacleto, J.C., Fels, S. & Caseli, H.M. (2010), "Using cultural knowledge to assist communication between people with different cultural background", In Proceedings of SIGDOC 2010. São Carlos, SP, Brazil. September 2010., pp. 183-190. |
Abstract: We present a computational application to facilitate text chat-based communication between people with different cultural and language background. We focus on end-to-end communication between people with rudimentary and intermediary knowledge of the second language using computer support rather than using a simple connection with automated computer translation. Through a user-centered design process, involving three increasingly hifidelity prototypes, we created a system that allows users who speak different languages to send text messages between them that begins with an automated translation of their message that does a partial translation but normally has words that are not translated well. These poorly translated words are then searched for in a common sense knowledge base for the sender's culture that contains meanings gleaned from a large open source initiative to collect common sense knowledge. Using these additional concepts and words coupled to a translator, the user can select from a list of translations those that are better suited to the intention of the message. We illustrate the usefulness of our approach empirically to show that users find the augmented translated messages are culturally sensitive and provide better communication experiences than without it. Our study used messaging between Portuguese (Brazilian) and English speakers. |
BibTeX:
@inproceedings{SIGDOC_2010, author = {Sugiyama, Bruno A. and Anacleto, Junia C. and Fels, Sidney and Caseli, Helena M.}, title = {Using cultural knowledge to assist communication between people with different cultural background}, booktitle = {Proceedings of SIGDOC 2010}, year = {2010}, pages = {183-190} } |
Villavicencio, A., Ramisch, C., Machado, A., Caseli, H.M. & Finatto, M.J. (2010), "Identificação de Expressões Multipalavras em Domínios Específicos", LinguaMÁTICA., Abril, 2010. Vol. 2(1), pp. 15-34. |
BibTeX:
@article{Linguamatica2010, author = {Aline Villavicencio and Carlos Ramisch and André Machado and Helena M. Caseli and Maria José Finatto}, title = {Identificação de Expressões Multipalavras em Domínios Específicos}, journal = {LinguaMÁTICA}, year = {2010}, volume = {2}, number = {1}, pages = {15-34}, note = {ISSN: 1647-0818} } |
2009 |
Barchi, P.H., Caseli, H.M. & Anacleto, J.C. (2009), "Alinhamento de Grafos: Investigação do Alinhamento de ConceptNets para a Tradução Automática", In Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic). São Carlos, SP, Brasil., pp. 1-4. |
Abstract: Esse artigo descreve uma proposta de pesquisa que visa o alinhamento de conceitos em redes semânticas paralelas, particularmente para os idiomas português do Brasil e inglês. As redes semânticas (ConceptNets) consideradas nesta proposta estão estruturadas em nós e arcos (que conectam os nós). Os nós armazenam os conhecimentos da base de senso comum, enquanto os arcos representam as relações entre dois nós, baseadas nos estudos sobre a teoria de (Minsky, 1986). A partir desse alinhamento de conceitos similares em idiomas distintos outras técnicas poderão ser aplicadas para extração de conhecimento útil para a tradução automática. |
BibTeX:
@inproceedings{TILic_Paulo_2009, author = {P. H. Barchi and H. M. Caseli and J. C. Anacleto}, title = {Alinhamento de Grafos: Investigação do Alinhamento de ConceptNets para a Tradução Automática}, booktitle = {Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic)}, year = {2009}, pages = {1-4}, url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/tilic/BarchiETAL.pdf} } |
Caseli, H.M. & Nunes, I.A. (2009), "Statistical Machine Translation: little changes big impacts", In Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology. São Carlos, SP, Brazil., pp. 1-9. |
Abstract: In this paper we describe some experiments carried out to test the impact of automatic casing and punctuation changes when training and testing statistical translation models. The experiments described here concern the translation from/to English and Brazilian Portuguese texts but since the superficial changes investigated are language independent, we believe that the conclusions can be applied to many other pairs of languages. These experiments were designed aiming at setting a baseline scenario for future training and testing of more complex statistical translation models such as the factored ones. From the experiments presented here it is possible to see that case and punctuation changes have a significant impact on automatic translation results. |
BibTeX:
@inproceedings{STIL_SMT_2009, author = {H. M. Caseli and I. A. Nunes}, title = {Statistical Machine Translation: little changes big impacts}, booktitle = {Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology}, year = {2009}, pages = {1-9}, url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/stil/Caseli-57791_1.pdf} } |
Caseli, H.M. & Nunes, I.A. (2009), "Tradução Automática Estatística baseada em Frases e Fatorada: Experimentos com os idiomas Português do Brasil e Inglês usando o toolkit Moses (NILC-TR-09-07)". Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC), 2009. |
Abstract: Este relatório apresenta uma descrição do uso do toolkit de tradução automática estatística Moses na construção e na avaliação de modelos de tradução baseados em frases (phrase-based) tradicionais (considerados o estado da arte) e fatorados (uma extensão dos modelos baseados em frases). Além de apresentar uma descrição da ferramenta utilizada, seu processo de instalação e utilização, também são relatados os resultados alcançados em vários experimentos desenvolvidos para testar a tradução automática estatística baseada em frases e a fatorada com um corpus paralelo de textos escritos em português do Brasil (pt) e inglês (en). Os experimentos demonstram que a tradução fatorada, na qual fatores adicionais (além das formas superficiais das palavras) são usados na geração dos modelos de tradução e língua, apresenta resultados melhores do que a tradução tradicional baseada em frases. Essa melhora no desempenho, verificada em termos das medidas de avaliação automática BLEU e NIST, mostrou-se estatisticamente significante em alguns experimentos no sentido de tradução en-pt, no qual as informações adicionais na língua alvo (o português nesse caso) possuem maior relevância por ser esta uma língua com maior variação morfológica do que a língua fonte (o inglês, nesse caso). |
BibTeX:
@techreport{Moses_RT_2009, author = {Caseli, H. M. and Nunes, I. A.}, title = {Tradução Automática Estatística baseada em Frases e Fatorada: Experimentos com os idiomas Português do Brasil e Inglês usando o toolkit Moses (NILC-TR-09-07)}, school = {Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)}, year = {2009}, note = {40 p.}, url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2009/NILC-TR-09-07.pdf} } |
Caseli, H.M., Pereira, T.F., Specia, L., Pardo, T.A.S., Gasperin, C. & Aluísio, S.M. (2009), "Building a Brazilian Portuguese parallel corpus of original and simplified texts", In Advances in Computational Linguistics, Research in Computer Science - 10th Conference on Intelligent Text Processing and Computational Linguistics - CICLing. Mexico City. March 01-07 2009. Volume 41, pp. 59-70. |
Abstract: In this paper we address the problem of building the necessary tools and resources for performing Brazilian Portuguese text simplification. We describe our efforts on the design and development of: (a) a XCES-based annotation schema, (b) an annotation edition tool, and (c) a portal to access parallel corpora of original-simplified texts. These contributions were intended to (i) allow the creation and public release of a corpus of original and simplified texts with two different versions of simplification (called here natural and strong), targeting two levels of functional illiteracy and (ii) register simplification decisions during the creation of such corpus. We also provide an analysis of the first corpus created using the resources presented here: 104 newspaper texts and their simplified versions, produced by an expert in text simplification. |
BibTeX:
@inproceedings{CICLING_2009, author = {H. M. Caseli and T. F. Pereira and L. Specia and T. A. S. Pardo and C. Gasperin and S. M. Aluísio}, title = {Building a Brazilian Portuguese parallel corpus of original and simplified texts}, booktitle = {Advances in Computational Linguistics, Research in Computer Science - 10th Conference on Intelligent Text Processing and Computational Linguistics - CICLing}, year = {2009}, volume = {41}, pages = {59-70} } |
Caseli, H.M., Ramisch, C.E., Nunes, M.G.V. & Villavicencio, A. (2009), "Alignment-based extraction of multiword expressions", Language Resources and Evaluation., August, 2009. Vol. 1, pp. 1-20. |
Abstract: Due to idiosyncrasies in their syntax, semantics or frequency, Multiword Expressions (MWEs) have received special attention from the NLP community, as the methods and techniques developed for the treatment of simplex words are not necessarily suitable for them. This is certainly the case for the automatic acquisition of MWEs from corpora. A lot of effort has been directed to the task of automatically identifying them, with considerable success. In this paper, we propose an approach for the identification of MWEs in a multilingual context, as a by-product of a word alignment process, that not only deals with the identification of possible MWE candidates, but also associates some multiword expressions with semantics. The results obtained indicate the feasibility and low costs in terms of tools and resources demanded by this approach, which could, for example, facilitate and speed up lexicographic work. |
BibTeX:
@article{LanguageResourcesandEvaluation_2009, author = {H. M. Caseli and C. E. Ramisch and M. G. V. Nunes and A. Villavicencio}, title = {Alignment-based extraction of multiword expressions}, journal = {Language Resources and Evaluation}, year = {2009}, volume = {1}, pages = {1-20}, doi = {http://doi.org/10.1007/s10579-009-9097-9} } |
Caseli, H.M., Villavicencio, A., Machado, A. & Finatto, M.J. (2009), "Statistically-Driven Alignment-Based Multiword Expression Identification for Technical Domains", In Proceedings of the 2009 Workshop on Multiword Expressions (ACL-IJCNLP 2009). Suntec, Singapore. 6 August 2009., pp. 1-8. |
Abstract: Multiword Expressions (MWEs) are one of the stumbling blocks for more precise Natural Language Processing (NLP) systems. Particularly, the lack of coverage of MWEs in resources can impact negatively on the performance of tasks and applications, and can lead to loss of information or communication errors. This is especially problematic in technical domains, where a significant portion of the vocabulary is composed of MWEs. This paper investigates the use of a statistically-driven alignment-based approach to the identification of MWEs in technical corpora. We look at the use of several sources of data, including parallel corpora, using English and Portuguese data from a corpus of Pediatrics, and examining how a second language can provide relevant cues for this tasks. We report results obtained by a combination of statistical measures and linguistic information, and compare these to the reported in the literature. Such an approach to the (semi-)automatic identification of MWEs can considerably speed up lexicographic work, providing a more targeted list of MWE candidates. |
BibTeX:
@inproceedings{ACL_MWE_2009, author = {H. M. Caseli and A. Villavicencio and A. Machado and M. J. Finatto}, title = {Statistically-Driven Alignment-Based Multiword Expression Identification for Technical Domains}, booktitle = {Proceedings of the 2009 Workshop on Multiword Expressions (ACL-IJCNLP 2009)}, year = {2009}, pages = {1-8}, url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2009/ACL_MWE.pdf} } |
Meuchi, L.A.S., Caseli, H.M. & Anacleto, J.C. (2009), "Inferência de relações em ConceptNets com base em corpus paralelo alinhado", In Anais do VI WorkShop de Trabalhos de Iniciação Científica (WTIC) - evento integrante do WebMedia 2009. Fortaleza, CE, Brasil., pp. 1-3. |
Abstract: Este artigo apresenta uma pesquisa conjunta de Senso Comum e Tradução Automática, realizada com o objetivo de se obter traduções automáticas mais contextualmente corretas. Para tanto, propõe-se um algoritmo para inferência de relações em redes semânticas (ConceptNets) utilizando corpus paralelo alinhado com o intuito de enriquecer a base de conhecimento que essas redes representam. |
BibTeX:
@inproceedings{WTIC_WebMedia_Lais_2009, author = {L. A. S. Meuchi and H. M. Caseli and J. C. Anacleto}, title = {Inferência de relações em ConceptNets com base em corpus paralelo alinhado}, booktitle = {Anais do VI WorkShop de Trabalhos de Iniciação Científica (WTIC) - evento integrante do WebMedia 2009}, year = {2009}, pages = {1-3} } |
Meuchi, L.A.S., Caseli, H.M. & Anacleto, J.C. (2009), "Inferência em Redes Semânticas: Investigação de Métodos de Inferência de Conhecimento de Tradução em ConceptNets Paralelas", In Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic). São Carlos, SP, Brasil., pp. 1-4. |
Abstract: Esse artigo descreve uma proposta de inferência de conhecimento útil para a tradução automática a partir de duas redes de conceitos (ConceptNets) obtidas a partir de bases de senso comum em idiomas distintos. O senso comum pode ser definido como o conhecimento compartilhado por um determinado grupo de pessoas em um dado tempo, espaço e cultura. A partir de uma rede de conceitos em português e de outra rede de conceitos em inglês, pretende-se inferir conhecimento que poderá ser aplicado para ajustar/filtrar traduções geradas automaticamente. Para tanto, neste artigo são apresentadas as ideias iniciais, um método que poderá servir de base e um exemplo de aplicação da inferência nas redes em questão. |
BibTeX:
@inproceedings{TILic_Lais_2009, author = {L. A. S. Meuchi and H. M. Caseli and J. C. Anacleto}, title = {Inferência em Redes Semânticas: Investigação de Métodos de Inferência de Conhecimento de Tradução em ConceptNets Paralelas}, booktitle = {Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic)}, year = {2009}, pages = {1-4}, url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/tilic/MeuchiETAL.pdf} } |
Nunes, I.A. & Caseli, H.M. (2009), "Primeiros Experimentos na Investigação e Avaliacão da Tradução Automática Estatística Inglês-Português", In Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic). São Carlos, SP, Brasil., pp. 1-4. |
Abstract: Esse artigo descreve alguns experimentos desenvolvidos com o intuito de treinar e testar os modelos de tradução automática estatística para textos paralelos escritos em português do Brasil e inglês. Neste artigo são apresentados os valores de BLEU e NIST na tradução de inglês para português com e sem a realização de uma etapa de otimização (tuning). Os resultados obtidos podem ser considerados satisfatórios para o pequeno corpus usado no treinamento. Em breve, esses restultados serão usados como base para a compração com os valores obtidos no treinamento e teste de modelos de tradução fatorada. |
BibTeX:
@inproceedings{TILic_Israel_2009, author = {I. A. Nunes and H. M. Caseli}, title = {Primeiros Experimentos na Investigação e Avaliacão da Tradução Automática Estatística Inglês-Português}, booktitle = {Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic)}, year = {2009}, pages = {1-4}, url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/tilic/NunesCaseli.pdf} } |
Nunes, I.A. & Caseli, H.M. (2009), "Experimentos com tradução automática estatística português-inglês", In Anais de Eventos da UFSCar. São Carlos, SP, Brasil. Volume 5, pp. 494-494. |
BibTeX:
@inproceedings{CIC_Israel_2009, author = {I. A. Nunes and H. M. Caseli}, title = {Experimentos com tradução automática estatística português-inglês}, booktitle = {Anais de Eventos da UFSCar}, year = {2009}, volume = {5}, pages = {494-494}, url = {http://www.jornada2009.nit.ufscar.br/cic/uploads/C16/C16-001.pdf} } |
Anteriores de Caseli (et al.) |
Pardo, T.A.S., Caseli, H.M. & Nunes, M.G.V. (2009), "Mapeamento da Comunidade Brasileira de Processamento de Línguas Naturais", In Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology. São Carlos, SP, Brazil., pp. 1-21. |
Abstract: Relatam-se, neste documento, os resultados do mapeamento da comunidade brasileira de Processamento de Línguas Naturais, realizado entre Maio e Julho de 2009. O mapeamento, realizado pela Comissão Especial de Processamento de Linguagem Natural da Sociedade Brasileira de Computação, foi idealizado com o objetivo de se conhecer melhor a área e, desta forma, permitir o estabelecimento de ações direcionadas para que a área se desenvolva e seja representada apropriadamente no Brasil. |
BibTeX:
@inproceedings{STIL_Mapeamento_2009, author = {T. A. S. Pardo and H. M. Caseli and M. G. V. Nunes}, title = {Mapeamento da Comunidade Brasileira de Processamento de Línguas Naturais}, booktitle = {Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology}, year = {2009}, pages = {1-21}, url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/stil/STIL2009-Painel-PardoEtAl.pdf} } |
Villavicencio, A., Caseli, H.M. & Machado, A. (2009), "Identification of Multiword Expressions in Technical Domains: Investigating Statistical and Alignment-based Approaches", In Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology. São Carlos, SP, Brazil., pp. 1-9. |
Abstract: Multiword Expressions (MWEs) are one of the stumbling blocks for more precise Natural Language Processing (NLP) systems. The lack of coverage of MWEs in resources can impact negatively on the performance of tasks and applications, and can lead to loss of information or communication errors; especially in technical domains where MWE are frequent. This paper investigates some approaches to the identification of MWEs in technical corpora based on: association measures, part-of-speech and lexical alignment information. We examine the influence of some factors on their performance such as sources of information for identification and evaluation. While the association measures emphasize recall, the alignment method focuses on precision. |
BibTeX:
@inproceedings{STIL_MWE_2009, author = {A. Villavicencio and H. M. Caseli and A. Machado}, title = {Identification of Multiword Expressions in Technical Domains: Investigating Statistical and Alignment-based Approaches}, booktitle = {Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology}, year = {2009}, pages = {1-9}, url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/stil/Villavicencio-57680_1.pdf} } |
2008 |
Aluísio, S.M., Specia, L., Pardo, T.A.S., Maziero, E.G., Caseli, H.M. & Fortes, R. (2008), "A Corpus Analysis of Simple Account Texts and the Proposal of Simplification Strategies: First Steps towards Text Simplification Systems", In Proceedings of the International Conference on Design of Communication (SIGDOC). Lisboa, Portugal., pp. 15-22. |
Abstract: In this paper we investigate the main linguistic phenomena that can make texts complex and how they could be simplified. We focus on a corpus analysis of simple account texts available on the web for Brazilian Portuguese (BP). This study illustrates the need for text simplification to facilitate accessibility to information by poor readers and by people with cognitive disabilities. It also highlights features of simplification for BP, which may differ from other languages. Moreover, we propose simplification strategies and a Simplification Annotation Editor. This study consists of the first step towards building BP text simplification systems. One of the scenarios in which these systems could be used is that of reading electronic texts produced, e.g., by the Brazilian government or by news agencies. |
BibTeX:
@inproceedings{SIGDOC_2008, author = {S. M. Aluísio and L. Specia and T. A. S. Pardo and E. G. Maziero and H. M. Caseli and R. Fortes}, title = {A Corpus Analysis of Simple Account Texts and the Proposal of Simplification Strategies: First Steps towards Text Simplification Systems}, booktitle = {Proceedings of the International Conference on Design of Communication (SIGDOC)}, year = {2008}, pages = {15-22} } |
Caseli, H.M., Gomes, F.T., Pardo, T.A.S. & Nunes, M.G.V. (2008), "VisualLIHLA: the visual online tool for lexical alignment", In Proceedings of the VI Workshop em Tecnologia da Informação e da Linguagem Humana (TIL). Vila Velha, ES. October 2008., pp. 1-3. |
Abstract: This paper presents a freely available online lexical alignment tool based on the LIHLA lexical aligner. LIHLA aligns tokens, words and multiword units based on language-independent heuristics (cognates, position, etc.) and automatically built language-dependent resources (bilingual dictionaries). VisualLIHLA allows the online usage, visualization and download of the lexical alignments produced by LIHLA with 84--92% of precision and 76--91% of recall. |
BibTeX:
@inproceedings{TIL_2008, author = {H. M. Caseli and F. T. Gomes and T. A. S. Pardo and M. G. V. Nunes}, title = {VisualLIHLA: the visual online tool for lexical alignment}, booktitle = {Proceedings of the VI Workshop em Tecnologia da Informação e da Linguagem Humana (TIL)}, year = {2008}, pages = {1-3} } |
Caseli, H.M. & Nunes, M.G.V. (2008), "Automatic induction of bilingual resources for machine translation: the ReTraTos project", In Proceedings of the VI Concurso de Teses e Dissertações em Inteligência Artificial (CTDIA) - Menção Honrosa. Salvador, BA. October 2008., pp. 1-10. |
Abstract: Machine translation (MT) is one of the oldest and greatest areas of Natural Language Processing (NLP) and its relevance has increased a lot in the last years due to the multilingual Web. However, to perform MT task, mainly rule-based MT (RBMT), it is necessary some linguistic resources (bilingual single-word and multi-word correspondences, translation rules, etc.) which demand extensive manual work to be built. This paper describes a methodology to build automatically both bilingual dictionaries and shallow-transfer rules by extracting knowledge from word-aligned parallel corpora. We show experiments for Brazilian Portuguese--Spanish and Brazilian Portuguese--English parallel texts. The results show that the proposed methodology can enable a rapid creation of valuable computational resources for machine translation and other NLP tasks. |
BibTeX:
@inproceedings{CTDIA_2008, author = {H. M. Caseli and M. G. V. Nunes}, title = {Automatic induction of bilingual resources for machine translation: the ReTraTos project}, booktitle = {Proceedings of the VI Concurso de Teses e Dissertações em Inteligência Artificial (CTDIA) - Menção Honrosa}, year = {2008}, pages = {1-10} } |
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2008), "On the Automatic Learning of Bilingual Resources: Some Relevant Factors for Machine Translation", In Proceedings of the 19th Brazilian Symposium on Artificial Intelligence (SBIA). Salvador, BA. October 2008. Volume 5249(1), pp. 258-267. Springer Berlin / Heidelberg. |
Abstract: In this paper we present experiments concerned with automatically learning bilingual resources for machine translation: bilingual dictionaries and transfer rules. The experiments were carried out with Brazilian Portuguese (pt), English (en) and Spanish (es) texts in two parallel corpora: pt--en and pt--es. They were designed to investigate the relevance of two factors in the induction process, namely: (1) the coverage of linguistic resources used when preprocessing the training corpora and (2) the maximum length threshold (for transfer rules) used in the induction process. From these experiments, it is possible to conclude that both factors have an influence in the automatic learning of bilingual resources. |
BibTeX:
@inproceedings{SBIA_2008, author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada}, title = {On the Automatic Learning of Bilingual Resources: Some Relevant Factors for Machine Translation}, booktitle = {Proceedings of the 19th Brazilian Symposium on Artificial Intelligence (SBIA)}, publisher = {Springer Berlin / Heidelberg}, year = {2008}, volume = {5249}, number = {1}, pages = {258-267}, doi = {http://doi.org/10.1007/978-3-540-88190-2} } |
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2008), "From free shallow monolingual resources to machine translation systems: easing the task", In Proceedings of the Workshop on Mixing Approaches to Machine Translation (MATMT08). San Sebastian, Spain. 14th February 2008. Volume 1, pp. 41-48. |
Abstract: The availability of machine-readable bilingual linguistic resources is crucial not only for machine translation but also for other applications such as cross-lingual information retrieval. However, the building of such resources demands extensive manual work. This paper describes a methodology to build automatically bilingual dictionaries and transfer rules by extracting knowledge from word-aligned parallel corpora processed with free shallow monolingual resources (morphological analysers and part-of-speech taggers). Experiments for Brazilian Portuguese--Spanish and Brazilian Portuguese--English parallel texts have shown promising results. |
BibTeX:
@inproceedings{MATMT_2008, author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada}, title = {From free shallow monolingual resources to machine translation systems: easing the task}, booktitle = {Proceedings of the Workshop on Mixing Approaches to Machine Translation (MATMT08)}, year = {2008}, volume = {1}, pages = {41-48}, url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2008/MATMT2008.pdf} } |
Caseli, H.M., Pereira, T.F. & Aluísio, S.M. (2008), "Editor de Anotação de Simplificação: Manual do Usuário (NILC-TR-08-10)". Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC), 2008. |
BibTeX:
@techreport{Manual_Editor_2008, author = {H. M. Caseli and T. F. Pereira and S. M. Aluísio}, title = {Editor de Anotação de Simplificação: Manual do Usuário (NILC-TR-08-10)}, school = {Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)}, year = {2008}, note = {17 p.}, url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2008/NILC-TR-08-10.pdf} } |
2007 |
Caseli, H.M. (2007), "Indução de léxicos bilíngües e regras para a tradução automática". School: Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP)., Maio, 2007. |
Abstract: Machine Translation (MT) -- the translation of a natural (source) language into another (target) by means of computer programs -- is a hard task, mainly due to the need of deep linguistic knowledge about the two (or more) languages required to build resources such as translation grammars, bilingual dictionaries, etc. The scarcity of linguistic resources or even the difficulty to build them often limits the use of MT systems, for example, to certain application domains. In this context, several methods have been proposed aiming at generating linguistic knowledge automatically from multilingual resources, so that building translation tools becomes less hard. The ReTraTos project presented in this document is one of these proposals and aims at inducing translation lexicons and transfer rules automatically from PoS-tagged and lexically aligned translation examples for Portuguese--Spanish and Portuguese--English language pairs. The rule induction system brings forth a new approach, in which translation examples are split into alignment blocks and induction is performed for each type of block separately. Another new feature of this system is a more elaborate strategy for filtering the induced rules. Besides the translation lexicon and the transfer rule induction systems, we also implemented a MT module for validating the induced resources. The induced translation lexicons were evaluated intrinsically and the results obtained agree with those reported on the literature. The induced translation rules were evaluated directly and indirectly by the MT module, and improved the word-by-word translation in both directions (source--target and target--source) for the languages under study. The target sentences obtained by the induced resources were also compared to those generated by commercial systems, showing better results for Portuguese--Spanish than for Portuguese--English. |
BibTeX:
@phdthesis{Tese_2007, author = {H. M. Caseli}, title = {Indução de léxicos bilíngües e regras para a tradução automática}, school = {Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP)}, year = {2007}, note = {158 p.} } |
Caseli, H.M. & Nunes, M.G.V. (2007), "Automatic induction of bilingual lexicons for machine translation", International Journal of Translation. Vol. 19, pp. 29-43. |
Abstract: Translation lexicons are one of the most important linguistic resources for machine translation. However, this bilingual set of word and multiword correspondences requires a lot of manual work to be built. This paper describes a method to automatically build translation lexicons. The lexicons are built by extracting knowledge from PoS-tagged and lexically aligned parallel corpora. Preliminary experiments were carried out on Brazilian Portuguese, Spanish and English parallel texts. The results of a manual analysis showed that 85% of pt-es and 89% of pt-en entries are plausible correspondences. These results were obtained taking into consideration only the classes of entries which achieved the best results. Target sentences were generated using all induced entries. These sentences were compared with target sentences generated by commercial systems. This comparison emphasizes the relevance of translation lexicons in machine translation, mainly in Portuguese-Spanish. |
BibTeX:
@article{InternationalJournalofTranslation_2007, author = {H. M. Caseli and M. G. V. Nunes}, title = {Automatic induction of bilingual lexicons for machine translation}, journal = {International Journal of Translation}, year = {2007}, volume = {19}, pages = {29-43} } |
Caseli, H.M. & Nunes, M.G.V. (2007), "Automatic induction of translation lexicons from aligned parallel corpora", In Proceedings of the V Workshop em Tecnologia da Informação e da Linguagem Humana (TIL). Rio de Janeiro, RJ., pp. 1669-1678. |
Abstract: Translation lexicons are one of the most important linguistic resources for machine translation. However, this bilingual set of word and multiword correspondences requires a lot of manual work to be built. This paper describes a method to automatically build translation lexicons by extracting knowledge from PoS-tagged and lexically aligned parallel corpora. Preliminary experiments were carried out on Brazilian Portuguese (pt), Spanish (es) and English (en) parallel texts. The results showed that 85% of pt--es and 89% of pt--en entries are plausible correspondences. These results were obtained taking into consideration only the classes of entries which achieved the best results. |
BibTeX:
@inproceedings{TIL_ReTraTos_2007, author = {H. M. Caseli and M. G. V. Nunes}, title = {Automatic induction of translation lexicons from aligned parallel corpora}, booktitle = {Proceedings of the V Workshop em Tecnologia da Informação e da Linguagem Humana (TIL)}, year = {2007}, pages = {1669-1678} } |
Gomes, F., Pardo, T.A.S. & Caseli, H.M. (2007), "VisualTCA: Uma Ferramenta Visual On-line para Alinhamento Sentencial de Textos Paralelos", In Proceedings of the V Workshop em Tecnologia da Informação e da Linguagem Humana (TIL). Rio de Janeiro, RJ., pp. 1729-1732. |
Abstract: Apresenta-se, neste artigo, uma ferramenta visual on-line para alinhamento sentencial de textos paralelos, independentes de sua língua. Descrevem-se o funcionamento e as capacidades da ferramenta, assim como suas possíveis aplicações. |
BibTeX:
@inproceedings{TIL_TCA_2007, author = {F. Gomes and T. A. S. Pardo and H. M. Caseli}, title = {VisualTCA: Uma Ferramenta Visual On-line para Alinhamento Sentencial de Textos Paralelos}, booktitle = {Proceedings of the V Workshop em Tecnologia da Informação e da Linguagem Humana (TIL)}, year = {2007}, pages = {1729-1732} } |
2006 |
Caseli, H.M. & Nunes, M.G.V. (2006), "Anali: uma ferramenta de análise morfossintática (NILC-TR-06-09)". Instituto de Ciências Matemáticas e de Computação (ICMC-USP)Instituto de Ciências Matemáticas e de Computação (ICMC-USP), Technical Report 285, 2006. |
Abstract: Este relatório apresenta a ferramenta de análise morfossintática anali, a qual foi desenvolvida no NILC (Núcleo Interinstitucional de Lingüística Computacional) como resultado da união de outras duas ferramentas de Processamento de Língua Natural: o etiquetador MXPOST e a ferramenta de análise de corpus Unitex. Nesse sentido, anali representa um ganho em relação ao que é produzido pelas ferramentas citadas, em dois sentidos. Por um lado, enriquece a saída de MXPOST inserindo mais informação a respeito da análise retornada por esse etiquetador; e, por outro, desambigua a saída de Unitex ao definir qual das várias análises existentes em seus dicionários eletrônicos é a melhor, em cada caso. Além disso, anali pode operar em três modos distintos: etiquetação (com base apenas na saída de MXPOST), análise morfossintática (com base apenas na saída de Unitex) ou ambos. |
BibTeX:
@techreport{Anali_2006, author = {H. M. Caseli and M. G. V. Nunes}, title = {Anali: uma ferramenta de análise morfossintática (NILC-TR-06-09)}, school = {Instituto de Ciências Matemáticas e de Computação (ICMC-USP)}, year = {2006}, number = {285}, note = {44 p.}, url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2006/NILC-TR-06-09.pdf} } |
Caseli, H.M. & Nunes, M.G.V. (2006), "Automatic transfer rule induction from parallel corpora", In Proceedings of the 3rd Workshop on MSc dissertations and PhD thesis in Artificial Intelligence (WTDIA) - International Joint Conference IBERAMIA/SBIA/SBRN 2006. Ribeirão Preto, SP., pp. 1-10. |
Abstract: Recently, many projects have been proposed aiming at automatically transforming the multilingual information available on parallel texts into linguistic knowledge useful for machine translation. This paper describes an ongoing PhD project in which the main goal is to automatically induce transfer rules and bilingual dictionaries from part-of-speech tagged and lexically aligned parallel corpora. The final goal of this project is to use the induced rules and bilingual entries to translate from (to) Brazilian Portuguese to (from) Spanish and English. |
BibTeX:
@inproceedings{WTDIA_2006, author = {H. M. Caseli and M. G. V. Nunes}, title = {Automatic transfer rule induction from parallel corpora}, booktitle = {Proceedings of the 3rd Workshop on MSc dissertations and PhD thesis in Artificial Intelligence (WTDIA) - International Joint Conference IBERAMIA/SBIA/SBRN 2006}, year = {2006}, pages = {1-10} } |
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2006), "Automatic induction of bilingual resources from aligned parallel corpora: application to shallow-transfer machine translation", Machine Translation. Vol. 20, pp. 227-245. |
Abstract: The availability of machine-readable bilingual linguistic resources is crucial not only for rule-based machine translation but also for other applications such as cross-lingual information retrieval. However, the building of such resources (bilingual single-word and multi-word correspondences, translation rules) demands extensive manual work, and, as a consequence, bilingual resources are usually more difficult to find than "shallow" monolingual resources such as morphological dictionaries or part-of-speech taggers, especially when they involve a less-resourced language. This paper describes a methodology to build automatically both bilingual dictionaries and shallow-transfer rules by extracting knowledge from word-aligned parallel corpora processed with shallow monolingual resources (morphological analysers, and part-of-speech taggers). We show experiments for Brazilian Portuguese--Spanish and Brazilian Portuguese--English parallel texts. The results show that the proposed methodology can enable a rapid creation of valuable computational resources (bilingual dictionaries and shallow-transfer rules) for machine translation and other Natural Language Processing tasks). |
BibTeX:
@article{MachineTranslation_2006, author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada}, title = {Automatic induction of bilingual resources from aligned parallel corpora: application to shallow-transfer machine translation}, journal = {Machine Translation}, year = {2006}, volume = {20}, pages = {227-245} } |
2005 |
Caseli, H.M. & Nunes, M.G.V. (2005), "Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática", Estudos Lingüísticos. Vol. 34, pp. 356-361. |
Abstract: Parallel texts - texts in one language and their translation in other - and aligned parallel texts - with identification of translation correspondences - are becoming more and more important for many NLP applications, mainly, machine translation. In this paper we describe some experiments carried out on sentence and lexical alignment of Portuguese-English parallel texts from differents genres: scientific, law and journalistic. The linguistic and computational resources and the knowledge derived from these experiments are very important for future work in machine translation field. |
BibTeX:
@article{EstudosLinguisticos_2005, author = {H. M. Caseli and M. G. V. Nunes}, title = {Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática}, journal = {Estudos Lingüísticos}, year = {2005}, volume = {34}, pages = {356-361} } |
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2005), "Evaluating the LIHLA lexical aligner on Spanish, Brazilian Portuguese and Basque parallel texts", Procesamiento del Lenguaje Natural. Vol. 35, pp. 237-244. |
BibTeX:
@article{ProcesamientodelLenguajeNatural_2005, author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada}, title = {Evaluating the LIHLA lexical aligner on Spanish, Brazilian Portuguese and Basque parallel texts}, journal = {Procesamiento del Lenguaje Natural}, year = {2005}, volume = {35}, pages = {237-244} } |
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2005), "LIHLA: A lexical aligner based on language-independent heuristics", In Proceedings of the V Encontro Nacional de Inteligência Artificial (ENIA). São Leopoldo, RS., pp. 641-650. |
Abstract: Alignment of words and multiword units plays an important role in many natural language processing applications, such as example-based machine translation, transfer rule learning for machine translation, bilingual lexicography, word sense disambiguation, etc. In this paper we describe LIHLA, a lexical aligner which uses bilingual probabilistic lexicons generated by a freely available set of tools (NATools) and language-independent heuristics to find links between single words and multiword units in Brazilian Portuguese, Spanish and English parallel texts. The method has achieved a precision of 92.48% and 84.35% and a recall of 88.32% and 76.39% on Brazilian Portuguese--Spanish and Brazilian Portuguese--English parallel texts, respectively. |
BibTeX:
@inproceedings{ENIA_2005, author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada}, title = {LIHLA: A lexical aligner based on language-independent heuristics}, booktitle = {Proceedings of the V Encontro Nacional de Inteligência Artificial (ENIA)}, year = {2005}, pages = {641-650} } |
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2005), "LIHLA: Shared task system description", In Proceedings of the ACL Workshop on Building and Using Parallel Texts. Ann Arbor, Michigan., pp. 111-114. |
BibTeX:
@inproceedings{ACL_2005, author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada}, title = {LIHLA: Shared task system description}, booktitle = {Proceedings of the ACL Workshop on Building and Using Parallel Texts}, year = {2005}, pages = {111-114} } |
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2005), "O Alinhador Lexical LIHLA: Experimentos com o Português do Brasil", In Caderno de resumos do V Encontro de Corpora., pp. 21-22. |
BibTeX:
@inproceedings{EncontroCorpora_2005, author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada}, title = {O Alinhador Lexical LIHLA: Experimentos com o Português do Brasil}, booktitle = {Caderno de resumos do V Encontro de Corpora}, year = {2005}, pages = {21-22} } |
Caseli, H.M., Scalco, M.A.G. & Nunes, M.G.V. (2005), "Manual para a marcação de alinhamentos lexicais (NILC-TR-05-09)". Instituto de Ciências Matemáticas e de Computação (ICMC-USP)Instituto de Ciências Matemáticas e de Computação (ICMC-USP), Technical Report 256, 2005. |
Abstract: Este relatório apresenta as diretrizes definidas, no âmbito do projeto ReTraTos, para o processo de alinhamento lexical de textos paralelos escritos em Português do Brasil, Espanhol e Inglês. Os textos paralelos e sua versão alinhada são, ambos, de grande importância para diversas aplicações de Processamento de Línguas Naturais (PLN), como: aprendizado de regras de tradução (objetivo do projeto ReTraTos), Example-Based Machine Translation (EBMT), Statistical Machine Translation (SMT), extração de léxicos bilíngües, desambiguação lexical de sentido, entre outras. As diretrizes aqui apresentadas possibilitaram a criação de córpus paralelos alinhados lexicalmente que seguem padrões bem definidos eliminando, assim, um grande número de ambigüidades inerentes do processo de alinhamento. Tanto os córpus quanto as diretrizes produzidos neste trabalho poderão ser utilizados em projetos futuros para a produção de ferramentas e recursos para o Processamento de Linguagem Natural. In this technical report we present some guidelines defined during ReTraTos project for lexical alignment of Brazilian Portuguese, Spanish and English parallel texts. Parallel texts and their aligned version play an important role in many Natural Language Processing (NLP) applications, such as: transfer rule learning for machine translation (ReTraTos project's goal), Example-Based Machine Translation (EBMT), Statistical Machine Translation (SMT), bilingual lexicography, and word sense disambiguation, among others. By using these guidelines lexically aligned parallel corpora can be built following well-defined standards and avoiding, in this way, a lot of ambiguities inherent in the alignment process. The corpora and guidelines produced in this work can be used in future projects for building NLP tools and resources. |
BibTeX:
@techreport{Manual_marcacao_alinhamento_2005, author = {H. M. Caseli and M. A. G. Scalco and M. G. V. Nunes}, title = {Manual para a marcação de alinhamentos lexicais (NILC-TR-05-09)}, school = {Instituto de Ciências Matemáticas e de Computação (ICMC-USP)}, year = {2005}, number = {256}, note = {21 p.}, url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2005/NILC-TR-05-09.pdf} } |
2004 |
Caseli, H.M. (2004), "Regras de tradução automática induzidas de textos paralelos envolvendo o português do Brasil", printed. Agosto, 2004. |
Abstract: A Tradução Automática - tradução de uma língua natural (fonte) para outra (alvo) por meio de programas de computador - é uma tarefa árdua devido, principalmente, à necessidade de um conhecimento lingüístico aprofundado das duas (ou mais) línguas envolvidas para a criação de recursos como gramáticas de tradução, léxicos bilíngües, etc. Nos últimos anos, diversos trabalhos têm surgido com o intuito de diminuir o esforço no desenvolvimento de recursos para a tradução automática por meio da extração automática de conhecimento a partir de córpus paralelos alinhados, um tipo de recurso lingüístico que vem se tornando cada vez mais disponível na web, atualmente. Assim, o projeto ReTraTos, apresentado neste documento, visa a indução de regras de tradução a partir de córpus paralelos alinhados sentencialmente usando técnicas de Aprendizado de Máquina e EBMT (Example Based Machine Translation). Este é o primeiro trabalho, nesta área, envolvendo o português do Brasil (PB) e as regras de tradução serão induzidas de córpus paralelos PB- inglês e PB-espanhol. As regras induzidas poderão ser usadas em um sistema de tradução automática indireta por transferência para traduzir sentenças na língua fonte para sentenças na língua alvo. Machine Translation - translation from one natural language (source) into another (target) by means of computer programs - is a hard task mainly due to the need of comprehensive linguistic knowledge concerning the two (or more) languages involved with which to create resources such as translation grammars, bilingual lexicons, etc. In the latest years, much work has been carried out with a focus on diminishing efforts in the development of machine translation resources by means of automatic knowledge extration from aligned parallel corpora, a kind of linguistic resource that is currently becoming more and more available on the web. Thus, project ReTraTos, presented in this document, aims at the induction of translation rules from sentence-aligned parallel corpora using Machine Learning and EBMT (Example Based Machine Translation) techniques. This is the first work in this area for Brazilian Portuguese (BP) and the translation rules will be induced from BP-English and BP-Spanish parallel corpora. The induced rules could be used in a trans fer-based machine translation system to translate sentences from a source language into a target language. |
BibTeX:
@misc{QualiDoc_2004, author = {H. M Caseli}, title = {Regras de tradução automática induzidas de textos paralelos envolvendo o português do Brasil}, howpublished = {printed}, year = {2004}, note = {QualiDoc_2004}, url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2004/QualiDoutorado.pdf} } |
Caseli, H.M. & Nunes, M.G.V. (2004), "Alinhamento sentencial e lexical de córpus paralelos: recursos para a tradução automática", In Caderno de resumos do 52º Seminário do GEL - Simpósio de Perspectivas com Córpus para Tradução e Terminologia: Projetos de Pesquisa e Ferramentas. Campinas, SP., pp. 369-370. |
BibTeX:
@inproceedings{GEL_2004, author = {H. M. Caseli and M. G. V. Nunes}, title = {Alinhamento sentencial e lexical de córpus paralelos: recursos para a tradução automática}, booktitle = {Caderno de resumos do 52º Seminário do GEL - Simpósio de Perspectivas com Córpus para Tradução e Terminologia: Projetos de Pesquisa e Ferramentas}, year = {2004}, pages = {369-370} } |
Caseli, H.M. & Nunes, M.G.V. (2004), "Corpus paralelo e corpus paralelo alinhado: propriedades e aplicações", Estudos Lingüísticos. Vol. 33, pp. 581-586. |
Abstract: Parallel texts - texts in one language and their translation in other - and aligned parallel texts - with identification of translation correspondences - are very important in many applications such as machine translation. In this paper we d escribe four Brazilian Portuguese and English parallel corpora, their sentence aligned version and some applications. |
BibTeX:
@article{EstudosLinguisticos_2004, author = {H. M. Caseli and M. G. V. Nunes}, title = {Corpus paralelo e corpus paralelo alinhado: propriedades e aplicações}, journal = {Estudos Lingüísticos}, year = {2004}, volume = {33}, pages = {581-586} } |
Caseli, H.M., Silva, A.M.P. & Nunes, M.G.V. (2004), "Evaluation of Methods for Sentence and Lexical Alignment of Brazilian Portuguese and English Parallel Texts", In Proceedings of the XVII Brazilian Symposium on Artificial Intelligence (SBIA) - Lecture Notes on Artificial Intelligence. São Luís, MA. Volume 3171, pp. 184-193. |
Abstract: Parallel texts, i.e., texts in one language and their translations to other languages, are very useful nowadays for many applications such as machine translation and multilingual information retrieval. If these texts are aligned in a sentence or lexical level their relevance increases considerably. In this paper we describe some experiments that have being carried out with Brazilian Portuguese and English parallel texts by the use of well known alignment methods: five methods for sentence alignment and two methods for lexical alignment. Some linguistic resources were built for these tasks and they are also described here. The results have shown that sentence alignment methods achieved 85.89% to 100% precision and word alignment methods, 51.84% to 95.61% on corpora from different genres. |
BibTeX:
@inproceedings{SBIA_2004, author = {H. M. Caseli and A. M. P. Silva and M. G. V. Nunes}, title = {Evaluation of Methods for Sentence and Lexical Alignment of Brazilian Portuguese and English Parallel Texts}, booktitle = {Proceedings of the XVII Brazilian Symposium on Artificial Intelligence (SBIA) - Lecture Notes on Artificial Intelligence}, year = {2004}, volume = {3171}, pages = {184-193} } |
2003 |
Caseli, H.M. (2003), "Corpus Paralelo e Corpus Paralelo Alinhado: Propriedades e Aplicações", In Caderno de Resumos do 51º Semiário do GEL - Comunicação Coordenada: Lingüística de Corpus - construção de corpora para análise lingüística e treinamento de ferramentas de processamento de língua natural. Taubaté, SP., pp. 209-209. |
BibTeX:
@inproceedings{GEL_2003, author = {H. M. Caseli}, title = {Corpus Paralelo e Corpus Paralelo Alinhado: Propriedades e Aplicações}, booktitle = {Caderno de Resumos do 51º Semiário do GEL - Comunicação Coordenada: Lingüística de Corpus - construção de corpora para análise lingüística e treinamento de ferramentas de processamento de língua natural}, year = {2003}, pages = {209-209} } |
Caseli, H.M. (2003), "Alinhamento sentencial de textos paralelos português-inglês". School: Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP)., Fevereiro, 2003. |
Abstract: Esta dissertação relata o primeiro trabalho de pesquisa em alinhamento automático de textos paralelos envolvendo o português brasileiro (PB). Neste trabalho foram implementados cinco métodos de alinhamento sentencial automático bastante referenciados na literatura, incluindo métodos empíricos, lingüísticos e híbridos, avaliados com textos paralelos PB-inglês. Os resultados mostraram-se compatíveis com os relatados para outros pares de línguas, sendo que as maiores precisões (acima de 94%) foram obtidas em corpora sem ruídos (sem erros gramaticais e de tradução), conforme era esperado. Além disso, os resultados apontam muita semelhança no desempenho de todos os métodos, o que impossibilita a eleição de um deles como o melhor. Além da implementação dos métodos de alinhamento sentencial e dos corpora paralelos construídos para avaliá-los, outros recursos lingüísticos e computacionais de grande valor para as pesquisas em PLN foram gerados durante este trabalho. |
BibTeX:
@mastersthesis{Dissertacao_2003, author = {H. M. Caseli}, title = {Alinhamento sentencial de textos paralelos português-inglês}, school = {Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP)}, year = {2003}, note = {101 p.} } |
Caseli, H.M. & Nunes, M.G.V. (2003), "Evaluation of Sentence Alignment Methods for Brazilian Portuguese and English Parallel Texts", In Proceedings of the IV Encontro Nacional de Inteligência Artificial (ENIA). Campinas, SP., pp. 1916-1925. |
Abstract: Parallel texts - texts in one language and their translation in other - are becoming plentiful and available nowadays on the WWW. Aligning these texts means to find the correspondences between them in sentence or word level. In this paper we describe some experiments done with two sentence alignment methods - Gale and Church's method [Gale and Church 1991], [Gale and Church 1993] and Geometric Mapping and Alignment (GMA) [Melamed 1996a], [Melamed 2000] - for Brazilian Portuguese and English parallel texts. The results show that both methods performed very well, but, as already evidenced in other experiments, GMA had a better performance with precision of 96-99%. |
BibTeX:
@inproceedings{ENIA_2003, author = {H. M. Caseli and M. G. V. Nunes}, title = {Evaluation of Sentence Alignment Methods for Brazilian Portuguese and English Parallel Texts}, booktitle = {Proceedings of the IV Encontro Nacional de Inteligência Artificial (ENIA)}, year = {2003}, pages = {1916-1925} } |
Caseli, H.M. & Nunes, M.G.V. (2003), "Evaluation of Sentence Alignment Methods on Portuguese-English Parallel Texts", Scientia. Vol. 14(2), pp. 223-238. |
Abstract: Parallel texts, i.e., texts in one language and their translations to other languages, are very useful nowadays for many applications such as machine translation and multilingual information retrieval. If these texts are aligned in sentence level, for instance, their relevance increases considerably. In this paper we describe some experiments that have being done with Portuguese and English parallel texts using five well known sentence alignment methods. Four corpora were used for testing, achieving 85.89% to 100% of precision. |
BibTeX:
@article{Scientia_2003, author = {H. M. Caseli and M. G. V. Nunes}, title = {Evaluation of Sentence Alignment Methods on Portuguese-English Parallel Texts}, journal = {Scientia}, year = {2003}, volume = {14}, number = {2}, pages = {223-238} } |
Caseli, H.M. & Nunes, M.G.V. (2003), "Sentence Alignment of Brazilian Portuguese and English Parallel Texts", In Proceedings of the Argentine Symposium on Artificial Intelligence (ASAI). Buenos Aires, Argentine., pp. 1-11. |
Abstract: Parallel texts - texts in one language and their translations to other languages - are becoming more and more available nowadays on the Web. Aligning these texts means to find some correspondence between them, in sentence level, for instance. In this paper we describe some experiments done with Brazilian Portuguese and English parallel texts using five well known sentence alignment methods. The results show that most of them performed very well on the four corpora used for testing, with 85.89%-100% of precision. |
BibTeX:
@inproceedings{ASAI_2003, author = {H. M. Caseli and M. G. V. Nunes}, title = {Sentence Alignment of Brazilian Portuguese and English Parallel Texts}, booktitle = {Proceedings of the Argentine Symposium on Artificial Intelligence (ASAI)}, year = {2003}, pages = {1-11} } |
2002 |
Caseli, H.M. (2002), "Alinhamento sentencial de textos paralelos Português-Inglês". Fevereiro, 2002. |
Abstract: A comunicação visando a troca de conhecimentos é uma das atividades mais importantes no cenário mundial atual. Contudo, essa comunicação sofre constantemente restrições relacionadas às diferentes línguas existentes. A superação dessa barreira lingüística é um dos objetivos dos trabalhos na área de Processamento de Línguas Naturais. O projeto aqui descrito está inserido nesse contexto e pretende trabalhar em um dos campos de PLN que mais se desenvolvem atualmente: o alinhamento de textos paralelos (textos acompanhados de sua tradução). Esse projeto propõe a análise de metodologias e técnicas de alinhamento sentencial de textos paralelos para um corpus inglês-português do Brasil; a implementação de protótipos utilizando os resultados dessa análise; e a avaliação dos resultados obtidos. |
BibTeX:
@misc{QualiMest_2002, author = {H. M. Caseli}, title = {Alinhamento sentencial de textos paralelos Português-Inglês}, year = {2002} } |
Caseli, H.M., Feltrim, V.D. & Nunes, M.G.V. (2002), "TagAlign: Uma ferramenta de pré-processamento de textos (NILC-TR-02-09)". Instituto de Ciências Matemáticas e de Computação (ICMC-USP)Instituto de Ciências Matemáticas e de Computação (ICMC-USP), Technical Report 169, 2002. |
Abstract: Neste relatório é apresentada a descrição da ferramenta NILC TagAlign. Essa ferramenta possui duas funcionalidades básicas: a marcação de partes específicas do texto com etiquetas pré-definidas pelo usuário ou pelo sistema e o alinhamento de textos paralelos utilizando um módulo de suporte ao usuário. O alinhamento automático de textos paralelos também é uma funcionalidade prevista para essa ferramenta. A TagAlign processa textos no formato .txt e gera saídas também com o mesmo formato. As saídas podem ser o texto de entrada marcado ou desmarcado, dois textos paralelos alinhados ou apenas as sentenças alinhadas dos textos paralelos. |
BibTeX:
@techreport{TagAlign_2002, author = {H. M. Caseli and V. D. Feltrim and M. G. V. Nunes}, title = {TagAlign: Uma ferramenta de pré-processamento de textos (NILC-TR-02-09)}, school = {Instituto de Ciências Matemáticas e de Computação (ICMC-USP)}, year = {2002}, number = {169}, url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2002/NILC-TR-02-09.pdf} } |
Caseli, H.M. & Nunes, M.G.V. (2002), "A construção dos recursos lingüísticos do projeto PESA (NILC-TR-02-07)". Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC), 2002. |
Abstract: A utilização de recursos lingüísticos em projetos na área de Processamento de Linguagem Natural (PLN), em muitos casos, é indispensável e, na maioria das vezes, exige um esforço de construção bastante grande. Este relatório apresenta o processo de construção (ou preparação) dos recursos lingüísticos necessários para o projeto PESA (Portuguese-English Sentence Alignment), que visa estudar, implementar e avaliar diversas técnicas de alinhamento sentencial de textos paralelos. Para isso foram construídos vários corpora - de teste e de referência - e uma lista de palavras âncoras, apresentados neste relatório. |
BibTeX:
@techreport{PESA_Recursos_2002, author = {H. M. Caseli and M. G. V. Nunes}, title = {A construção dos recursos lingüísticos do projeto PESA (NILC-TR-02-07)}, school = {Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)}, year = {2002}, url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2002/NILC-TR-02-07.pdf} } |
Caseli, H.M. & Nunes, M.G.V. (2002), "Alinhamento Sentencial de Textos Paralelos Português-Inglês", In Anais do VII Simpósio de Teses e Dissertações - II Workshop de Teses e Dissertações em Andamento (WTDA). São Carlos, SP., pp. 1-3. |
BibTeX:
@inproceedings{WTDA_2002, author = {H. M. Caseli and M. G. V. Nunes}, title = {Alinhamento Sentencial de Textos Paralelos Português-Inglês}, booktitle = {Anais do VII Simpósio de Teses e Dissertações - II Workshop de Teses e Dissertações em Andamento (WTDA)}, year = {2002}, pages = {1-3} } |
Caseli, H.M. & Nunes, M.G.V. (2002), "Alinhamento sentencial de textos paralelos: implementação e avaliação de métodos empíricos para o português do Brasil (NILC-TR-02-19)". Instituto de Ciências Matemáticas e de Computação (ICMC-USP)Instituto de Ciências Matemáticas e de Computação (ICMC-USP), Technical Report 176, 2002. |
BibTeX:
@techreport{PESA_Alinhamento_2002, author = {H. M. Caseli and M. G. V. Nunes}, title = {Alinhamento sentencial de textos paralelos: implementação e avaliação de métodos empíricos para o português do Brasil (NILC-TR-02-19)}, school = {Instituto de Ciências Matemáticas e de Computação (ICMC-USP)}, year = {2002}, number = {176}, url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2002/NILC-TR-02-19.pdf} } |
Caseli, H.M. & Nunes, M.G.V. (2002), "O projeto PESA: Alinhamento Sentencial de Textos Paralelos Português-Inglês", In Proceedings of the I Workshop de Teses e Dissertações em Inteligência Artificial (WTDIA)., pp. 1-10. |
Abstract: O alinhamento sentencial de textos paralelos é uma subárea de PLN (Processamento de Língua Natural) que vem despertando o interesse da comunidade científica devido, principalmente, ao grande número de aplicações para as quais pode ser útil. Nesse contexto está inserido o PESA (Portuguese-English Sentence Alignment), um projeto que visa estudar, implementar e avaliar diferentes técnicas de alinhamento sentencial de textos paralelos escritos em português brasileiro e em inglês. Trata-se do primeiro projeto dessa natureza a envolver o português brasileiro. Além de apresentar as características do PESA e suas etapas, este artigo demonstra a relevância desse projeto enfatizando as contribuições por ele geradas. |
BibTeX:
@inproceedings{WTDIA_2002, author = {H. M. Caseli and M. G. V. Nunes}, title = {O projeto PESA: Alinhamento Sentencial de Textos Paralelos Português-Inglês}, booktitle = {Proceedings of the I Workshop de Teses e Dissertações em Inteligência Artificial (WTDIA)}, year = {2002}, pages = {1-10} } |
2001 |
Martins, M.S., Caseli, H.M. & Nunes, M.G.V. (2001), "A construção de um corpus de textos paralelos inglês-português (NILC-TR-01-05)". Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC), 2001. |
Abstract: Neste relatório é descrito o processo de construção de um corpus bilíngüe inglês-português brasileiro, composto por resumos de teses, dissertações, monografias e artigos da área de computação, para o estudo de técnicas e metodologias de alinhamento de textos paralelos. |
BibTeX:
@techreport{Corpus_2001, author = {M. S. Martins and H. M. Caseli and M. G. V. Nunes}, title = {A construção de um corpus de textos paralelos inglês-português (NILC-TR-01-05)}, school = {Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)}, year = {2001}, url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2001/NILC-TR-01-05.pdf} } |