Busca:   Encontradas: 0.

Configurar Busca

2015

Candido Junior, A., Magalhães, C., Caseli, H.M. & Zangirolami, R. (2015), "Topic Modeling for Keyword Extraction: using Natural Language Processing methods for keyword extraction in Portal Min@s", Revista de Estudos da Linguagem. Vol. 23(3), pp. 695-726.
Abstract: Este artigo tem o objetivo da avaliar a aplicação de dois métodos automáticos eficientes na extração de palavras-chave, usados pelas comunidades da Linguística de Corpus e do Processamento da Língua Natural para gerar palavras-chave de textos literários: o WordSmith Tools e o Latent Dirichlet Allocation (LDA). As duas ferramentas escolhidas para este trabalho têm suas especificidades e técnicas diferentes de extração, o que nos levou a uma análise orientada para a sua performance. Objetivamos entender, então, como cada método funciona e avaliar sua aplicação em textos literários. Para esse fim, usamos análise humana, com conhecimento do campo dos textos usados. O método LDA foi usado para extrair palavras-chave por meio de sua integração com o Portal Min@s: Corpora de Fala e Escrita, um sistema geral de processamento de corpora, concebido para diferentes pesquisas de Linguística de Corpus. Os resultados do experimento confirmam a eficácia do WordSmith Tools e do LDA na extração de palavras-chave de um corpus literário, além de apontar que é necessária a análise humana das listas em um estágio anterior aos experimentos para complementar a lista gerada automaticamente, cruzando os resultados do WordSmith Tools e do LDA. Também indicam que a intuição linguística do analista humano sobre as listas geradas separadamente pelos dois métodos usados neste estudo foi mais favorável ao uso da lista de palavras-chave do WordSmith Tools.
BibTeX:
@article{CandidoJr_etal_RELIN2015,
  author = {Candido Junior, Arnaldo and Magalhães, Célia and Caseli, Helena Medeiros and Zangirolami, Régis},
  title = {Topic Modeling for Keyword Extraction: using Natural Language Processing methods for keyword extraction in Portal Min@s},
  journal = {Revista de Estudos da Linguagem},
  year = {2015},
  volume = {23},
  number = {3},
  pages = {695--726},
  url = {http://www.periodicos.letras.ufmg.br/index.php/relin/article/view/8916}
}
Inácio, M.L. & Caseli, H.M. (2015), "Etiquetação morfossintática de textos em português do Brasil no domínio do e-commerce", In Anais do IV Student Workshop on Information and Human Language Technology., pp. 1-6.
BibTeX:
@inproceedings{Inacio_Caseli_TILIC2015,
  author = {Inácio, Márcio Lima and Caseli, Helena Medeiros},
  title = {Etiquetação morfossintática de textos em português do Brasil no domínio do e-commerce},
  booktitle = {Anais do IV Student Workshop on Information and Human Language Technology},
  year = {2015},
  pages = {1-6},
  url = {http://www.lbd.dcc.ufmg.br/colecoes/tilic/2015/008.pdf}
}
Ito, F.T., Erdmann, H., Takabayashi, D., Santos, D.N. & Moreira, J. (2015), "Preprocessing Images to Improve Deep Neural Networks Classification", In Proceedings of XI Workshop de Visão Computacional. São Carlos, SP. October 2015., pp. 328-333.
BibTeX:
@inproceedings{Ito_etal_WVC_2015,
  author = {Ito, F. T. and Erdmann, H. and Takabayashi, D. and Santos, D. N. and Moreira, J.},
  title = {Preprocessing Images to Improve Deep Neural Networks Classification},
  booktitle = {Proceedings of XI Workshop de Visão Computacional},
  year = {2015},
  pages = {328-333},
  url = {http://wvc2015.eesc.usp.br/Proceedings_WVC2015.pdf}
}
Rondon, A.C., Caseli, H.M. & Ramisch, C. (2015), "Never-Ending Multiword Expressions Learning", In Proceedings of NAACL-HLT 2015. Denver, Colorado. June 2015., pp. 45-53.
BibTeX:
@inproceedings{Rondon_etal_MWE2015,
  author = {Rondon, Alexandre Coelho and Caseli, Helena Medeiros and Ramisch, Carlos},
  title = {Never-Ending Multiword Expressions Learning},
  booktitle = {Proceedings of NAACL-HLT 2015},
  year = {2015},
  pages = {45-53},
  url = {http://www.aclweb.org/anthology/W15-0908}
}
Silva, L.H. & Caseli, H.M. (2015), "Reconhecimento de entidades nomeadas em textos em português do Brasil no domínio do e-commerce", In Anais do IV Student Workshop on Information and Human Language Technology., pp. 1-7.
BibTeX:
@inproceedings{Silva_Caseli_TILIC2015,
  author = {Silva, Lucas Hochleitner and Caseli, Helena Medeiros},
  title = {Reconhecimento de entidades nomeadas em textos em português do Brasil no domínio do e-commerce},
  booktitle = {Anais do IV Student Workshop on Information and Human Language Technology},
  year = {2015},
  pages = {1-7},
  url = {http://www.lbd.dcc.ufmg.br/colecoes/tilic/2015/010.pdf}
}
Teixeira, R.O., Seno, E.R.M. & Caseli, H.M. (2015), "NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases", In Anais do IV Student Workshop on Information and Human Language Technology., pp. 1-5.
BibTeX:
@inproceedings{Teixeira_etal_TILIC2015,
  author = {Teixeira, Rafael Oliveira and Seno, Eloize Rossi Marques and Caseli, Helena Medeiros},
  title = {NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases},
  booktitle = {Anais do IV Student Workshop on Information and Human Language Technology},
  year = {2015},
  pages = {1-5},
  url = {http://www.lbd.dcc.ufmg.br/colecoes/tilic/2015/012.pdf}
}
Volpe, L.H.T. & Caseli, H.M. (2015), "Extração de relações semânticas de textos em português do Brasil no domínio do e-commerce", In Anais do IV Student Workshop on Information and Human Language Technology., pp. 1-7.
BibTeX:
@inproceedings{Volpe_Caseli_TILIC2015,
  author = {Volpe, Leonardo Henrique Tozzatto and Caseli, Helena Medeiros},
  title = {Extração de relações semânticas de textos em português do Brasil no domínio do e-commerce},
  booktitle = {Anais do IV Student Workshop on Information and Human Language Technology},
  year = {2015},
  pages = {1-7},
  url = {http://www.lbd.dcc.ufmg.br/colecoes/tilic/2015/013.pdf}
}

2014

Martins, D.B.J. & Caseli, H.M. (2014), "Automatic machine translation error identification", Machine Translation. Vol. 29(1), pp. 1-24.
Abstract: Although machine translation (MT) has been an object of study for decades now, the texts generated by the state-of-the-art MT systems still present several errors for many language pairs. Aiming at coping with this drawback, lots of efforts have been made to post-edit those errors either manually or automatically. Manual post-editing is more accurate but can be prohibitive when too many changes have to be made. Automatic post-editing demands less effort but can also be less effective and give rise to new errors. A way to avoid unnecessary automatic post-editing and new errors is by previously selecting only the machine-translated segments that really need to be post-edited. Thus, this paper describes the experiments carried out to automatically identify MT errors generated by a state-of-the-art phrase-based statistical MT system. Despite the fact that our experiments have been carried out using a statistical MT engine, we believe the approach can also be applied to other types of MT systems. The experiments investigated the well-known machine-learning algorithms Naive Bayes, Decision Trees and Support Vector Machines. Using the decision tree algorithm it was possible to identify wrong segments with around 77 % precision and recall when a small training corpus of only 2,147 error instances was used. Our experiments were performed on English-to-Brazilian Portuguese MT, and although some of the features are language-dependent, the proposed approach is language-independent and can be easily generalized to other language pairs.
BibTeX:
@article{Martins_Caseli_MT2014,
  author = {Martins, Débora Beatriz Jesus and Caseli, Helena Medeiros},
  title = {Automatic machine translation error identification},
  journal = {Machine Translation},
  year = {2014},
  volume = {29},
  number = {1},
  pages = {1--24},
  url = {http://dx.doi.org/10.1007/s10590-014-9163-y},
  doi = {http://doi.org/10.1007/s10590-014-9163-y}
}
Polastri, P.C., Caseli, H.M. & Seno, E.R.M. (2014), "Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso", In Proceedings of the Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish., pp. 1-6.
BibTeX:
@inproceedings{Polastri_etal_TorPorEsp_2014,
  author = {Polastri, Paulo César and Caseli, Helena Medeiros and Seno, Eloize Rossi Marques},
  title = {Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso},
  booktitle = {Proceedings of the Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish},
  year = {2014},
  pages = {1-6},
  url = {http://www.lbd.dcc.ufmg.br/colecoes/torporesp/2014/015.pdf}
}
Taba, L.S. & Caseli, H. (2014), "Automatic Semantic Relation Extraction from Portuguese Texts", In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). Reykjavik, Iceland. may 2014. European Language Resources Association (ELRA).
BibTeX:
@inproceedings{Taba_Caseli_LREC2014,
  author = {Leonardo Sameshima Taba and Helena Caseli},
  title = {Automatic Semantic Relation Extraction from Portuguese Texts},
  booktitle = {Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)},
  publisher = {European Language Resources Association (ELRA)},
  year = {2014},
  url = {http://www.lrec-conf.org/proceedings/lrec2014/pdf/522_Paper.pdf}
}
Vieira, T.L. & Caseli, H.M. (2014), "Aprendizado de Máquina Sem-Fim para Indução Automática de Léxico Bilíngue", In Proceedings of the Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish., pp. 1-8.
BibTeX:
@inproceedings{Vieira_Caseli_TorPorEsp_2014,
  author = {Vieira, Thiago Lima and Caseli, Helena Medeiros},
  title = {Aprendizado de Máquina Sem-Fim para Indução Automática de Léxico Bilíngue},
  booktitle = {Proceedings of the Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish},
  year = {2014},
  pages = {1-8},
  url = {http://www.lbd.dcc.ufmg.br/colecoes/torporesp/2014/008.pdf}
}
Vieira, T.L. & Caseli, H.M. (2014), "NEBEL: Never-Ending Bilingual Equivalent Learner", In Proceedings of the Human-Inspired Computing and Its Applications: 13th Mexican International Conference on Artificial Intelligence -- MICAI. Tuxtla Gutiérrez, Mexico. November 16-22 2014.(Part I), pp. 99-103. Springer International Publishing.
BibTeX:
@inproceedings{Vieira_Caseli_MICAI2014,
  author = {Vieira, Thiago Lima and Caseli, Helena Medeiros},
  title = {NEBEL: Never-Ending Bilingual Equivalent Learner},
  booktitle = {Proceedings of the Human-Inspired Computing and Its Applications: 13th Mexican International Conference on Artificial Intelligence -- MICAI},
  publisher = {Springer International Publishing},
  year = {2014},
  number = {Part I},
  pages = {99--103},
  url = {http://dx.doi.org/10.1007/978-3-319-13647-9_11},
  doi = {http://doi.org/10.1007/978-3-319-13647-9_11}
}

2013

Beck, D.E. & Caseli, H.M. (2013), "Tree-based Statistical Machine Translation: Experiments with the English and Brazilian Portuguese Pair", Learning and Nonlinear Models. Vol. 11(1), pp. 11-25.
BibTeX:
@article{Beck_Caseli_LNM_2013,
  author = {Beck, Daniel Emilio and Caseli, Helena Medeiros},
  title = {Tree-based Statistical Machine Translation: Experiments with the English and Brazilian Portuguese Pair},
  journal = {Learning and Nonlinear Models},
  year = {2013},
  volume = {11},
  number = {1},
  pages = {11-25}
}
Martins, D.B.J., Avanço, L.V., Nunes, M.G.V. & Caseli, H.M. (2013), "Annotating translation errors in Brazilian Portuguese autoautomatic translated ssentence: first step to automatic post-edition", In Proceedings of the Corpus Linguistics Conference.
BibTeX:
@inproceedings{Martins_etal_CL2013,
  author = {Martins, Débora Beatriz Jesus and Avanço, Lucas Vinicius and Nunes, Maria Graças Volpe and Caseli, Helena Medeiros},
  title = {Annotating translation errors in Brazilian Portuguese autoautomatic translated ssentence: first step to automatic post-edition},
  booktitle = {Proceedings of the Corpus Linguistics Conference},
  year = {2013},
  url = {http://ucrel.lancs.ac.uk/cl2013/doc/CL2013-ABSTRACT-BOOK.pdf}
}

2012

Beck, D.E. & Caseli, H.M. (2012), "Bayesian Induction of Syntactic Language Models for Brazilian Portuguese", In Proceedings of the 10th International Conference for Computational Processing of the Portuguese Language. April 2012. Volume 7243, pp. 157-167. Springer-Verlag Berlin Heidelberg.
BibTeX:
@inproceedings{Beck_Caseli_PROPOR2012,
  author = {Beck, Daniel Emilio and Caseli, Helena Medeiros},
  title = {Bayesian Induction of Syntactic Language Models for Brazilian Portuguese},
  booktitle = {Proceedings of the 10th International Conference for Computational Processing of the Portuguese Language},
  publisher = {Springer-Verlag Berlin Heidelberg},
  year = {2012},
  volume = {7243},
  pages = {157-167},
  url = {http://www.springer.com/br/book/9783642288845?referer=www.springeronline.com}
}
Beck, D.E. & Caseli, H.M. (2012), "Portuguese-English Statistical Machine Translation using Tree Transducers", In Anais do IX Encontro Nacional de Inteligência Artificial (ENIA-2012)., pp. 1-12.
BibTeX:
@inproceedings{Beck_Caseli_ENIA2012,
  author = {Beck, Daniel Emilio and Caseli, Helena Medeiros},
  title = {Portuguese-English Statistical Machine Translation using Tree Transducers},
  booktitle = {Anais do IX Encontro Nacional de Inteligência Artificial (ENIA-2012)},
  year = {2012},
  pages = {1-12},
  url = {http://www.ppgia.pucpr.br/ enia/anais/enia/artigos/105729_2.pdf}
}
Taba, L.S. & Caseli, H.M. (2012), "Bayesian Induction of Syntactic Language Models for Brazilian Portuguese", In Proceedings of the 10th International Conference for Computational Processing of the Portuguese Language. April 2012. Volume 7243, pp. 186-192. Springer-Verlag Berlin Heidelberg.
BibTeX:
@inproceedings{Taba_Caseli_PROPOR2012,
  author = {Taba, Leonardo Sameshima and Caseli, Helena Medeiros},
  title = {Bayesian Induction of Syntactic Language Models for Brazilian Portuguese},
  booktitle = {Proceedings of the 10th International Conference for Computational Processing of the Portuguese Language},
  publisher = {Springer-Verlag Berlin Heidelberg},
  year = {2012},
  volume = {7243},
  pages = {186-192},
  url = {http://www.springer.com/br/book/9783642288845?referer=www.springeronline.com}
}

2011

Antonio, M.M. & Caseli, H.M. (2011), "Tradução orientada a dados", In Anais de Eventos da UFSCar. São Carlos, SP. Volume 7
BibTeX:
@inproceedings{CIC_Miguel_2011,
  author = {Antonio, Miguel M. and Caseli, Helena M.},
  title = {Tradução orientada a dados},
  booktitle = {Anais de Eventos da UFSCar},
  year = {2011},
  volume = {7}
}
Araújo, J.G. & Caseli, H.M. (2011), "Combining Models for the Alignment of Parallel Syntactic Trees", In Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology. Cuiabá, MT, Brazil. October, 24-26 2011., pp. 169-173. Sociedade Brasileira de Computação.
Abstract: The alignment of syntactic trees is the task of aligning the internal
and leaf nodes of two sentences in different languages structured
as trees. The output of the alignment can be used, for instance,
as knowledge resource for learning translation rules (for rule-based
machine translation systems) or models (for statistical machine translation
systems). This paper presents some experiments carried out based
on two syntactic tree alignment algorithms presented in [Lavie et
al. 2008] and [Tinsley et al. 2007]. Aiming at improving the performance
of internal nodes alignment, some approaches for combining the output
of these two algorithms were evaluated in Brazilian Portuguese and
English parallel trees.
BibTeX:
@inproceedings{STIL_Josue_2011,
  author = {Araújo, Josué G. and Caseli, Helena M.},
  title = {Combining Models for the Alignment of Parallel Syntactic Trees},
  booktitle = {Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology},
  publisher = {Sociedade Brasileira de Computação},
  year = {2011},
  pages = {169-173},
  url = {http://www.nilc.icmc.usp.br/til/stil2011_English/stil/artigos/Short/STIL2011_SP4.pdf}
}
Beck, D.E. (2011), "Syntax-based Statistical Machine Translation using Tree Automata and Tree Transducers", In Proceedings of the ACL 2011 Student Session. Portland, Oregon, USA. 19-24 June 2011 2011., pp. 36-40.
Abstract: In this paper I present a Master’s thesis proposal in syntax-based
Statistical Machine Translation. I propose to build discriminative
SMT models using both tree-to-string and tree-to-tree approaches.
Translation and language models will be represented mainly through
the use of Tree Automata and Tree Transducers. These formalisms have
important representational properties that makes them well-suited
for syntax modeling. I also present an experiment plan to evaluate
these models through the use of a parallel corpus written in English
and Brazilian Portuguese.
BibTeX:
@inproceedings{ACL_Daniel_2011,
  author = {Beck, Daniel Emilio},
  title = {Syntax-based Statistical Machine Translation using Tree Automata and Tree Transducers},
  booktitle = {Proceedings of the ACL 2011 Student Session},
  year = {2011},
  pages = {36-40},
  url = {http://aclweb.org/anthology-new/P/P11/P11-3007.pdf}
}
Kawamorita, C.T. & Caseli, H.M. (2011), "Memórias de tradução: recursos e ferramentas para auxiliar o humano a traduzir", In Anais de Eventos da UFSCar. São Carlos. Volume 7
BibTeX:
@inproceedings{CIC_Cleber_2011,
  author = {Kawamorita, Cleber T. and Caseli, Helena M.},
  title = {Memórias de tradução: recursos e ferramentas para auxiliar o humano a traduzir},
  booktitle = {Anais de Eventos da UFSCar},
  year = {2011},
  volume = {7}
}
Schreiner, P., Villavicencio, A., Zilio, L. & Caseli, H.M. (2011), "Improving Lexical Alignment Using Hybrid Discriminative and Post-Processing Techniques", In Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology. Cuiabá, MT, Brazil. October 24-26 2011., pp. 97-106. Sociedade Brasileira de Computação.
Abstract: Automatic lexical alignment is a vital step for empirical machine
translation, and although good results can be obtained with existent
models (e.g. Giza++), more precise alignment is still needed for
successfully handling complex constructions such as multiword expressions.
In this paper we propose an approach for lexical alignment combining
statistical and linguistic information. We describe the development
of a baseline discriminative aligner and a set of language dependent
post-processing functions that allow the inclusion of shallow linguistic
knowledge. The post-processing functions were designed to significantly
improve word alignment mainly on verb-particle constructs both over
our baseline and over Giza++.
BibTeX:
@inproceedings{STIL_Paulo_2011,
  author = {Schreiner, Paulo and Villavicencio, Aline and Zilio, Leonardo and Caseli, Helena M.},
  title = {Improving Lexical Alignment Using Hybrid Discriminative and Post-Processing Techniques},
  booktitle = {Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology},
  publisher = {Sociedade Brasileira de Computação},
  year = {2011},
  pages = {97-106},
  url = {http://www.nilc.icmc.usp.br/til/stil2011_English/stil/artigos/Long/STIL2011_P11.pdf}
}
Sugiyama, B.A., Anacleto, J.C. & Caseli, H.M. (2011), "Assisting users in a cross-cultural communication by providing culturally contextualized translations", In Proceedings of SIGDOC 2011., pp. 1-6.
Abstract: In this paper, we present a web-chat application called Culture-to-Chat
(C2C). The purpose of this chat is to help users to produce messages
in a English as a Second Language - ESL. Regarding this task, C2C
has two resources that we named Cultural Translator and Machine Translator.
The Cultural Translator uses a Brazilian Portuguese cultural knowledge
base (from the Open Mind Common Sense – Br Project in collaboration
to Media Lab - MIT) that works with the sender's vocabulary expression
in order to provide alternative suggestions that can have the same
colloquial meaning. The Machine Translation converts texts from a
source language to a target language. The process that we used to
combine these features and develop the application was based on an
user-centered design approach with a focus on prototyping. We used
different types of fidelity-levels (low, mid, high) before developing
the functional web prototype version of C2C. User tests were then
applied to evaluate usability issues. After collecting data from
questionnaires and observation, problems were corrected and now we
are heading to a larger user study regarding the C2C functionality.
We have been performing a study case involving Brazilian and Canadian
users. There are some initial results available from this study that
will be discussed further. These data show that users appreciate
the resources that help them design messages for cross-cultural communication.
BibTeX:
@inproceedings{SIGDOC_2011,
  author = {Sugiyama, Bruno A. and Anacleto, Junia C. and Caseli, Helena M.},
  title = {Assisting users in a cross-cultural communication by providing culturally contextualized translations},
  booktitle = {Proceedings of SIGDOC 2011},
  year = {2011},
  pages = {1-6}
}
Vieira, T.L. & Caseli, H.M. (2011), "PorTAl: Recursos e Ferramentas de Tradução Automática para o Português do Brasil", In Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology. Cuiabá, MT, Brazil. October, 24-26 2011., pp. 179-183. Sociedade Brasileira de Computação.
Abstract: Este artigo descreve o portal de traducao automática (TA) PorTAl desenvolvido
com o intuito de integrar ferramentas e recursos úteis para TA e
o processamento multilíngue. O PorTAl, atualmente em desenvolvimento,
envolverá a disponibilização de ferramentas e recursos para os idiomas
português

do Brasil, inglês e espanhol (inicialmente). A longo prazo, acredita-se
que o PorTAl impulsionará um avanço nas aplicacoes de processamento
multilíngue,principalmente no que diz respeito ao português do Brasil.
BibTeX:
@inproceedings{STIL_Thiago_2011,
  author = {Vieira, Thiago L. and Caseli, Helena M.},
  title = {PorTAl: Recursos e Ferramentas de Tradução Automática para o Português do Brasil},
  booktitle = {Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology},
  publisher = {Sociedade Brasileira de Computação},
  year = {2011},
  pages = {179-183},
  url = {http://www.nilc.icmc.usp.br/til/stil2011_English/stil/artigos/Short/STIL2011_SP6.pdf}
}

2010

Araújo, J.G. & Caseli, H.M. (2010), "Alignment of Portuguese-English syntactic trees using part-of-speech filters", In Proceedings of the Workshop on Natural Language Processing (in IBERAMIA 2010)., pp. 1-10.
Abstract: The alignment of syntactic trees is the process of finding the correspondences
between internal and leaf nodes of two parsing trees representing
parallel sentences in different languages. The resource derived from
this process can be used, for instance, in Machine Translation (MT)
systems to learn translation rules. The model presented in this paper
is based on the Prime Factorization and Alignments algorithm (PFA)
(Lavie, 2008), which uses prime numbers to align parallel trees.
Knowing that the lexical alignment influences the alignment of internal
nodes, the experiments described in this paper were designed aiming
at improving the accuracy of lexical alignments and, thus, verifying
the impact of this improvement on the alignment of internal nodes.
To do so we used GIZA++ (Och & Ney, 2003) combined with part-of-speech
filters.
BibTeX:
@inproceedings{WIBERAMIA_2010,
  author = {Araújo, Josué G. and Caseli, Helena M.},
  title = {Alignment of Portuguese-English syntactic trees using part-of-speech filters},
  booktitle = {Proceedings of the Workshop on Natural Language Processing (in IBERAMIA 2010)},
  year = {2010},
  pages = {1-10}
}
Araújo, J.G. & Caseli, H.M. (2010), "Alinhamento de árvores sintáticas português-inglês", In Anais do Workshop de Teses e Dissertações em Inteligência Artificial (WTDIA)., pp. 1-10.
Abstract: O alinhamento de árvores sintáticas é a tarefa de alinhar os nós internos
e os nós-folha de duas sentenças em línguas diferentes estruturadas
em forma de árvore. As árvores sintáticas alinhadas podem ser usadas,
por exemplo, para aprender regras de tradução. A investigação, o
estudo, a implementação e a avaliação de métodos automáticos de alinhamento
de árvores sintáticas é o objetivo do trabalho de mestrado do qual
os experimentos descritos neste artigo fazem parte. Tais experimentos
analisam duas hipóteses: (i) a qualidade do alinhamento lexical tem
impacto na qualidade do alinhamento dos nós internos e (ii) o modelo
baseado no algoritmo PFA (Lavie, 2008) emula o modo como um especialista
humano gera o alinhamento manual dos nós internos.
BibTeX:
@inproceedings{WTDIA_2010,
  author = {Araújo, Josué G. and Caseli, Helena M.},
  title = {Alinhamento de árvores sintáticas português-inglês},
  booktitle = {Anais do Workshop de Teses e Dissertações em Inteligência Artificial (WTDIA)},
  year = {2010},
  pages = {1-10}
}
Barchi, P.H., Caseli, H.M. & Anacleto, J.C. (2010), "Alinhamento de grafos: investigação do alinhamento de ConceptNets para a tradução automática", In Anais de Eventos da UFSCar. São Carlos. Volume 6, pp. 383.
BibTeX:
@inproceedings{CIC_Paulo_2010,
  author = {Barchi, Paulo H. and Caseli, Helena M. and Anacleto, Junia C.},
  title = {Alinhamento de grafos: investigação do alinhamento de ConceptNets para a tradução automática},
  booktitle = {Anais de Eventos da UFSCar},
  year = {2010},
  volume = {6},
  pages = {383}
}
Caseli, H. d.M. & Nunes, I.A. (2010), "Factored Translation between Brazilian Portuguese and English", In Proceedings of the Brazilian Symposium on Artificial Intelligence (SBIA) - LNAI.(6404), pp. 163-172. Springer-Verlag Berlin Heidelberg.
Abstract: Factored translation is an extension of the state-of-the-art phrase-based
statistical machine translation (PB-SMT). The main difference in
factored translation approach is that a word is not only a token
(its surface form) but a vector composed of different information
such as lemma, part-of-speech or morphologic/syntactic tags. In this
paper we present some experiments carried out to train and test factored
translation models on Brazilian Portuguese and English texts. Using
part-of-speech and morphological information, the factored models
showed better results than the baseline (a PB-SMT), but the same
gain in performance was not reached when flat syntactic tags were
considered.
BibTeX:
@inproceedings{SBIA_2010,
  author = {Caseli, Helena de Medeiros and Nunes, Israel Aono},
  title = {Factored Translation between Brazilian Portuguese and English},
  booktitle = {Proceedings of the Brazilian Symposium on Artificial Intelligence (SBIA) - LNAI},
  publisher = {Springer-Verlag Berlin Heidelberg},
  year = {2010},
  number = {6404},
  pages = {163-172}
}
Caseli, H.M. & Nunes, M.G.V. (2010), "Transfer rule and bilingual dictionary automatic induction in the ReTraTos project", In Proceedings of the PhD and MSc Dissertation Contest. Porto Alegre, RS. April 2010., pp. 1-8.
Abstract: In this paper we present the ReTraTos methodology to automatically
induce bilingual resources ---transfer rules and bilingual dictionaries---
from parallel corpora. These resources are very useful in Machine
Translation (MT) and other bilingual Natural Language Processing
(NLP) applications. As a result, several automatic approaches have
been proposed to avoid the extensive hard work employed to manually
build these resources. The automatic approaches described in this
paper aim at building bilingual dictionaries and shallow-transfer
rules by

extracting knowledge from word-aligned and part-of-speech tagged parallel
corpora. Experiments carried out with Brazilian Portuguese--Spanish
and Brazilian Portuguese--English parallel texts show that the proposed
methodologies can speed the development of these valuable computational
resources and, thus, help the development of MT systems for new

pairs of languages. Furthermore, the rule induction methodology is
innovative in the way rules are identified and filtered.
BibTeX:
@inproceedings{PROPOR_CTD_2010,
  author = {Caseli, Helena M. and Nunes, Maria Graças V.},
  title = {Transfer rule and bilingual dictionary automatic induction in the ReTraTos project},
  booktitle = {Proceedings of the PhD and MSc Dissertation Contest},
  year = {2010},
  pages = {1--8}
}
Caseli, H.M., Sugiyama, B.A. & Anacleto, J.C. (2010), "Using Common Sense to generate culturally contextualized Machine Translation", In Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas. Los Angeles, California. June 2010., pp. 24-31.
Abstract: This paper reports an ongoing work in applying Common Sense knowledge
to Machine Translation aiming at generating more culturally contextualized
translations. Common Sense can be defined as the knowledge shared
by a group of people in a given time, space and culture; and this
knowledge, here, is represented by a semantic network called ConceptNet.
Machine Translation, in turn, is the automatic process of generating
an equivalent translated version of a source sentence. In this work
we intend to use the knowledge represented in two ConceptNets, one
in Brazilian Portuguese and another in English, to fix/filter translations
built automatically. So, this paper presents the initial ideas of
our work, the steps taken

so far as well as some opportunities for collaboration.
BibTeX:
@inproceedings{NAACL_W_2010_CS_MT,
  author = {Helena M. Caseli and Bruno A. Sugiyama and Junia C. Anacleto},
  title = {Using Common Sense to generate culturally contextualized Machine Translation},
  booktitle = {Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas},
  year = {2010},
  pages = {24--31},
  url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2010/NAACL2010CSMT.pdf}
}
Meuchi, L.A. & Caseli, H.M. (2010), "Investigação do uso de informação semântica e sintática na tradução automática: inferência em ConceptNets paralelas e Data Oriented Translation", In Anais de Eventos da UFSCar. São Carlos. Volume 6, pp. 363.
BibTeX:
@inproceedings{CIC_Lais_2010,
  author = {Meuchi, Laís A. and Caseli, Helena M.},
  title = {Investigação do uso de informação semântica e sintática na tradução automática: inferência em ConceptNets paralelas e Data Oriented Translation},
  booktitle = {Anais de Eventos da UFSCar},
  year = {2010},
  volume = {6},
  pages = {363}
}
Pardo, T.A.S., Gasperin, C.V., Caseli, H.M. & das Graças V. Nunes, M. (2010), "Computational Linguistics in Brazil: An Overview", In Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas. Los Angeles, California. June 2010., pp. 1-7.
Abstract: In this paper we give an overview of Computational Linguistics/Natural
Language Processing in Brazil, describing the general research scenario,
the main research groups, existing events and journals, and the perceived
challenges, among other relevant information. We also identify opportunities
for collaboration.
BibTeX:
@inproceedings{NAACL_W_2010_NILC,
  author = {Thiago A. S. Pardo and Caroline V. Gasperin and Helena M. Caseli and Maria das Graças V. Nunes},
  title = {Computational Linguistics in Brazil: An Overview},
  booktitle = {Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas},
  year = {2010},
  pages = {1--7},
  url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2010/NAACL2010NILC.pdf}
}
Ramisch, C., Caseli, H.M., A.Villavicencio, Machado, A. & Finatto, M.J. (2010), "A Hybrid Approach for Multiword Expression Identification", In Proceedings of the International Conference on Computational Processing of Portuguese Language (PROPOR 2010) - LNAI. Porto Alegre, RS, Brazil.(6001), pp. 65-74. Springer-Verlag Berlin Heidelberg.
Abstract: Considerable attention has been given to the problem of Multiword
Expression (MWE) identification and treatment, for NLP tasks like
parsing and generation, to improve the quality of results. Statistical
methods have been often employed for MWE identification, as an inexpensive
and language independent way of finding co-occurrence patterns. On
the other hand, more linguistically motivated methods for identification,
which employ information such as POS filters and lexical alignment
between languages, can produce more targeted candidate lists. In
this paper we propose a hybrid approach that combines the strenghts
of different sources of information using a machine learning algorithm
to produce more robust and precise results. Automatic evaluation
on gold standards shows that the performance of our hybrid method
is superior to the individual results of statistical and alignment-based
MWE extraction approaches for Portuguese and for English. This method
can be used to aid lexicographic work by providing a more targeted
MWE candidate list.
BibTeX:
@inproceedings{PROPOR_2010,
  author = {C. Ramisch and H. M. Caseli and A.Villavicencio and A. Machado and M. J. Finatto},
  title = {A Hybrid Approach for Multiword Expression Identification},
  booktitle = {Proceedings of the International Conference on Computational Processing of Portuguese Language (PROPOR 2010) - LNAI},
  publisher = {Springer-Verlag Berlin Heidelberg},
  year = {2010},
  number = {6001},
  pages = {65--74},
  url = {http://www.springer.com/computer/ai/book/978-3-642-12319-1}
}
Sugiyama, B.A., Anacleto, J.C. & Caseli, H.M. (2010), "Um chat bilíngue para aprendizado da segunda língua considerando a cultura dos participantes", In Anais do Simpósio Brasileiro de Informática na Educação., pp. 1-4.
Abstract: Este trabalho apresenta uma proposta em desenvolvimento de um chat
bilíngue para comunicação de usuários falantes do português (Brasil)
e do inglês. O chat auxilia o usuário na elaboração de mensagens
em língua estrangeira e para isso utiliza dois recursos: Tradutor
Automático e Tradutor Cultural. Enquanto o Tradutor Automático fornece
traduções instantâneas para a mensagem original, o Tradutor Cultural
fornece sugestões para edição da mensagem traduzida, a fim de motivar
o usuário a criar uma tradução mais contextualizada e evitar enganos
por parte do destinatário. O trabalho pretende inserir o usuário
em um processo de reflexão sobre a língua estrangeira, considerando
sua cultura e contribuindo para a comunicação interpessoal.
BibTeX:
@inproceedings{SBIE_2010,
  author = {Sugiyama, Bruno A. and Anacleto, Junia C. and Caseli, Helena M.},
  title = {Um chat bilíngue para aprendizado da segunda língua considerando a cultura dos participantes},
  booktitle = {Anais do Simpósio Brasileiro de Informática na Educação},
  year = {2010},
  pages = {1-4}
}
Sugiyama, B.A., Anacleto, J.C., Fels, S. & Caseli, H.M. (2010), "Using cultural knowledge to assist communication between people with different cultural background", In Proceedings of SIGDOC 2010. São Carlos, SP, Brazil. September 2010., pp. 183-190.
Abstract: We present a computational application to facilitate text chat-based
communication between people with different cultural and language
background. We focus on end-to-end communication between people with
rudimentary and intermediary knowledge of the second language using
computer support rather than using a simple connection with automated
computer translation. Through a user-centered design process, involving
three increasingly hifidelity prototypes, we created a system that
allows users who speak different languages to send text messages
between them that begins with an automated translation of their message
that does a partial translation but normally has words that are not
translated well. These poorly translated words are then searched
for in a common sense knowledge base for the sender's culture that
contains meanings gleaned from a large open source initiative to
collect common sense knowledge. Using these additional concepts and
words coupled to a translator, the user can select from a list of
translations those that are better suited to the intention of the
message. We illustrate the usefulness of our approach empirically
to show that users find the augmented translated messages are culturally
sensitive and provide better communication experiences than without
it. Our study used messaging between Portuguese

(Brazilian) and English speakers.
BibTeX:
@inproceedings{SIGDOC_2010,
  author = {Sugiyama, Bruno A. and Anacleto, Junia C. and Fels, Sidney and Caseli, Helena M.},
  title = {Using cultural knowledge to assist communication between people with different cultural background},
  booktitle = {Proceedings of SIGDOC 2010},
  year = {2010},
  pages = {183-190}
}
Villavicencio, A., Ramisch, C., Machado, A., Caseli, H.M. & Finatto, M.J. (2010), "Identificação de Expressões Multipalavras em Domínios Específicos", LinguaMÁTICA., Abril, 2010. Vol. 2(1), pp. 15-34.
BibTeX:
@article{Linguamatica2010,
  author = {Aline Villavicencio and Carlos Ramisch and André Machado and Helena M. Caseli and Maria José Finatto},
  title = {Identificação de Expressões Multipalavras em Domínios Específicos},
  journal = {LinguaMÁTICA},
  year = {2010},
  volume = {2},
  number = {1},
  pages = {15-34},
  note = {ISSN: 1647-0818}
}

2009

Barchi, P.H., Caseli, H.M. & Anacleto, J.C. (2009), "Alinhamento de Grafos: Investigação do Alinhamento de ConceptNets para a Tradução Automática", In Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic). São Carlos, SP, Brasil., pp. 1-4.
Abstract: Esse artigo descreve uma proposta de pesquisa que visa o alinhamento
de conceitos em redes semânticas paralelas, particularmente para
os idiomas português do Brasil e inglês. As redes semânticas (ConceptNets)
consideradas nesta proposta estão estruturadas em nós e arcos (que
conectam os nós). Os nós armazenam os conhecimentos da base de senso
comum, enquanto os arcos representam as relações entre dois nós,
baseadas nos estudos sobre a teoria de (Minsky, 1986). A partir desse
alinhamento de conceitos similares em idiomas distintos outras técnicas
poderão ser aplicadas para extração de conhecimento útil para a tradução
automática.
BibTeX:
@inproceedings{TILic_Paulo_2009,
  author = {P. H. Barchi and H. M. Caseli and J. C. Anacleto},
  title = {Alinhamento de Grafos: Investigação do Alinhamento de ConceptNets para a Tradução Automática},
  booktitle = {Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic)},
  year = {2009},
  pages = {1-4},
  url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/tilic/BarchiETAL.pdf}
}
Caseli, H.M. & Nunes, I.A. (2009), "Statistical Machine Translation: little changes big impacts", In Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology. São Carlos, SP, Brazil., pp. 1-9.
Abstract: In this paper we describe some experiments carried out to test the
impact of automatic casing and punctuation changes when training
and testing statistical translation models. The experiments described
here concern the translation from/to English and Brazilian Portuguese
texts but since the superficial changes investigated are language
independent, we believe that the conclusions can be applied to many
other pairs of languages. These experiments were designed aiming
at setting a baseline scenario for future training and testing of
more complex statistical translation models such as the factored
ones. From the experiments presented here it is possible to see that
case and punctuation changes have a significant impact on automatic
translation results.
BibTeX:
@inproceedings{STIL_SMT_2009,
  author = {H. M. Caseli and I. A. Nunes},
  title = {Statistical Machine Translation: little changes big impacts},
  booktitle = {Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology},
  year = {2009},
  pages = {1-9},
  url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/stil/Caseli-57791_1.pdf}
}
Caseli, H.M. & Nunes, I.A. (2009), "Tradução Automática Estatística baseada em Frases e Fatorada: Experimentos com os idiomas Português do Brasil e Inglês usando o toolkit Moses (NILC-TR-09-07)". Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC), 2009.
Abstract: Este relatório apresenta uma descrição do uso do toolkit de tradução
automática estatística Moses na construção e na avaliação de modelos
de tradução baseados em frases (phrase-based) tradicionais (considerados
o estado da arte) e fatorados (uma extensão dos modelos baseados
em frases). Além de apresentar uma descrição da ferramenta utilizada,
seu processo de instalação e utilização, também são relatados os
resultados alcançados em vários experimentos desenvolvidos para testar
a tradução automática estatística baseada em frases e a fatorada
com um corpus paralelo de textos escritos em português do Brasil
(pt) e inglês (en). Os experimentos demonstram que a tradução fatorada,
na qual fatores adicionais (além das formas superficiais das palavras)
são usados na geração dos modelos de tradução e língua, apresenta
resultados melhores do que a tradução tradicional baseada em frases.
Essa melhora no desempenho, verificada em termos das medidas de avaliação
automática BLEU e NIST, mostrou-se estatisticamente significante
em alguns experimentos no sentido de tradução en-pt, no qual as informações
adicionais na língua alvo (o português nesse caso) possuem maior
relevância por ser esta uma língua com maior variação morfológica
do que a língua fonte (o inglês, nesse caso).
BibTeX:
@techreport{Moses_RT_2009,
  author = {Caseli, H. M. and Nunes, I. A.},
  title = {Tradução Automática Estatística baseada em Frases e Fatorada: Experimentos com os idiomas Português do Brasil e Inglês usando o toolkit Moses (NILC-TR-09-07)},
  school = {Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)},
  year = {2009},
  note = {40 p.},
  url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2009/NILC-TR-09-07.pdf}
}
Caseli, H.M., Pereira, T.F., Specia, L., Pardo, T.A.S., Gasperin, C. & Aluísio, S.M. (2009), "Building a Brazilian Portuguese parallel corpus of original and simplified texts", In Advances in Computational Linguistics, Research in Computer Science - 10th Conference on Intelligent Text Processing and Computational Linguistics - CICLing. Mexico City. March 01-07 2009. Volume 41, pp. 59-70.
Abstract: In this paper we address the problem of building the necessary tools
and resources for performing Brazilian Portuguese text simplification.
We describe our efforts on the design and development of: (a) a XCES-based
annotation schema, (b) an annotation edition tool, and (c) a portal
to access parallel corpora of original-simplified texts. These contributions
were intended to (i) allow the creation and public release of a corpus
of original and simplified texts with two different versions of simplification
(called here natural and strong), targeting two levels of functional
illiteracy and (ii) register simplification decisions during the
creation of such corpus. We also provide an analysis of the first
corpus created using the resources presented here: 104 newspaper
texts and their simplified versions, produced by an expert in text
simplification.
BibTeX:
@inproceedings{CICLING_2009,
  author = {H. M. Caseli and T. F. Pereira and L. Specia and T. A. S. Pardo and C. Gasperin and S. M. Aluísio},
  title = {Building a Brazilian Portuguese parallel corpus of original and simplified texts},
  booktitle = {Advances in Computational Linguistics, Research in Computer Science - 10th Conference on Intelligent Text Processing and Computational Linguistics - CICLing},
  year = {2009},
  volume = {41},
  pages = {59-70}
}
Caseli, H.M., Ramisch, C.E., Nunes, M.G.V. & Villavicencio, A. (2009), "Alignment-based extraction of multiword expressions", Language Resources and Evaluation., August, 2009. Vol. 1, pp. 1-20.
Abstract: Due to idiosyncrasies in their syntax, semantics or frequency, Multiword
Expressions (MWEs) have received special attention from the NLP community,
as the methods and techniques developed for the treatment of simplex
words are not necessarily suitable for them. This is certainly the
case for the automatic acquisition of MWEs from corpora. A lot of
effort has been directed to the task of automatically identifying
them, with considerable success. In this paper, we propose an approach
for the identification of MWEs in a multilingual context, as a by-product
of a word alignment process, that not only deals with the identification
of possible MWE candidates, but also associates some multiword expressions
with semantics. The results obtained indicate the feasibility and
low costs in terms of tools and resources demanded by this approach,
which could, for example, facilitate and speed up lexicographic work.
BibTeX:
@article{LanguageResourcesandEvaluation_2009,
  author = {H. M. Caseli and C. E. Ramisch and M. G. V. Nunes and A. Villavicencio},
  title = {Alignment-based extraction of multiword expressions},
  journal = {Language Resources and Evaluation},
  year = {2009},
  volume = {1},
  pages = {1-20},
  doi = {http://doi.org/10.1007/s10579-009-9097-9}
}
Caseli, H.M., Villavicencio, A., Machado, A. & Finatto, M.J. (2009), "Statistically-Driven Alignment-Based Multiword Expression Identification for Technical Domains", In Proceedings of the 2009 Workshop on Multiword Expressions (ACL-IJCNLP 2009). Suntec, Singapore. 6 August 2009., pp. 1-8.
Abstract: Multiword Expressions (MWEs) are one of the stumbling blocks for more
precise Natural Language Processing (NLP) systems. Particularly,
the lack of coverage of MWEs in resources can impact negatively on
the performance of tasks and applications, and can lead to loss of
information or communication errors. This is especially problematic
in technical domains, where a significant portion of the vocabulary
is composed of MWEs. This paper investigates the use of a statistically-driven
alignment-based approach to the identification of MWEs in technical
corpora. We look at the use of several sources of data, including
parallel corpora, using English and Portuguese data from a corpus
of Pediatrics, and examining how a second language can provide relevant
cues for this tasks. We report results obtained by a combination
of statistical measures and linguistic information, and compare these
to the reported in the literature. Such an approach to the (semi-)automatic
identification of MWEs can considerably speed up lexicographic work,
providing a more targeted list of MWE candidates.
BibTeX:
@inproceedings{ACL_MWE_2009,
  author = {H. M. Caseli and A. Villavicencio and A. Machado and M. J. Finatto},
  title = {Statistically-Driven Alignment-Based Multiword Expression Identification for Technical Domains},
  booktitle = {Proceedings of the 2009 Workshop on Multiword Expressions (ACL-IJCNLP 2009)},
  year = {2009},
  pages = {1-8},
  url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2009/ACL_MWE.pdf}
}
Meuchi, L.A.S., Caseli, H.M. & Anacleto, J.C. (2009), "Inferência de relações em ConceptNets com base em corpus paralelo alinhado", In Anais do VI WorkShop de Trabalhos de Iniciação Científica (WTIC) - evento integrante do WebMedia 2009. Fortaleza, CE, Brasil., pp. 1-3.
Abstract: Este artigo apresenta uma pesquisa conjunta de Senso Comum e Tradução
Automática, realizada com o objetivo de se obter traduções automáticas
mais contextualmente corretas. Para tanto, propõe-se um algoritmo
para inferência de relações em redes semânticas (ConceptNets) utilizando
corpus paralelo alinhado com o intuito de enriquecer a base de conhecimento
que essas redes representam.
BibTeX:
@inproceedings{WTIC_WebMedia_Lais_2009,
  author = {L. A. S. Meuchi and H. M. Caseli and J. C. Anacleto},
  title = {Inferência de relações em ConceptNets com base em corpus paralelo alinhado},
  booktitle = {Anais do VI WorkShop de Trabalhos de Iniciação Científica (WTIC) - evento integrante do WebMedia 2009},
  year = {2009},
  pages = {1-3}
}
Meuchi, L.A.S., Caseli, H.M. & Anacleto, J.C. (2009), "Inferência em Redes Semânticas: Investigação de Métodos de Inferência de Conhecimento de Tradução em ConceptNets Paralelas", In Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic). São Carlos, SP, Brasil., pp. 1-4.
Abstract: Esse artigo descreve uma proposta de inferência de conhecimento útil
para a tradução automática a partir de duas redes de conceitos (ConceptNets)
obtidas a partir de bases de senso comum em idiomas distintos. O
senso comum pode ser definido como o conhecimento compartilhado por
um determinado grupo de pessoas em um dado tempo, espaço e cultura.
A partir de uma rede de conceitos em português e de outra rede de
conceitos em inglês, pretende-se inferir conhecimento que poderá
ser aplicado para ajustar/filtrar traduções geradas automaticamente.
Para tanto, neste artigo são apresentadas as ideias iniciais, um
método que poderá servir de base e um exemplo de aplicação da inferência
nas redes em questão.
BibTeX:
@inproceedings{TILic_Lais_2009,
  author = {L. A. S. Meuchi and H. M. Caseli and J. C. Anacleto},
  title = {Inferência em Redes Semânticas: Investigação de Métodos de Inferência de Conhecimento de Tradução em ConceptNets Paralelas},
  booktitle = {Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic)},
  year = {2009},
  pages = {1-4},
  url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/tilic/MeuchiETAL.pdf}
}
Nunes, I.A. & Caseli, H.M. (2009), "Primeiros Experimentos na Investigação e Avaliacão da Tradução Automática Estatística Inglês-Português", In Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic). São Carlos, SP, Brasil., pp. 1-4.
Abstract: Esse artigo descreve alguns experimentos desenvolvidos com o intuito
de treinar e testar os modelos de tradução automática estatística
para textos paralelos escritos em português do Brasil e inglês. Neste
artigo são apresentados os valores de BLEU e NIST na tradução de
inglês para português com e sem a realização de uma etapa de otimização
(tuning). Os resultados obtidos podem ser considerados satisfatórios
para o pequeno corpus usado no treinamento. Em breve, esses restultados
serão usados como base para a compração com os valores obtidos no
treinamento e teste de modelos de tradução fatorada.
BibTeX:
@inproceedings{TILic_Israel_2009,
  author = {I. A. Nunes and H. M. Caseli},
  title = {Primeiros Experimentos na Investigação e Avaliacão da Tradução Automática Estatística Inglês-Português},
  booktitle = {Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic)},
  year = {2009},
  pages = {1-4},
  url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/tilic/NunesCaseli.pdf}
}
Nunes, I.A. & Caseli, H.M. (2009), "Experimentos com tradução automática estatística português-inglês", In Anais de Eventos da UFSCar. São Carlos, SP, Brasil. Volume 5, pp. 494-494.
BibTeX:
@inproceedings{CIC_Israel_2009,
  author = {I. A. Nunes and H. M. Caseli},
  title = {Experimentos com tradução automática estatística português-inglês},
  booktitle = {Anais de Eventos da UFSCar},
  year = {2009},
  volume = {5},
  pages = {494-494},
  url = {http://www.jornada2009.nit.ufscar.br/cic/uploads/C16/C16-001.pdf}
}

Anteriores de Caseli (et al.)

Pardo, T.A.S., Caseli, H.M. & Nunes, M.G.V. (2009), "Mapeamento da Comunidade Brasileira de Processamento de Línguas Naturais", In Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology. São Carlos, SP, Brazil., pp. 1-21.
Abstract: Relatam-se, neste documento, os resultados do mapeamento da comunidade
brasileira de Processamento de Línguas Naturais, realizado entre
Maio e Julho de 2009. O mapeamento, realizado pela Comissão Especial
de Processamento de Linguagem Natural da Sociedade Brasileira de
Computação, foi idealizado com o objetivo de se conhecer melhor a
área e, desta forma, permitir o estabelecimento de ações direcionadas
para que a área se desenvolva e seja representada apropriadamente
no Brasil.
BibTeX:
@inproceedings{STIL_Mapeamento_2009,
  author = {T. A. S. Pardo and H. M. Caseli and M. G. V. Nunes},
  title = {Mapeamento da Comunidade Brasileira de Processamento de Línguas Naturais},
  booktitle = {Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology},
  year = {2009},
  pages = {1-21},
  url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/stil/STIL2009-Painel-PardoEtAl.pdf}
}
Villavicencio, A., Caseli, H.M. & Machado, A. (2009), "Identification of Multiword Expressions in Technical Domains: Investigating Statistical and Alignment-based Approaches", In Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology. São Carlos, SP, Brazil., pp. 1-9.
Abstract: Multiword Expressions (MWEs) are one of the stumbling blocks for more
precise Natural Language Processing (NLP) systems. The lack of coverage
of MWEs in resources can impact negatively on the performance of
tasks and applications, and can lead to loss of information or communication
errors; especially in technical domains where MWE are frequent. This
paper investigates some approaches to the identification of MWEs
in technical corpora based on: association measures, part-of-speech
and lexical alignment information. We examine the influence of some
factors on their performance such as sources of information for identification
and evaluation. While the association measures emphasize recall,
the alignment method focuses on precision.
BibTeX:
@inproceedings{STIL_MWE_2009,
  author = {A. Villavicencio and H. M. Caseli and A. Machado},
  title = {Identification of Multiword Expressions in Technical Domains: Investigating Statistical and Alignment-based Approaches},
  booktitle = {Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology},
  year = {2009},
  pages = {1-9},
  url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/stil/Villavicencio-57680_1.pdf}
}

2008

Aluísio, S.M., Specia, L., Pardo, T.A.S., Maziero, E.G., Caseli, H.M. & Fortes, R. (2008), "A Corpus Analysis of Simple Account Texts and the Proposal of Simplification Strategies: First Steps towards Text Simplification Systems", In Proceedings of the International Conference on Design of Communication (SIGDOC). Lisboa, Portugal., pp. 15-22.
Abstract: In this paper we investigate the main linguistic phenomena that can
make texts complex and how they could be simplified. We focus on
a corpus analysis of simple account texts available on the web for
Brazilian Portuguese (BP). This study illustrates the need for text
simplification to facilitate accessibility to information by poor
readers and by people with cognitive disabilities. It also highlights
features of simplification for BP, which may differ from other languages.
Moreover, we propose simplification strategies and a Simplification
Annotation Editor. This study consists of the first step towards
building BP text simplification systems. One of the scenarios in
which these systems could be used is that of reading electronic texts
produced, e.g., by the Brazilian government or by news agencies.
BibTeX:
@inproceedings{SIGDOC_2008,
  author = {S. M. Aluísio and L. Specia and T. A. S. Pardo and E. G. Maziero and H. M. Caseli and R. Fortes},
  title = {A Corpus Analysis of Simple Account Texts and the Proposal of Simplification Strategies: First Steps towards Text Simplification Systems},
  booktitle = {Proceedings of the International Conference on Design of Communication (SIGDOC)},
  year = {2008},
  pages = {15-22}
}
Caseli, H.M., Gomes, F.T., Pardo, T.A.S. & Nunes, M.G.V. (2008), "VisualLIHLA: the visual online tool for lexical alignment", In Proceedings of the VI Workshop em Tecnologia da Informação e da Linguagem Humana (TIL). Vila Velha, ES. October 2008., pp. 1-3.
Abstract: This paper presents a freely available online lexical alignment tool
based on the LIHLA lexical aligner. LIHLA aligns tokens, words and
multiword units based on language-independent heuristics (cognates,
position, etc.) and automatically built language-dependent resources
(bilingual dictionaries). VisualLIHLA allows the online usage, visualization
and download of the lexical alignments produced by LIHLA with 84--92%
of precision and 76--91% of recall.
BibTeX:
@inproceedings{TIL_2008,
  author = {H. M. Caseli and F. T. Gomes and T. A. S. Pardo and M. G. V. Nunes},
  title = {VisualLIHLA: the visual online tool for lexical alignment},
  booktitle = {Proceedings of the VI Workshop em Tecnologia da Informação e da Linguagem Humana (TIL)},
  year = {2008},
  pages = {1-3}
}
Caseli, H.M. & Nunes, M.G.V. (2008), "Automatic induction of bilingual resources for machine translation: the ReTraTos project", In Proceedings of the VI Concurso de Teses e Dissertações em Inteligência Artificial (CTDIA) - Menção Honrosa. Salvador, BA. October 2008., pp. 1-10.
Abstract: Machine translation (MT) is one of the oldest and greatest areas of
Natural Language Processing (NLP) and its relevance has increased
a lot in the last years due to the multilingual Web. However, to
perform MT task, mainly rule-based MT (RBMT), it is necessary some
linguistic resources (bilingual single-word and multi-word correspondences,
translation rules, etc.) which demand extensive manual work to be
built. This paper describes a methodology to build automatically
both bilingual dictionaries and shallow-transfer rules by extracting
knowledge from word-aligned parallel corpora. We show experiments
for Brazilian Portuguese--Spanish and Brazilian Portuguese--English
parallel texts. The results show that the proposed methodology can
enable a rapid creation of valuable computational resources for machine
translation and other NLP tasks.
BibTeX:
@inproceedings{CTDIA_2008,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {Automatic induction of bilingual resources for machine translation: the ReTraTos project},
  booktitle = {Proceedings of the VI Concurso de Teses e Dissertações em Inteligência Artificial (CTDIA) - Menção Honrosa},
  year = {2008},
  pages = {1-10}
}
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2008), "On the Automatic Learning of Bilingual Resources: Some Relevant Factors for Machine Translation", In Proceedings of the 19th Brazilian Symposium on Artificial Intelligence (SBIA). Salvador, BA. October 2008. Volume 5249(1), pp. 258-267. Springer Berlin / Heidelberg.
Abstract: In this paper we present experiments concerned with automatically
learning bilingual resources for machine translation: bilingual dictionaries
and transfer rules. The experiments were carried out with Brazilian
Portuguese (pt), English (en) and Spanish (es) texts in two parallel
corpora: pt--en and pt--es. They were designed to investigate the
relevance of two factors in the induction process, namely: (1) the
coverage of linguistic resources used when preprocessing the training
corpora and (2) the maximum length threshold (for transfer rules)
used in the induction process. From these experiments, it is possible
to conclude that both factors have an influence in the automatic
learning of bilingual resources.
BibTeX:
@inproceedings{SBIA_2008,
  author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
  title = {On the Automatic Learning of Bilingual Resources: Some Relevant Factors for Machine Translation},
  booktitle = {Proceedings of the 19th Brazilian Symposium on Artificial Intelligence (SBIA)},
  publisher = {Springer Berlin / Heidelberg},
  year = {2008},
  volume = {5249},
  number = {1},
  pages = {258-267},
  doi = {http://doi.org/10.1007/978-3-540-88190-2}
}
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2008), "From free shallow monolingual resources to machine translation systems: easing the task", In Proceedings of the Workshop on Mixing Approaches to Machine Translation (MATMT08). San Sebastian, Spain. 14th February 2008. Volume 1, pp. 41-48.
Abstract: The availability of machine-readable bilingual linguistic resources
is crucial not only for machine translation but also for other applications
such as cross-lingual information retrieval. However, the building
of such resources demands extensive manual work. This paper describes
a methodology to build automatically bilingual dictionaries and transfer
rules by extracting knowledge from word-aligned parallel corpora
processed with free shallow monolingual resources (morphological
analysers and part-of-speech taggers). Experiments for Brazilian
Portuguese--Spanish and Brazilian Portuguese--English parallel texts
have shown promising results.
BibTeX:
@inproceedings{MATMT_2008,
  author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
  title = {From free shallow monolingual resources to machine translation systems: easing the task},
  booktitle = {Proceedings of the Workshop on Mixing Approaches to Machine Translation (MATMT08)},
  year = {2008},
  volume = {1},
  pages = {41-48},
  url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2008/MATMT2008.pdf}
}
Caseli, H.M., Pereira, T.F. & Aluísio, S.M. (2008), "Editor de Anotação de Simplificação: Manual do Usuário (NILC-TR-08-10)". Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC), 2008.
BibTeX:
@techreport{Manual_Editor_2008,
  author = {H. M. Caseli and T. F. Pereira and S. M. Aluísio},
  title = {Editor de Anotação de Simplificação: Manual do Usuário (NILC-TR-08-10)},
  school = {Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)},
  year = {2008},
  note = {17 p.},
  url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2008/NILC-TR-08-10.pdf}
}

2007

Caseli, H.M. (2007), "Indução de léxicos bilíngües e regras para a tradução automática". School: Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP)., Maio, 2007.
Abstract: Machine Translation (MT) -- the translation of a natural (source)
language into another (target) by means of computer programs -- is
a hard task, mainly due to the need of deep linguistic knowledge
about the two (or more) languages required to build resources such
as translation grammars, bilingual dictionaries, etc. The scarcity
of linguistic resources or even the difficulty to build them often
limits the use of MT systems, for example, to certain application
domains. In this context, several methods have been proposed aiming
at generating linguistic knowledge automatically from multilingual
resources, so that building translation tools becomes less hard.
The ReTraTos project presented in this document is one of these proposals
and aims at inducing translation lexicons and transfer rules automatically
from PoS-tagged and lexically aligned translation examples for Portuguese--Spanish
and Portuguese--English language pairs. The rule induction system
brings forth a new approach, in which translation examples are split
into alignment blocks and induction is performed for each type of
block separately. Another new feature of this system is a more elaborate
strategy for filtering the induced rules. Besides the translation
lexicon and the transfer rule induction systems, we also implemented
a MT module for validating the induced resources. The induced translation
lexicons were evaluated intrinsically and the results obtained agree
with those reported on the literature. The induced translation rules
were evaluated directly and indirectly by the MT module, and improved
the word-by-word translation in both directions (source--target and
target--source) for the languages under study. The target sentences
obtained by the induced resources were also compared to those generated
by commercial systems, showing better results for Portuguese--Spanish
than for Portuguese--English.
BibTeX:
@phdthesis{Tese_2007,
  author = {H. M. Caseli},
  title = {Indução de léxicos bilíngües e regras para a tradução automática},
  school = {Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP)},
  year = {2007},
  note = {158 p.}
}
Caseli, H.M. & Nunes, M.G.V. (2007), "Automatic induction of bilingual lexicons for machine translation", International Journal of Translation. Vol. 19, pp. 29-43.
Abstract: Translation lexicons are one of the most important linguistic resources
for machine translation. However, this bilingual set of word and
multiword correspondences requires a lot of manual work to be built.
This paper describes a method to automatically build translation
lexicons. The lexicons are built by extracting knowledge from PoS-tagged
and lexically aligned parallel corpora. Preliminary experiments were
carried out on Brazilian Portuguese, Spanish and English parallel
texts. The results of a manual analysis showed that 85% of pt-es
and 89% of pt-en entries are plausible correspondences. These results
were obtained taking into consideration only the classes of entries
which achieved the best results. Target sentences were generated
using all induced entries. These sentences were compared with target
sentences generated by commercial systems. This comparison emphasizes
the relevance of translation lexicons in machine translation, mainly
in Portuguese-Spanish.
BibTeX:
@article{InternationalJournalofTranslation_2007,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {Automatic induction of bilingual lexicons for machine translation},
  journal = {International Journal of Translation},
  year = {2007},
  volume = {19},
  pages = {29-43}
}
Caseli, H.M. & Nunes, M.G.V. (2007), "Automatic induction of translation lexicons from aligned parallel corpora", In Proceedings of the V Workshop em Tecnologia da Informação e da Linguagem Humana (TIL). Rio de Janeiro, RJ., pp. 1669-1678.
Abstract: Translation lexicons are one of the most important linguistic resources
for machine translation. However, this bilingual set of word and
multiword correspondences requires a lot of manual work to be built.
This paper describes a method to automatically build translation
lexicons by extracting knowledge from PoS-tagged and lexically aligned
parallel corpora. Preliminary experiments were carried out on Brazilian
Portuguese (pt), Spanish (es) and English (en) parallel texts. The
results showed that 85% of pt--es and 89% of pt--en entries are plausible
correspondences. These results were obtained taking into consideration
only the classes of entries which achieved the best results.
BibTeX:
@inproceedings{TIL_ReTraTos_2007,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {Automatic induction of translation lexicons from aligned parallel corpora},
  booktitle = {Proceedings of the V Workshop em Tecnologia da Informação e da Linguagem Humana (TIL)},
  year = {2007},
  pages = {1669-1678}
}
Gomes, F., Pardo, T.A.S. & Caseli, H.M. (2007), "VisualTCA: Uma Ferramenta Visual On-line para Alinhamento Sentencial de Textos Paralelos", In Proceedings of the V Workshop em Tecnologia da Informação e da Linguagem Humana (TIL). Rio de Janeiro, RJ., pp. 1729-1732.
Abstract: Apresenta-se, neste artigo, uma ferramenta visual on-line para alinhamento
sentencial de textos paralelos, independentes de sua língua. Descrevem-se
o funcionamento e as capacidades da ferramenta, assim como suas possíveis
aplicações.
BibTeX:
@inproceedings{TIL_TCA_2007,
  author = {F. Gomes and T. A. S. Pardo and H. M. Caseli},
  title = {VisualTCA: Uma Ferramenta Visual On-line para Alinhamento Sentencial de Textos Paralelos},
  booktitle = {Proceedings of the V Workshop em Tecnologia da Informação e da Linguagem Humana (TIL)},
  year = {2007},
  pages = {1729-1732}
}

2006

Caseli, H.M. & Nunes, M.G.V. (2006), "Anali: uma ferramenta de análise morfossintática (NILC-TR-06-09)". Instituto de Ciências Matemáticas e de Computação (ICMC-USP)Instituto de Ciências Matemáticas e de Computação (ICMC-USP), Technical Report 285, 2006.
Abstract: Este relatório apresenta a ferramenta de análise morfossintática anali,
a qual foi desenvolvida no NILC (Núcleo Interinstitucional de Lingüística
Computacional) como resultado da união de outras duas ferramentas
de Processamento de Língua Natural: o etiquetador MXPOST e a ferramenta
de análise de corpus Unitex. Nesse sentido, anali representa um ganho
em relação ao que é produzido pelas ferramentas citadas, em dois
sentidos. Por um lado, enriquece a saída de MXPOST inserindo mais
informação a respeito da análise retornada por esse etiquetador;
e, por outro, desambigua a saída de Unitex ao definir qual das várias
análises existentes em seus dicionários eletrônicos é a melhor, em
cada caso. Além disso, anali pode operar em três modos distintos:
etiquetação (com base apenas na saída de MXPOST), análise morfossintática
(com base apenas na saída de Unitex) ou ambos.
BibTeX:
@techreport{Anali_2006,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {Anali: uma ferramenta de análise morfossintática (NILC-TR-06-09)},
  school = {Instituto de Ciências Matemáticas e de Computação (ICMC-USP)},
  year = {2006},
  number = {285},
  note = {44 p.},
  url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2006/NILC-TR-06-09.pdf}
}
Caseli, H.M. & Nunes, M.G.V. (2006), "Automatic transfer rule induction from parallel corpora", In Proceedings of the 3rd Workshop on MSc dissertations and PhD thesis in Artificial Intelligence (WTDIA) - International Joint Conference IBERAMIA/SBIA/SBRN 2006. Ribeirão Preto, SP., pp. 1-10.
Abstract: Recently, many projects have been proposed aiming at automatically
transforming the multilingual information available on parallel texts
into linguistic knowledge useful for machine translation. This paper
describes an ongoing PhD project in which the main goal is to automatically
induce transfer rules and bilingual dictionaries from part-of-speech
tagged and lexically aligned parallel corpora. The final goal of
this project is to use the induced rules and bilingual entries to
translate from (to) Brazilian Portuguese to (from) Spanish and English.
BibTeX:
@inproceedings{WTDIA_2006,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {Automatic transfer rule induction from parallel corpora},
  booktitle = {Proceedings of the 3rd Workshop on MSc dissertations and PhD thesis in Artificial Intelligence (WTDIA) - International Joint Conference IBERAMIA/SBIA/SBRN 2006},
  year = {2006},
  pages = {1-10}
}
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2006), "Automatic induction of bilingual resources from aligned parallel corpora: application to shallow-transfer machine translation", Machine Translation. Vol. 20, pp. 227-245.
Abstract: The availability of machine-readable bilingual linguistic resources
is crucial not only for rule-based machine translation but also

for other applications such as cross-lingual information retrieval.
However, the building of such resources (bilingual single-word and
multi-word correspondences, translation rules) demands extensive
manual work, and, as a consequence, bilingual resources are usually
more difficult to find than "shallow" monolingual resources such
as morphological dictionaries or part-of-speech taggers, especially
when they involve a less-resourced language.

This paper describes a methodology to build automatically both bilingual
dictionaries and shallow-transfer rules by extracting knowledge from
word-aligned parallel corpora processed with shallow monolingual
resources (morphological analysers, and part-of-speech taggers).
We show experiments for Brazilian Portuguese--Spanish and Brazilian
Portuguese--English parallel texts. The results show that the proposed
methodology can enable a rapid creation of valuable computational
resources (bilingual

dictionaries and shallow-transfer rules) for machine translation and
other Natural Language Processing tasks).
BibTeX:
@article{MachineTranslation_2006,
  author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
  title = {Automatic induction of bilingual resources from aligned parallel corpora: application to shallow-transfer machine translation},
  journal = {Machine Translation},
  year = {2006},
  volume = {20},
  pages = {227-245}
}

2005

Caseli, H.M. & Nunes, M.G.V. (2005), "Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática", Estudos Lingüísticos. Vol. 34, pp. 356-361.
Abstract: Parallel texts - texts in one language and their translation in other
- and aligned parallel texts - with identification of translation
correspondences - are becoming more and more important for many NLP
applications, mainly, machine translation. In this paper we describe
some experiments carried out on sentence and lexical alignment of
Portuguese-English parallel texts from differents genres: scientific,
law and journalistic. The linguistic and computational resources
and the knowledge derived from these experiments are very important
for future work in machine translation field.
BibTeX:
@article{EstudosLinguisticos_2005,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática},
  journal = {Estudos Lingüísticos},
  year = {2005},
  volume = {34},
  pages = {356-361}
}
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2005), "Evaluating the LIHLA lexical aligner on Spanish, Brazilian Portuguese and Basque parallel texts", Procesamiento del Lenguaje Natural. Vol. 35, pp. 237-244.
BibTeX:
@article{ProcesamientodelLenguajeNatural_2005,
  author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
  title = {Evaluating the LIHLA lexical aligner on Spanish, Brazilian Portuguese and Basque parallel texts},
  journal = {Procesamiento del Lenguaje Natural},
  year = {2005},
  volume = {35},
  pages = {237-244}
}
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2005), "LIHLA: A lexical aligner based on language-independent heuristics", In Proceedings of the V Encontro Nacional de Inteligência Artificial (ENIA). São Leopoldo, RS., pp. 641-650.
Abstract: Alignment of words and multiword units plays an important role in
many natural language processing applications, such as example-based
machine translation, transfer rule learning for machine translation,
bilingual lexicography, word sense disambiguation, etc. In this paper
we describe LIHLA, a lexical aligner which uses bilingual probabilistic
lexicons generated by a freely available set of tools (NATools) and
language-independent heuristics to find links between single words
and multiword units in Brazilian Portuguese, Spanish and English
parallel texts. The method has achieved a precision of 92.48% and
84.35% and a recall of 88.32% and 76.39% on Brazilian Portuguese--Spanish
and Brazilian Portuguese--English parallel texts, respectively.
BibTeX:
@inproceedings{ENIA_2005,
  author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
  title = {LIHLA: A lexical aligner based on language-independent heuristics},
  booktitle = {Proceedings of the V Encontro Nacional de Inteligência Artificial (ENIA)},
  year = {2005},
  pages = {641-650}
}
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2005), "LIHLA: Shared task system description", In Proceedings of the ACL Workshop on Building and Using Parallel Texts. Ann Arbor, Michigan., pp. 111-114.
BibTeX:
@inproceedings{ACL_2005,
  author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
  title = {LIHLA: Shared task system description},
  booktitle = {Proceedings of the ACL Workshop on Building and Using Parallel Texts},
  year = {2005},
  pages = {111-114}
}
Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2005), "O Alinhador Lexical LIHLA: Experimentos com o Português do Brasil", In Caderno de resumos do V Encontro de Corpora., pp. 21-22.
BibTeX:
@inproceedings{EncontroCorpora_2005,
  author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
  title = {O Alinhador Lexical LIHLA: Experimentos com o Português do Brasil},
  booktitle = {Caderno de resumos do V Encontro de Corpora},
  year = {2005},
  pages = {21-22}
}
Caseli, H.M., Scalco, M.A.G. & Nunes, M.G.V. (2005), "Manual para a marcação de alinhamentos lexicais (NILC-TR-05-09)". Instituto de Ciências Matemáticas e de Computação (ICMC-USP)Instituto de Ciências Matemáticas e de Computação (ICMC-USP), Technical Report 256, 2005.
Abstract: Este relatório apresenta as diretrizes definidas, no âmbito do projeto
ReTraTos, para o processo de alinhamento lexical de textos paralelos
escritos em Português do Brasil, Espanhol e Inglês. Os textos paralelos
e sua versão alinhada são, ambos, de grande importância para diversas
aplicações de Processamento de Línguas Naturais (PLN), como: aprendizado
de regras de tradução (objetivo do projeto ReTraTos), Example-Based
Machine Translation (EBMT), Statistical Machine Translation (SMT),
extração de léxicos bilíngües, desambiguação lexical de sentido,
entre outras. As diretrizes aqui apresentadas possibilitaram a criação
de córpus paralelos alinhados lexicalmente que seguem padrões bem
definidos eliminando, assim, um grande número de ambigüidades inerentes
do processo de alinhamento. Tanto os córpus quanto as diretrizes
produzidos neste trabalho poderão ser utilizados em projetos futuros
para a produção de ferramentas e recursos para o Processamento de
Linguagem Natural.


In this technical report we present some guidelines defined during
ReTraTos project for lexical alignment of Brazilian Portuguese, Spanish
and English parallel texts. Parallel texts and their aligned version
play an important role in many Natural Language Processing (NLP)
applications, such as: transfer rule learning for machine translation
(ReTraTos project's goal), Example-Based Machine Translation (EBMT),
Statistical Machine Translation (SMT), bilingual lexicography, and
word sense disambiguation, among others. By using these guidelines
lexically aligned parallel corpora can be built following well-defined
standards and avoiding, in this way, a lot of ambiguities inherent
in the alignment process. The corpora and guidelines produced in
this work can be used in future projects for building NLP tools and
resources.
BibTeX:
@techreport{Manual_marcacao_alinhamento_2005,
  author = {H. M. Caseli and M. A. G. Scalco and M. G. V. Nunes},
  title = {Manual para a marcação de alinhamentos lexicais (NILC-TR-05-09)},
  school = {Instituto de Ciências Matemáticas e de Computação (ICMC-USP)},
  year = {2005},
  number = {256},
  note = {21 p.},
  url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2005/NILC-TR-05-09.pdf}
}

2004

Caseli, H.M. (2004), "Regras de tradução automática induzidas de textos paralelos envolvendo o português do Brasil", printed. Agosto, 2004.
Abstract: A Tradução Automática - tradução de uma língua natural (fonte) para
outra (alvo) por meio de programas de computador - é uma tarefa árdua
devido, principalmente, à necessidade de um conhecimento lingüístico
aprofundado das duas (ou mais) línguas envolvidas para a criação
de recursos como gramáticas de tradução, léxicos bilíngües, etc.
Nos últimos anos, diversos trabalhos têm surgido com o intuito de
diminuir o esforço no desenvolvimento de recursos para a tradução
automática por meio da extração automática de conhecimento a partir
de córpus paralelos alinhados, um tipo de recurso lingüístico que
vem se tornando cada vez mais disponível na web, atualmente. Assim,
o projeto ReTraTos, apresentado neste documento, visa a indução de
regras de tradução a partir de córpus paralelos alinhados sentencialmente
usando técnicas de Aprendizado de Máquina e EBMT (Example Based Machine
Translation). Este é o primeiro trabalho, nesta área, envolvendo
o português do

Brasil (PB) e as regras de tradução serão induzidas de córpus paralelos
PB- inglês e PB-espanhol. As regras induzidas poderão ser usadas
em um sistema de tradução automática indireta por transferência para
traduzir sentenças na língua fonte para sentenças na língua alvo.


Machine Translation - translation from one natural language (source)
into another (target) by means of computer programs - is a hard task
mainly due to the need of comprehensive linguistic knowledge concerning
the two (or more) languages involved with which to create resources
such as translation grammars, bilingual lexicons, etc. In the latest
years, much work has been carried out with a focus on diminishing
efforts in the development of machine translation resources by means
of automatic knowledge extration from aligned parallel corpora, a
kind of linguistic resource that is currently becoming more and more
available on the web. Thus, project ReTraTos, presented in this document,
aims at the induction of translation rules from sentence-aligned
parallel corpora using Machine Learning and EBMT (Example Based Machine
Translation) techniques. This is the first work in this area for
Brazilian Portuguese (BP) and the translation rules will be induced
from BP-English and BP-Spanish parallel corpora. The induced rules
could be used in a trans fer-based machine translation system to
translate sentences from a source language into a target language.
BibTeX:
@misc{QualiDoc_2004,
  author = {H. M Caseli},
  title = {Regras de tradução automática induzidas de textos paralelos envolvendo o português do Brasil},
  howpublished = {printed},
  year = {2004},
  note = {QualiDoc_2004},
  url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2004/QualiDoutorado.pdf}
}
Caseli, H.M. & Nunes, M.G.V. (2004), "Alinhamento sentencial e lexical de córpus paralelos: recursos para a tradução automática", In Caderno de resumos do 52º Seminário do GEL - Simpósio de Perspectivas com Córpus para Tradução e Terminologia: Projetos de Pesquisa e Ferramentas. Campinas, SP., pp. 369-370.
BibTeX:
@inproceedings{GEL_2004,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {Alinhamento sentencial e lexical de córpus paralelos: recursos para a tradução automática},
  booktitle = {Caderno de resumos do 52º Seminário do GEL - Simpósio de Perspectivas com Córpus para Tradução e Terminologia: Projetos de Pesquisa e Ferramentas},
  year = {2004},
  pages = {369-370}
}
Caseli, H.M. & Nunes, M.G.V. (2004), "Corpus paralelo e corpus paralelo alinhado: propriedades e aplicações", Estudos Lingüísticos. Vol. 33, pp. 581-586.
Abstract: Parallel texts - texts in one language and their translation in other
- and aligned parallel texts - with identification of translation
correspondences - are very important in many applications such as
machine translation. In this paper we d escribe four Brazilian Portuguese
and English parallel corpora, their sentence aligned version and
some applications.
BibTeX:
@article{EstudosLinguisticos_2004,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {Corpus paralelo e corpus paralelo alinhado: propriedades e aplicações},
  journal = {Estudos Lingüísticos},
  year = {2004},
  volume = {33},
  pages = {581-586}
}
Caseli, H.M., Silva, A.M.P. & Nunes, M.G.V. (2004), "Evaluation of Methods for Sentence and Lexical Alignment of Brazilian Portuguese and English Parallel Texts", In Proceedings of the XVII Brazilian Symposium on Artificial Intelligence (SBIA) - Lecture Notes on Artificial Intelligence. São Luís, MA. Volume 3171, pp. 184-193.
Abstract: Parallel texts, i.e., texts in one language and their translations
to other languages, are very useful nowadays for many applications

such as machine translation and multilingual information retrieval.
If these texts are aligned in a sentence or lexical level their relevance
increases considerably. In this paper we describe some experiments
that have being carried out with Brazilian Portuguese and English
parallel texts by the use of well known alignment methods: five methods
for sentence alignment and

two methods for lexical alignment. Some linguistic resources were
built for these tasks and they are also described here. The

results have shown that sentence alignment methods achieved 85.89%
to 100% precision and word alignment methods, 51.84% to 95.61% on
corpora from different genres.
BibTeX:
@inproceedings{SBIA_2004,
  author = {H. M. Caseli and A. M. P. Silva and M. G. V. Nunes},
  title = {Evaluation of Methods for Sentence and Lexical Alignment of Brazilian Portuguese and English Parallel Texts},
  booktitle = {Proceedings of the XVII Brazilian Symposium on Artificial Intelligence (SBIA) - Lecture Notes on Artificial Intelligence},
  year = {2004},
  volume = {3171},
  pages = {184-193}
}

2003

Caseli, H.M. (2003), "Corpus Paralelo e Corpus Paralelo Alinhado: Propriedades e Aplicações", In Caderno de Resumos do 51º Semiário do GEL - Comunicação Coordenada: Lingüística de Corpus - construção de corpora para análise lingüística e treinamento de ferramentas de processamento de língua natural. Taubaté, SP., pp. 209-209.
BibTeX:
@inproceedings{GEL_2003,
  author = {H. M. Caseli},
  title = {Corpus Paralelo e Corpus Paralelo Alinhado: Propriedades e Aplicações},
  booktitle = {Caderno de Resumos do 51º Semiário do GEL - Comunicação Coordenada: Lingüística de Corpus - construção de corpora para análise lingüística e treinamento de ferramentas de processamento de língua natural},
  year = {2003},
  pages = {209-209}
}
Caseli, H.M. (2003), "Alinhamento sentencial de textos paralelos português-inglês". School: Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP)., Fevereiro, 2003.
Abstract: Esta dissertação relata o primeiro trabalho de pesquisa em alinhamento
automático de textos paralelos envolvendo o português brasileiro
(PB). Neste trabalho foram implementados cinco métodos de alinhamento
sentencial automático bastante referenciados na literatura, incluindo
métodos empíricos, lingüísticos e híbridos, avaliados com textos
paralelos PB-inglês. Os resultados mostraram-se compatíveis com os
relatados para outros pares de línguas, sendo que as maiores precisões
(acima de 94%) foram obtidas em corpora sem ruídos (sem erros gramaticais
e de tradução), conforme era esperado. Além disso, os resultados
apontam muita semelhança no desempenho de todos os métodos, o que
impossibilita a eleição de um deles como o melhor. Além da implementação
dos métodos de alinhamento sentencial e dos corpora paralelos construídos
para avaliá-los, outros recursos lingüísticos e computacionais de
grande valor para as pesquisas em PLN foram gerados durante este
trabalho.
BibTeX:
@mastersthesis{Dissertacao_2003,
  author = {H. M. Caseli},
  title = {Alinhamento sentencial de textos paralelos português-inglês},
  school = {Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP)},
  year = {2003},
  note = {101 p.}
}
Caseli, H.M. & Nunes, M.G.V. (2003), "Evaluation of Sentence Alignment Methods for Brazilian Portuguese and English Parallel Texts", In Proceedings of the IV Encontro Nacional de Inteligência Artificial (ENIA). Campinas, SP., pp. 1916-1925.
Abstract: Parallel texts - texts in one language and their translation in other
- are becoming plentiful and available nowadays on the WWW. Aligning
these texts means to find the correspondences between them in sentence
or word level. In this paper we describe some experiments done with
two sentence alignment methods - Gale and Church's method [Gale and
Church 1991], [Gale and Church 1993] and Geometric Mapping and Alignment
(GMA) [Melamed 1996a], [Melamed 2000] - for Brazilian Portuguese
and English parallel texts. The results show that both methods performed
very well, but, as already evidenced in other experiments, GMA had
a better performance with precision of 96-99%.
BibTeX:
@inproceedings{ENIA_2003,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {Evaluation of Sentence Alignment Methods for Brazilian Portuguese and English Parallel Texts},
  booktitle = {Proceedings of the IV Encontro Nacional de Inteligência Artificial (ENIA)},
  year = {2003},
  pages = {1916-1925}
}
Caseli, H.M. & Nunes, M.G.V. (2003), "Evaluation of Sentence Alignment Methods on Portuguese-English Parallel Texts", Scientia. Vol. 14(2), pp. 223-238.
Abstract: Parallel texts, i.e., texts in one language and their translations
to other languages, are very useful nowadays for many applications

such as machine translation and multilingual information retrieval.
If these texts are aligned in sentence level, for instance, their
relevance increases considerably. In this paper we describe some
experiments that have being done with Portuguese and English parallel
texts using five well known sentence alignment methods. Four corpora
were used for testing, achieving 85.89% to 100% of precision.
BibTeX:
@article{Scientia_2003,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {Evaluation of Sentence Alignment Methods on Portuguese-English Parallel Texts},
  journal = {Scientia},
  year = {2003},
  volume = {14},
  number = {2},
  pages = {223-238}
}
Caseli, H.M. & Nunes, M.G.V. (2003), "Sentence Alignment of Brazilian Portuguese and English Parallel Texts", In Proceedings of the Argentine Symposium on Artificial Intelligence (ASAI). Buenos Aires, Argentine., pp. 1-11.
Abstract: Parallel texts - texts in one language and their translations to other
languages - are becoming more and more available nowadays on the
Web. Aligning these texts means to find some correspondence between
them, in sentence level, for instance. In this paper we describe
some experiments done with Brazilian Portuguese and English parallel
texts using five well known sentence alignment methods. The results
show that most of them performed very well on the four corpora used
for testing, with 85.89%-100% of precision.
BibTeX:
@inproceedings{ASAI_2003,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {Sentence Alignment of Brazilian Portuguese and English Parallel Texts},
  booktitle = {Proceedings of the Argentine Symposium on Artificial Intelligence (ASAI)},
  year = {2003},
  pages = {1-11}
}

2002

Caseli, H.M. (2002), "Alinhamento sentencial de textos paralelos Português-Inglês". Fevereiro, 2002.
Abstract: A comunicação visando a troca de conhecimentos é uma das atividades
mais importantes no cenário mundial atual. Contudo, essa comunicação
sofre constantemente restrições relacionadas às diferentes línguas
existentes. A superação dessa barreira lingüística é um dos objetivos
dos trabalhos na área de Processamento de Línguas Naturais. O projeto
aqui descrito está inserido nesse contexto e pretende trabalhar em
um dos campos de PLN que mais se desenvolvem atualmente: o alinhamento
de textos paralelos (textos acompanhados de sua tradução). Esse projeto
propõe a análise de metodologias e técnicas de alinhamento sentencial
de textos paralelos para um corpus inglês-português do Brasil; a
implementação de protótipos utilizando os resultados dessa análise;
e a avaliação dos resultados obtidos.
BibTeX:
@misc{QualiMest_2002,
  author = {H. M. Caseli},
  title = {Alinhamento sentencial de textos paralelos Português-Inglês},
  year = {2002}
}
Caseli, H.M., Feltrim, V.D. & Nunes, M.G.V. (2002), "TagAlign: Uma ferramenta de pré-processamento de textos (NILC-TR-02-09)". Instituto de Ciências Matemáticas e de Computação (ICMC-USP)Instituto de Ciências Matemáticas e de Computação (ICMC-USP), Technical Report 169, 2002.
Abstract: Neste relatório é apresentada a descrição da ferramenta NILC TagAlign.
Essa ferramenta possui duas funcionalidades básicas: a marcação de
partes específicas do texto com etiquetas pré-definidas pelo usuário
ou pelo sistema e o alinhamento de textos paralelos utilizando um
módulo de suporte ao usuário. O alinhamento automático de textos
paralelos também é uma funcionalidade prevista para essa ferramenta.
A TagAlign processa textos no formato .txt e gera saídas também com
o mesmo formato. As saídas podem ser o texto de entrada marcado ou
desmarcado, dois textos paralelos alinhados ou apenas as sentenças
alinhadas dos textos paralelos.
BibTeX:
@techreport{TagAlign_2002,
  author = {H. M. Caseli and V. D. Feltrim and M. G. V. Nunes},
  title = {TagAlign: Uma ferramenta de pré-processamento de textos (NILC-TR-02-09)},
  school = {Instituto de Ciências Matemáticas e de Computação (ICMC-USP)},
  year = {2002},
  number = {169},
  url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2002/NILC-TR-02-09.pdf}
}
Caseli, H.M. & Nunes, M.G.V. (2002), "A construção dos recursos lingüísticos do projeto PESA (NILC-TR-02-07)". Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC), 2002.
Abstract: A utilização de recursos lingüísticos em projetos na área de Processamento
de Linguagem Natural (PLN), em muitos casos, é indispensável e, na
maioria das vezes, exige um esforço de construção bastante grande.
Este relatório apresenta o processo de construção (ou preparação)
dos recursos lingüísticos necessários para o projeto PESA (Portuguese-English
Sentence Alignment), que visa estudar, implementar e avaliar diversas
técnicas de alinhamento sentencial de textos paralelos. Para isso
foram construídos vários corpora - de teste e de referência - e uma
lista de palavras âncoras, apresentados neste relatório.
BibTeX:
@techreport{PESA_Recursos_2002,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {A construção dos recursos lingüísticos do projeto PESA (NILC-TR-02-07)},
  school = {Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)},
  year = {2002},
  url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2002/NILC-TR-02-07.pdf}
}
Caseli, H.M. & Nunes, M.G.V. (2002), "Alinhamento Sentencial de Textos Paralelos Português-Inglês", In Anais do VII Simpósio de Teses e Dissertações - II Workshop de Teses e Dissertações em Andamento (WTDA). São Carlos, SP., pp. 1-3.
BibTeX:
@inproceedings{WTDA_2002,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {Alinhamento Sentencial de Textos Paralelos Português-Inglês},
  booktitle = {Anais do VII Simpósio de Teses e Dissertações - II Workshop de Teses e Dissertações em Andamento (WTDA)},
  year = {2002},
  pages = {1-3}
}
Caseli, H.M. & Nunes, M.G.V. (2002), "Alinhamento sentencial de textos paralelos: implementação e avaliação de métodos empíricos para o português do Brasil (NILC-TR-02-19)". Instituto de Ciências Matemáticas e de Computação (ICMC-USP)Instituto de Ciências Matemáticas e de Computação (ICMC-USP), Technical Report 176, 2002.
BibTeX:
@techreport{PESA_Alinhamento_2002,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {Alinhamento sentencial de textos paralelos: implementação e avaliação de métodos empíricos para o português do Brasil (NILC-TR-02-19)},
  school = {Instituto de Ciências Matemáticas e de Computação (ICMC-USP)},
  year = {2002},
  number = {176},
  url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2002/NILC-TR-02-19.pdf}
}
Caseli, H.M. & Nunes, M.G.V. (2002), "O projeto PESA: Alinhamento Sentencial de Textos Paralelos Português-Inglês", In Proceedings of the I Workshop de Teses e Dissertações em Inteligência Artificial (WTDIA)., pp. 1-10.
Abstract: O alinhamento sentencial de textos paralelos é uma subárea de PLN
(Processamento de Língua Natural) que vem despertando o interesse
da comunidade científica devido, principalmente, ao grande número
de aplicações para as quais pode ser útil. Nesse contexto está inserido
o PESA (Portuguese-English Sentence Alignment), um projeto que visa
estudar, implementar e avaliar diferentes técnicas de alinhamento
sentencial de textos paralelos escritos em português brasileiro e
em inglês. Trata-se do primeiro projeto dessa natureza a envolver
o português brasileiro. Além de apresentar as características do
PESA e suas etapas, este artigo demonstra a relevância desse projeto
enfatizando as contribuições por ele geradas.
BibTeX:
@inproceedings{WTDIA_2002,
  author = {H. M. Caseli and M. G. V. Nunes},
  title = {O projeto PESA: Alinhamento Sentencial de Textos Paralelos Português-Inglês},
  booktitle = {Proceedings of the I Workshop de Teses e Dissertações em Inteligência Artificial (WTDIA)},
  year = {2002},
  pages = {1-10}
}

2001

Martins, M.S., Caseli, H.M. & Nunes, M.G.V. (2001), "A construção de um corpus de textos paralelos inglês-português (NILC-TR-01-05)". Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC), 2001.
Abstract: Neste relatório é descrito o processo de construção de um corpus bilíngüe
inglês-português brasileiro, composto por resumos de teses, dissertações,
monografias e artigos da área de computação, para o estudo de técnicas
e metodologias de alinhamento de textos paralelos.
BibTeX:
@techreport{Corpus_2001,
  author = {M. S. Martins and H. M. Caseli and M. G. V. Nunes},
  title = {A construção de um corpus de textos paralelos inglês-português (NILC-TR-01-05)},
  school = {Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC)},
  year = {2001},
  url = {http://www2.dc.ufscar.br/ helenacaseli/pdf/2001/NILC-TR-01-05.pdf}
}