| Aluísio, S.M., Specia, L., Pardo, T.A.S., Maziero, E.G., Caseli, H.M. & Fortes, R. (2008), "A Corpus Analysis of Simple Account Texts and the Proposal of Simplification Strategies: First Steps towards Text Simplification Systems", In Proceedings of the International Conference on Design of Communication (SIGDOC). Lisboa, Portugal., pp. 15-22. |
| Abstract: In this paper we investigate the main linguistic phenomena that can make texts complex and how they could be simplified. We focus on a corpus analysis of simple account texts available on the web for Brazilian Portuguese (BP). This study illustrates the need for text simplification to facilitate accessibility to information by poor readers and by people with cognitive disabilities. It also highlights features of simplification for BP, which may differ from other languages. Moreover, we propose simplification strategies and a Simplification Annotation Editor. This study consists of the first step towards building BP text simplification systems. One of the scenarios in which these systems could be used is that of reading electronic texts produced, e.g., by the Brazilian government or by news agencies. |
BibTeX:
@inproceedings{SIGDOC_2008,
author = {S. M. Aluísio and L. Specia and T. A. S. Pardo and E. G. Maziero and H. M. Caseli and R. Fortes},
title = {A Corpus Analysis of Simple Account Texts and the Proposal of Simplification Strategies: First Steps towards Text Simplification Systems},
booktitle = {Proceedings of the International Conference on Design of Communication (SIGDOC)},
year = {2008},
pages = {15-22}
}
|
| Barchi, P.H., Caseli, H.M. & Anacleto, J.C. (2009), "Alinhamento de Grafos: Investigação do Alinhamento de ConceptNets para a Tradução Automática", In Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic). São Carlos, SP, Brasil., pp. 1-4. |
| Abstract: Esse artigo descreve uma proposta de pesquisa que visa o alinhamento de conceitos em redes semânticas paralelas, particularmente para os idiomas português do Brasil e inglês. As redes semânticas (ConceptNets) consideradas nesta proposta estão estruturadas em nós e arcos (que conectam os nós). Os nós armazenam os conhecimentos da base de senso comum, enquanto os arcos representam as relações entre dois nós, baseadas nos estudos sobre a teoria de (Minsky, 1986). A partir desse alinhamento de conceitos similares em idiomas distintos outras técnicas poderão ser aplicadas para extração de conhecimento útil para a tradução automática. |
BibTeX:
@inproceedings{TILic_Paulo_2009,
author = {P. H. Barchi and H. M. Caseli and J. C. Anacleto},
title = {Alinhamento de Grafos: Investigação do Alinhamento de ConceptNets para a Tradução Automática},
booktitle = {Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic)},
year = {2009},
pages = {1-4},
url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/tilic/BarchiETAL.pdf}
}
|
| Caseli, H.M. (2007), "Indução de léxicos bilíngües e regras para a tradução automática". School: Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP)., Maio, 2007. |
| Abstract: Machine Translation (MT) -- the translation of a natural (source) language into another (target) by means of computer programs -- is a hard task, mainly due to the need of deep linguistic knowledge about the two (or more) languages required to build resources such as translation grammars, bilingual dictionaries, etc. The scarcity of linguistic resources or even the difficulty to build them often limits the use of MT systems, for example, to certain application domains. In this context, several methods have been proposed aiming at generating linguistic knowledge automatically from multilingual resources, so that building translation tools becomes less hard. The ReTraTos project presented in this document is one of these proposals and aims at inducing translation lexicons and transfer rules automatically from PoS-tagged and lexically aligned translation examples for Portuguese--Spanish and Portuguese--English language pairs. The rule induction system brings forth a new approach, in which translation examples are split into alignment blocks and induction is performed for each type of block separately. Another new feature of this system is a more elaborate strategy for filtering the induced rules. Besides the translation lexicon and the transfer rule induction systems, we also implemented a MT module for validating the induced resources. The induced translation lexicons were evaluated intrinsically and the results obtained agree with those reported on the literature. The induced translation rules were evaluated directly and indirectly by the MT module, and improved the word-by-word translation in both directions (source--target and target--source) for the languages under study. The target sentences obtained by the induced resources were also compared to those generated by commercial systems, showing better results for Portuguese--Spanish than for Portuguese--English. |
BibTeX:
@phdthesis{Tese_2007,
author = {H. M. Caseli},
title = {Indução de léxicos bilíngües e regras para a tradução automática},
school = {Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP)},
year = {2007},
note = {158 p.}
}
|
| Caseli, H.M. (2004), "Regras de tradução automática induzidas de textos paralelos envolvendo o português do Brasil", printed. Agosto, 2004. |
| Abstract: A Tradução Automática - tradução de uma língua natural (fonte) para outra (alvo) por meio de programas de computador - é uma tarefa árdua devido, principalmente, à necessidade de um conhecimento lingüístico aprofundado das duas (ou mais) línguas envolvidas para a criação de recursos como gramáticas de tradução, léxicos bilíngües, etc. Nos últimos anos, diversos trabalhos têm surgido com o intuito de diminuir o esforço no desenvolvimento de recursos para a tradução automática por meio da extração automática de conhecimento a partir de córpus paralelos alinhados, um tipo de recurso lingüístico que vem se tornando cada vez mais disponível na web, atualmente. Assim, o projeto ReTraTos, apresentado neste documento, visa a indução de regras de tradução a partir de córpus paralelos alinhados sentencialmente usando técnicas de Aprendizado de Máquina e EBMT (Example Based Machine Translation). Este é o primeiro trabalho, nesta área, envolvendo o português do Brasil (PB) e as regras de tradução serão induzidas de córpus paralelos PB- inglês e PB-espanhol. As regras induzidas poderão ser usadas em um sistema de tradução automática indireta por transferência para traduzir sentenças na língua fonte para sentenças na língua alvo. Machine Translation - translation from one natural language (source) into another (target) by means of computer programs - is a hard task mainly due to the need of comprehensive linguistic knowledge concerning the two (or more) languages involved with which to create resources such as translation grammars, bilingual lexicons, etc. In the latest years, much work has been carried out with a focus on diminishing efforts in the development of machine translation resources by means of automatic knowledge extration from aligned parallel corpora, a kind of linguistic resource that is currently becoming more and more available on the web. Thus, project ReTraTos, presented in this document, aims at the induction of translation rules from sentence-aligned parallel corpora using Machine Learning and EBMT (Example Based Machine Translation) techniques. This is the first work in this area for Brazilian Portuguese (BP) and the translation rules will be induced from BP-English and BP-Spanish parallel corpora. The induced rules could be used in a trans fer-based machine translation system to translate sentences from a source language into a target language. |
BibTeX:
@misc{QualiDoc_2004,
author = {H. M Caseli},
title = {Regras de tradução automática induzidas de textos paralelos envolvendo o português do Brasil},
howpublished = {printed},
year = {2004},
note = {QualiDoc_2004}
}
|
| Caseli, H.M. (2003), "Alinhamento sentencial de textos paralelos português-inglês". School: Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP)., Fevereiro, 2003. |
| Abstract: Esta dissertação relata o primeiro trabalho de pesquisa em alinhamento automático de textos paralelos envolvendo o português brasileiro (PB). Neste trabalho foram implementados cinco métodos de alinhamento sentencial automático bastante referenciados na literatura, incluindo métodos empíricos, lingüísticos e híbridos, avaliados com textos paralelos PB-inglês. Os resultados mostraram-se compatíveis com os relatados para outros pares de línguas, sendo que as maiores precisões (acima de 94%) foram obtidas em corpora sem ruídos (sem erros gramaticais e de tradução), conforme era esperado. Além disso, os resultados apontam muita semelhança no desempenho de todos os métodos, o que impossibilita a eleição de um deles como o melhor. Além da implementação dos métodos de alinhamento sentencial e dos corpora paralelos construídos para avaliá-los, outros recursos lingüísticos e computacionais de grande valor para as pesquisas em PLN foram gerados durante este trabalho. |
BibTeX:
@mastersthesis{Dissertacao_2003,
author = {H. M. Caseli},
title = {Alinhamento sentencial de textos paralelos português-inglês},
school = {Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP)},
year = {2003},
note = {101 p.}
}
|
| Caseli, H.M. (2003), "Corpus Paralelo e Corpus Paralelo Alinhado: Propriedades e Aplicações", In Caderno de Resumos do 51º Semiário do GEL - Comunicação Coordenada: Lingüística de Corpus - construção de corpora para análise lingüística e treinamento de ferramentas de processamento de língua natural. Taubaté, SP., pp. 209-209. |
BibTeX:
@inproceedings{GEL_2003,
author = {H. M. Caseli},
title = {Corpus Paralelo e Corpus Paralelo Alinhado: Propriedades e Aplicações},
booktitle = {Caderno de Resumos do 51º Semiário do GEL - Comunicação Coordenada: Lingüística de Corpus - construção de corpora para análise lingüística e treinamento de ferramentas de processamento de língua natural},
year = {2003},
pages = {209-209}
}
|
| Caseli, H.M. (2002), "Alinhamento sentencial de textos paralelos Português-Inglês". Fevereiro, 2002. |
| Abstract: A comunicação visando a troca de conhecimentos é uma das atividades mais importantes no cenário mundial atual. Contudo, essa comunicação sofre constantemente restrições relacionadas às diferentes línguas existentes. A superação dessa barreira lingüística é um dos objetivos dos trabalhos na área de Processamento de Línguas Naturais. O projeto aqui descrito está inserido nesse contexto e pretende trabalhar em um dos campos de PLN que mais se desenvolvem atualmente: o alinhamento de textos paralelos (textos acompanhados de sua tradução). Esse projeto propõe a análise de metodologias e técnicas de alinhamento sentencial de textos paralelos para um corpus inglês-português do Brasil; a implementação de protótipos utilizando os resultados dessa análise; e a avaliação dos resultados obtidos. |
BibTeX:
@misc{QualiMest_2002,
author = {H. M. Caseli},
title = {Alinhamento sentencial de textos paralelos Português-Inglês},
year = {2002}
}
|
| Caseli, H.M., Feltrim, V.D. & Nunes, M.G.V. (2002), "TagAlign: Uma ferramenta de pré-processamento de textos (NILC-TR-02-09)". Instituto de Ciências Matemáticas e de Computação (ICMC-USP), Technical Report 169, 2002. |
| Abstract: Neste relatório é apresentada a descrição da ferramenta NILC TagAlign. Essa ferramenta possui duas funcionalidades básicas: a marcação de partes específicas do texto com etiquetas pré-definidas pelo usuário ou pelo sistema e o alinhamento de textos paralelos utilizando um módulo de suporte ao usuário. O alinhamento automático de textos paralelos também é uma funcionalidade prevista para essa ferramenta. A TagAlign processa textos no formato .txt e gera saídas também com o mesmo formato. As saídas podem ser o texto de entrada marcado ou desmarcado, dois textos paralelos alinhados ou apenas as sentenças alinhadas dos textos paralelos. |
BibTeX:
@techreport{TagAlign_2002,
author = {H. M. Caseli and V. D. Feltrim and M. G. V. Nunes},
title = {TagAlign: Uma ferramenta de pré-processamento de textos (NILC-TR-02-09)},
year = {2002},
number = {169}
}
|
| Caseli, H.M., Gomes, F.T., Pardo, T.A.S. & Nunes, M.G.V. (2008), "VisualLIHLA: the visual online tool for lexical alignment", In Proceedings of the VI Workshop em Tecnologia da Informação e da Linguagem Humana (TIL). Vila Velha, ES. October 2008., pp. 1-3. |
| Abstract: This paper presents a freely available online lexical alignment tool based on the LIHLA lexical aligner. LIHLA aligns tokens, words and multiword units based on language-independent heuristics (cognates, position, etc.) and automatically built language-dependent resources (bilingual dictionaries). VisualLIHLA allows the online usage, visualization and download of the lexical alignments produced by LIHLA with 84--92% of precision and 76--91% of recall. |
BibTeX:
@inproceedings{TIL_2008,
author = {H. M. Caseli and F. T. Gomes and T. A. S. Pardo and M. G. V. Nunes},
title = {VisualLIHLA: the visual online tool for lexical alignment},
booktitle = {Proceedings of the VI Workshop em Tecnologia da Informação e da Linguagem Humana (TIL)},
year = {2008},
pages = {1-3}
}
|
| Caseli, H.M. & das Graças V. Nunes, M. (2010), "Transfer rule and bilingual dictionary automatic induction in the ReTraTos project", In Proceedings of the PhD and MSc Dissertation Contest. Porto Alegre, RS. April 2010., pp. 1-8. |
| Abstract: In this paper we present the ReTraTos methodology to automatically induce bilingual resources ---transfer rules and bilingual dictionaries--- from parallel corpora. These resources are very useful in Machine Translation (MT) and other bilingual Natural Language Processing (NLP) applications. As a result, several automatic approaches have been proposed to avoid the extensive hard work employed to manually build these resources. The automatic approaches described in this paper aim at building bilingual dictionaries and shallow-transfer rules by extracting knowledge from word-aligned and part-of-speech tagged parallel corpora. Experiments carried out with Brazilian Portuguese--Spanish and Brazilian Portuguese--English parallel texts show that the proposed methodologies can speed the development of these valuable computational resources and, thus, help the development of MT systems for new pairs of languages. Furthermore, the rule induction methodology is innovative in the way rules are identified and filtered. |
BibTeX:
@inproceedings{PROPOR_CTD_2010,
author = {Helena M. Caseli and Maria das Graças V. Nunes},
title = {Transfer rule and bilingual dictionary automatic induction in the ReTraTos project},
booktitle = {Proceedings of the PhD and MSc Dissertation Contest},
year = {2010},
pages = {1--8}
}
|
| Caseli, H.M. & Nunes, I.A. (2009), "Tradução Automática Estatística baseada em Frases e Fatorada: Experimentos com os idiomas Português do Brasil e Inglês usando o toolkit Moses (NILC-TR-09-07)". Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC), 2009. |
| Abstract: Este relatório apresenta uma descrição do uso do toolkit de tradução automática estatística Moses na construção e na avaliação de modelos de tradução baseados em frases (phrase-based) tradicionais (considerados o estado da arte) e fatorados (uma extensão dos modelos baseados em frases). Além de apresentar uma descrição da ferramenta utilizada, seu processo de instalação e utilização, também são relatados os resultados alcançados em vários experimentos desenvolvidos para testar a tradução automática estatística baseada em frases e a fatorada com um corpus paralelo de textos escritos em português do Brasil (pt) e inglês (en). Os experimentos demonstram que a tradução fatorada, na qual fatores adicionais (além das formas superficiais das palavras) são usados na geração dos modelos de tradução e língua, apresenta resultados melhores do que a tradução tradicional baseada em frases. Essa melhora no desempenho, verificada em termos das medidas de avaliação automática BLEU e NIST, mostrou-se estatisticamente significante em alguns experimentos no sentido de tradução en-pt, no qual as informações adicionais na língua alvo (o português nesse caso) possuem maior relevância por ser esta uma língua com maior variação morfológica do que a língua fonte (o inglês, nesse caso). |
BibTeX:
@techreport{Moses_RT_2009,
author = {Caseli, H. M. and Nunes, I. A.},
title = {Tradução Automática Estatística baseada em Frases e Fatorada: Experimentos com os idiomas Português do Brasil e Inglês usando o toolkit Moses (NILC-TR-09-07)},
year = {2009},
note = {40 p.}
}
|
| Caseli, H.M. & Nunes, I.A. (2009), "Statistical Machine Translation: little changes big impacts", In Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology. São Carlos, SP, Brazil., pp. 1-9. |
| Abstract: In this paper we describe some experiments carried out to test the impact of automatic casing and punctuation changes when training and testing statistical translation models. The experiments described here concern the translation from/to English and Brazilian Portuguese texts but since the superficial changes investigated are language independent, we believe that the conclusions can be applied to many other pairs of languages. These experiments were designed aiming at setting a baseline scenario for future training and testing of more complex statistical translation models such as the factored ones. From the experiments presented here it is possible to see that case and punctuation changes have a significant impact on automatic translation results. |
BibTeX:
@inproceedings{STIL_SMT_2009,
author = {H. M. Caseli and I. A. Nunes},
title = {Statistical Machine Translation: little changes big impacts},
booktitle = {Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology},
year = {2009},
pages = {1-9},
url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/stil/Caseli-57791_1.pdf}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2008), "Automatic induction of bilingual resources for machine translation: the ReTraTos project", In Proceedings of the VI Concurso de Teses e Dissertações em Inteligência Artificial (CTDIA) - Menção Honrosa. Salvador, BA. October 2008., pp. 1-10. |
| Abstract: Machine translation (MT) is one of the oldest and greatest areas of Natural Language Processing (NLP) and its relevance has increased a lot in the last years due to the multilingual Web. However, to perform MT task, mainly rule-based MT (RBMT), it is necessary some linguistic resources (bilingual single-word and multi-word correspondences, translation rules, etc.) which demand extensive manual work to be built. This paper describes a methodology to build automatically both bilingual dictionaries and shallow-transfer rules by extracting knowledge from word-aligned parallel corpora. We show experiments for Brazilian Portuguese--Spanish and Brazilian Portuguese--English parallel texts. The results show that the proposed methodology can enable a rapid creation of valuable computational resources for machine translation and other NLP tasks. |
BibTeX:
@inproceedings{CTDIA_2008,
author = {H. M. Caseli and M. G. V. Nunes},
title = {Automatic induction of bilingual resources for machine translation: the ReTraTos project},
booktitle = {Proceedings of the VI Concurso de Teses e Dissertações em Inteligência Artificial (CTDIA) - Menção Honrosa},
year = {2008},
pages = {1-10}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2007), "Automatic induction of bilingual lexicons for machine translation", International Journal of Translation. Vol. 19, pp. 29-43. |
| Abstract: Translation lexicons are one of the most important linguistic resources for machine translation. However, this bilingual set of word and multiword correspondences requires a lot of manual work to be built. This paper describes a method to automatically build translation lexicons. The lexicons are built by extracting knowledge from PoS-tagged and lexically aligned parallel corpora. Preliminary experiments were carried out on Brazilian Portuguese, Spanish and English parallel texts. The results of a manual analysis showed that 85% of pt-es and 89% of pt-en entries are plausible correspondences. These results were obtained taking into consideration only the classes of entries which achieved the best results. Target sentences were generated using all induced entries. These sentences were compared with target sentences generated by commercial systems. This comparison emphasizes the relevance of translation lexicons in machine translation, mainly in Portuguese-Spanish. |
BibTeX:
@article{InternationalJournalofTranslation_2007,
author = {H. M. Caseli and M. G. V. Nunes},
title = {Automatic induction of bilingual lexicons for machine translation},
journal = {International Journal of Translation},
year = {2007},
volume = {19},
pages = {29-43}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2007), "Automatic induction of translation lexicons from aligned parallel corpora", In Proceedings of the V Workshop em Tecnologia da Informação e da Linguagem Humana (TIL). Rio de Janeiro, RJ., pp. 1669-1678. |
| Abstract: Translation lexicons are one of the most important linguistic resources for machine translation. However, this bilingual set of word and multiword correspondences requires a lot of manual work to be built. This paper describes a method to automatically build translation lexicons by extracting knowledge from PoS-tagged and lexically aligned parallel corpora. Preliminary experiments were carried out on Brazilian Portuguese (pt), Spanish (es) and English (en) parallel texts. The results showed that 85% of pt--es and 89% of pt--en entries are plausible correspondences. These results were obtained taking into consideration only the classes of entries which achieved the best results. |
BibTeX:
@inproceedings{TIL_ReTraTos_2007,
author = {H. M. Caseli and M. G. V. Nunes},
title = {Automatic induction of translation lexicons from aligned parallel corpora},
booktitle = {Proceedings of the V Workshop em Tecnologia da Informação e da Linguagem Humana (TIL)},
year = {2007},
pages = {1669-1678}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2006), "Anali: uma ferramenta de análise morfossintática (NILC-TR-06-09)". Instituto de Ciências Matemáticas e de Computação (ICMC-USP), Technical Report 285, 2006. |
| Abstract: Este relatório apresenta a ferramenta de análise morfossintática anali, a qual foi desenvolvida no NILC (Núcleo Interinstitucional de Lingüística Computacional) como resultado da união de outras duas ferramentas de Processamento de Língua Natural: o etiquetador MXPOST e a ferramenta de análise de corpus Unitex. Nesse sentido, anali representa um ganho em relação ao que é produzido pelas ferramentas citadas, em dois sentidos. Por um lado, enriquece a saída de MXPOST inserindo mais informação a respeito da análise retornada por esse etiquetador; e, por outro, desambigua a saída de Unitex ao definir qual das várias análises existentes em seus dicionários eletrônicos é a melhor, em cada caso. Além disso, anali pode operar em três modos distintos: etiquetação (com base apenas na saída de MXPOST), análise morfossintática (com base apenas na saída de Unitex) ou ambos. |
BibTeX:
@techreport{Anali_2006,
author = {H. M. Caseli and M. G. V. Nunes},
title = {Anali: uma ferramenta de análise morfossintática (NILC-TR-06-09)},
year = {2006},
number = {285},
note = {44 p.}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2006), "Automatic transfer rule induction from parallel corpora", In Proceedings of the 3rd Workshop on MSc dissertations and PhD thesis in Artificial Intelligence (WTDIA) - International Joint Conference IBERAMIA/SBIA/SBRN 2006. Ribeirão Preto, SP., pp. 1-10. |
| Abstract: Recently, many projects have been proposed aiming at automatically transforming the multilingual information available on parallel texts into linguistic knowledge useful for machine translation. This paper describes an ongoing PhD project in which the main goal is to automatically induce transfer rules and bilingual dictionaries from part-of-speech tagged and lexically aligned parallel corpora. The final goal of this project is to use the induced rules and bilingual entries to translate from (to) Brazilian Portuguese to (from) Spanish and English. |
BibTeX:
@inproceedings{WTDIA_2006,
author = {H. M. Caseli and M. G. V. Nunes},
title = {Automatic transfer rule induction from parallel corpora},
booktitle = {Proceedings of the 3rd Workshop on MSc dissertations and PhD thesis in Artificial Intelligence (WTDIA) - International Joint Conference IBERAMIA/SBIA/SBRN 2006},
year = {2006},
pages = {1-10}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2005), "Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática", Estudos Lingüísticos. Vol. 34, pp. 356-361. |
| Abstract: Parallel texts - texts in one language and their translation in other - and aligned parallel texts - with identification of translation correspondences - are becoming more and more important for many NLP applications, mainly, machine translation. In this paper we describe some experiments carried out on sentence and lexical alignment of Portuguese-English parallel texts from differents genres: scientific, law and journalistic. The linguistic and computational resources and the knowledge derived from these experiments are very important for future work in machine translation field. |
BibTeX:
@article{EstudosLinguisticos_2005,
author = {H. M. Caseli and M. G. V. Nunes},
title = {Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática},
journal = {Estudos Lingüísticos},
year = {2005},
volume = {34},
pages = {356-361}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2004), "Corpus paralelo e corpus paralelo alinhado: propriedades e aplicações", Estudos Lingüísticos. Vol. 33, pp. 581-586. |
| Abstract: Parallel texts - texts in one language and their translation in other - and aligned parallel texts - with identification of translation correspondences - are very important in many applications such as machine translation. In this paper we d escribe four Brazilian Portuguese and English parallel corpora, their sentence aligned version and some applications. |
BibTeX:
@article{EstudosLinguisticos_2004,
author = {H. M. Caseli and M. G. V. Nunes},
title = {Corpus paralelo e corpus paralelo alinhado: propriedades e aplicações},
journal = {Estudos Lingüísticos},
year = {2004},
volume = {33},
pages = {581-586}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2004), "Alinhamento sentencial e lexical de córpus paralelos: recursos para a tradução automática", In Caderno de resumos do 52º Seminário do GEL - Simpósio de Perspectivas com Córpus para Tradução e Terminologia: Projetos de Pesquisa e Ferramentas. Campinas, SP., pp. 369-370. |
BibTeX:
@inproceedings{GEL_2004,
author = {H. M. Caseli and M. G. V. Nunes},
title = {Alinhamento sentencial e lexical de córpus paralelos: recursos para a tradução automática},
booktitle = {Caderno de resumos do 52º Seminário do GEL - Simpósio de Perspectivas com Córpus para Tradução e Terminologia: Projetos de Pesquisa e Ferramentas},
year = {2004},
pages = {369-370}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2003), "Sentence Alignment of Brazilian Portuguese and English Parallel Texts", In Proceedings of the Argentine Symposium on Artificial Intelligence (ASAI). Buenos Aires, Argentine., pp. 1-11. |
| Abstract: Parallel texts - texts in one language and their translations to other languages - are becoming more and more available nowadays on the Web. Aligning these texts means to find some correspondence between them, in sentence level, for instance. In this paper we describe some experiments done with Brazilian Portuguese and English parallel texts using five well known sentence alignment methods. The results show that most of them performed very well on the four corpora used for testing, with 85.89%-100% of precision. |
BibTeX:
@inproceedings{ASAI_2003,
author = {H. M. Caseli and M. G. V. Nunes},
title = {Sentence Alignment of Brazilian Portuguese and English Parallel Texts},
booktitle = {Proceedings of the Argentine Symposium on Artificial Intelligence (ASAI)},
year = {2003},
pages = {1-11}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2003), "Evaluation of Sentence Alignment Methods for Brazilian Portuguese and English Parallel Texts", In Proceedings of the IV Encontro Nacional de Inteligência Artificial (ENIA). Campinas, SP., pp. 1916-1925. |
| Abstract: Parallel texts - texts in one language and their translation in other - are becoming plentiful and available nowadays on the WWW. Aligning these texts means to find the correspondences between them in sentence or word level. In this paper we describe some experiments done with two sentence alignment methods - Gale and Church's method [Gale and Church 1991], [Gale and Church 1993] and Geometric Mapping and Alignment (GMA) [Melamed 1996a], [Melamed 2000] - for Brazilian Portuguese and English parallel texts. The results show that both methods performed very well, but, as already evidenced in other experiments, GMA had a better performance with precision of 96-99%. |
BibTeX:
@inproceedings{ENIA_2003,
author = {H. M. Caseli and M. G. V. Nunes},
title = {Evaluation of Sentence Alignment Methods for Brazilian Portuguese and English Parallel Texts},
booktitle = {Proceedings of the IV Encontro Nacional de Inteligência Artificial (ENIA)},
year = {2003},
pages = {1916-1925}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2003), "Evaluation of Sentence Alignment Methods on Portuguese-English Parallel Texts", Scientia. Vol. 14(2), pp. 223-238. |
| Abstract: Parallel texts, i.e., texts in one language and their translations to other languages, are very useful nowadays for many applications such as machine translation and multilingual information retrieval. If these texts are aligned in sentence level, for instance, their relevance increases considerably. In this paper we describe some experiments that have being done with Portuguese and English parallel texts using five well known sentence alignment methods. Four corpora were used for testing, achieving 85.89% to 100% of precision. |
BibTeX:
@article{Scientia_2003,
author = {H. M. Caseli and M. G. V. Nunes},
title = {Evaluation of Sentence Alignment Methods on Portuguese-English Parallel Texts},
journal = {Scientia},
year = {2003},
volume = {14},
number = {2},
pages = {223-238}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2002), "Alinhamento sentencial de textos paralelos: implementação e avaliação de métodos empíricos para o português do Brasil (NILC-TR-02-19)". Instituto de Ciências Matemáticas e de Computação (ICMC-USP), Technical Report 176, 2002. |
BibTeX:
@techreport{PESA_Alinhamento_2002,
author = {H. M. Caseli and M. G. V. Nunes},
title = {Alinhamento sentencial de textos paralelos: implementação e avaliação de métodos empíricos para o português do Brasil (NILC-TR-02-19)},
year = {2002},
number = {176}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2002), "A construção dos recursos lingüísticos do projeto PESA (NILC-TR-02-07)". Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC), 2002. |
| Abstract: A utilização de recursos lingüísticos em projetos na área de Processamento de Linguagem Natural (PLN), em muitos casos, é indispensável e, na maioria das vezes, exige um esforço de construção bastante grande. Este relatório apresenta o processo de construção (ou preparação) dos recursos lingüísticos necessários para o projeto PESA (Portuguese-English Sentence Alignment), que visa estudar, implementar e avaliar diversas técnicas de alinhamento sentencial de textos paralelos. Para isso foram construídos vários corpora - de teste e de referência - e uma lista de palavras âncoras, apresentados neste relatório. |
BibTeX:
@techreport{PESA_Recursos_2002,
author = {H. M. Caseli and M. G. V. Nunes},
title = {A construção dos recursos lingüísticos do projeto PESA (NILC-TR-02-07)},
year = {2002}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2002), "Alinhamento Sentencial de Textos Paralelos Português-Inglês", In Anais do VII Simpósio de Teses e Dissertações - II Workshop de Teses e Dissertações em Andamento (WTDA). São Carlos, SP., pp. 1-3. |
BibTeX:
@inproceedings{WTDA_2002,
author = {H. M. Caseli and M. G. V. Nunes},
title = {Alinhamento Sentencial de Textos Paralelos Português-Inglês},
booktitle = {Anais do VII Simpósio de Teses e Dissertações - II Workshop de Teses e Dissertações em Andamento (WTDA)},
year = {2002},
pages = {1-3}
}
|
| Caseli, H.M. & Nunes, M.G.V. (2002), "O projeto PESA: Alinhamento Sentencial de Textos Paralelos Português-Inglês", In Proceedings of the I Workshop de Teses e Dissertações em Inteligência Artificial (WTDIA)., pp. 1-10. |
| Abstract: O alinhamento sentencial de textos paralelos é uma subárea de PLN (Processamento de Língua Natural) que vem despertando o interesse da comunidade científica devido, principalmente, ao grande número de aplicações para as quais pode ser útil. Nesse contexto está inserido o PESA (Portuguese-English Sentence Alignment), um projeto que visa estudar, implementar e avaliar diferentes técnicas de alinhamento sentencial de textos paralelos escritos em português brasileiro e em inglês. Trata-se do primeiro projeto dessa natureza a envolver o português brasileiro. Além de apresentar as características do PESA e suas etapas, este artigo demonstra a relevância desse projeto enfatizando as contribuições por ele geradas. |
BibTeX:
@inproceedings{WTDIA_2002,
author = {H. M. Caseli and M. G. V. Nunes},
title = {O projeto PESA: Alinhamento Sentencial de Textos Paralelos Português-Inglês},
booktitle = {Proceedings of the I Workshop de Teses e Dissertações em Inteligência Artificial (WTDIA)},
year = {2002},
pages = {1-10}
}
|
| Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2008), "From free shallow monolingual resources to machine translation systems: easing the task", In Proceedings of the Workshop on Mixing Approaches to Machine Translation (MATMT08). San Sebastian, Spain. 14th February 2008. Volume 1, pp. 41-48. |
| Abstract: The availability of machine-readable bilingual linguistic resources is crucial not only for machine translation but also for other applications such as cross-lingual information retrieval. However, the building of such resources demands extensive manual work. This paper describes a methodology to build automatically bilingual dictionaries and transfer rules by extracting knowledge from word-aligned parallel corpora processed with free shallow monolingual resources (morphological analysers and part-of-speech taggers). Experiments for Brazilian Portuguese--Spanish and Brazilian Portuguese--English parallel texts have shown promising results. |
BibTeX:
@inproceedings{MATMT_2008,
author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
title = {From free shallow monolingual resources to machine translation systems: easing the task},
booktitle = {Proceedings of the Workshop on Mixing Approaches to Machine Translation (MATMT08)},
year = {2008},
volume = {1},
pages = {41-48}
}
|
| Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2008), "On the Automatic Learning of Bilingual Resources: Some Relevant Factors for Machine Translation", In Proceedings of the 19th Brazilian Symposium on Artificial Intelligence (SBIA). Salvador, BA. October 2008. Volume 5249(1), pp. 258-267. Springer Berlin / Heidelberg. |
| Abstract: In this paper we present experiments concerned with automatically learning bilingual resources for machine translation: bilingual dictionaries and transfer rules. The experiments were carried out with Brazilian Portuguese (pt), English (en) and Spanish (es) texts in two parallel corpora: pt--en and pt--es. They were designed to investigate the relevance of two factors in the induction process, namely: (1) the coverage of linguistic resources used when preprocessing the training corpora and (2) the maximum length threshold (for transfer rules) used in the induction process. From these experiments, it is possible to conclude that both factors have an influence in the automatic learning of bilingual resources. |
BibTeX:
@inproceedings{SBIA_2008,
author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
title = {On the Automatic Learning of Bilingual Resources: Some Relevant Factors for Machine Translation},
booktitle = {Proceedings of the 19th Brazilian Symposium on Artificial Intelligence (SBIA)},
publisher = {Springer Berlin / Heidelberg},
year = {2008},
volume = {5249},
number = {1},
pages = {258-267},
doi = {http://dx.doi.org/10.1007/978-3-540-88190-2}
}
|
| Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2006), "Automatic induction of bilingual resources from aligned parallel corpora: application to shallow-transfer machine translation", Machine Translation. Vol. 20, pp. 227-245. |
| Abstract: The availability of machine-readable bilingual linguistic resources is crucial not only for rule-based machine translation but also for other applications such as cross-lingual information retrieval. However, the building of such resources (bilingual single-word and multi-word correspondences, translation rules) demands extensive manual work, and, as a consequence, bilingual resources are usually more difficult to find than "shallow" monolingual resources such as morphological dictionaries or part-of-speech taggers, especially when they involve a less-resourced language. This paper describes a methodology to build automatically both bilingual dictionaries and shallow-transfer rules by extracting knowledge from word-aligned parallel corpora processed with shallow monolingual resources (morphological analysers, and part-of-speech taggers). We show experiments for Brazilian Portuguese--Spanish and Brazilian Portuguese--English parallel texts. The results show that the proposed methodology can enable a rapid creation of valuable computational resources (bilingual dictionaries and shallow-transfer rules) for machine translation and other Natural Language Processing tasks). |
BibTeX:
@article{MachineTranslation_2006,
author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
title = {Automatic induction of bilingual resources from aligned parallel corpora: application to shallow-transfer machine translation},
journal = {Machine Translation},
year = {2006},
volume = {20},
pages = {227-245}
}
|
| Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2005), "LIHLA: Shared task system description", In Proceedings of the ACL Workshop on Building and Using Parallel Texts. Ann Arbor, Michigan., pp. 111-114. |
BibTeX:
@inproceedings{ACL_2005,
author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
title = {LIHLA: Shared task system description},
booktitle = {Proceedings of the ACL Workshop on Building and Using Parallel Texts},
year = {2005},
pages = {111-114}
}
|
| Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2005), "O Alinhador Lexical LIHLA: Experimentos com o Português do Brasil", In Caderno de resumos do V Encontro de Corpora., pp. 21-22. |
BibTeX:
@inproceedings{EncontroCorpora_2005,
author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
title = {O Alinhador Lexical LIHLA: Experimentos com o Português do Brasil},
booktitle = {Caderno de resumos do V Encontro de Corpora},
year = {2005},
pages = {21-22}
}
|
| Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2005), "LIHLA: A lexical aligner based on language-independent heuristics", In Proceedings of the V Encontro Nacional de Inteligência Artificial (ENIA). São Leopoldo, RS., pp. 641-650. |
| Abstract: Alignment of words and multiword units plays an important role in many natural language processing applications, such as example-based machine translation, transfer rule learning for machine translation, bilingual lexicography, word sense disambiguation, etc. In this paper we describe LIHLA, a lexical aligner which uses bilingual probabilistic lexicons generated by a freely available set of tools (NATools) and language-independent heuristics to find links between single words and multiword units in Brazilian Portuguese, Spanish and English parallel texts. The method has achieved a precision of 92.48% and 84.35% and a recall of 88.32% and 76.39% on Brazilian Portuguese--Spanish and Brazilian Portuguese--English parallel texts, respectively. |
BibTeX:
@inproceedings{ENIA_2005,
author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
title = {LIHLA: A lexical aligner based on language-independent heuristics},
booktitle = {Proceedings of the V Encontro Nacional de Inteligência Artificial (ENIA)},
year = {2005},
pages = {641-650}
}
|
| Caseli, H.M., Nunes, M.G.V. & Forcada, M.L. (2005), "Evaluating the LIHLA lexical aligner on Spanish, Brazilian Portuguese and Basque parallel texts", Procesamiento del Lenguaje Natural. Vol. 35, pp. 237-244. |
BibTeX:
@article{ProcesamientodelLenguajeNatural_2005,
author = {H. M. Caseli and M. G. V. Nunes and M. L. Forcada},
title = {Evaluating the LIHLA lexical aligner on Spanish, Brazilian Portuguese and Basque parallel texts},
journal = {Procesamiento del Lenguaje Natural},
year = {2005},
volume = {35},
pages = {237-244}
}
|
| Caseli, H.M., Pereira, T.F. & Aluísio, S.M. (2008), "Editor de Anotação de Simplificação: Manual do Usuário (NILC-TR-08-10)". Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC), 2008. |
BibTeX:
@techreport{Manual_Editor_2008,
author = {H. M. Caseli and T. F. Pereira and S. M. Aluísio},
title = {Editor de Anotação de Simplificação: Manual do Usuário (NILC-TR-08-10)},
year = {2008},
note = {17 p.}
}
|
| Caseli, H.M., Pereira, T.F., Specia, L., Pardo, T.A.S., Gasperin, C. & Aluísio, S.M. (2009), "Building a Brazilian Portuguese parallel corpus of original and simplified texts", In Advances in Computational Linguistics, Research in Computer Science - 10th Conference on Intelligent Text Processing and Computational Linguistics - CICLing. Mexico City. March 01-07 2009. Volume 41, pp. 59-70. |
| Abstract: In this paper we address the problem of building the necessary tools and resources for performing Brazilian Portuguese text simplification. We describe our efforts on the design and development of: (a) a XCES-based annotation schema, (b) an annotation edition tool, and (c) a portal to access parallel corpora of original-simplified texts. These contributions were intended to (i) allow the creation and public release of a corpus of original and simplified texts with two different versions of simplification (called here natural and strong), targeting two levels of functional illiteracy and (ii) register simplification decisions during the creation of such corpus. We also provide an analysis of the first corpus created using the resources presented here: 104 newspaper texts and their simplified versions, produced by an expert in text simplification. |
BibTeX:
@inproceedings{CICLING_2009,
author = {H. M. Caseli and T. F. Pereira and L. Specia and T. A. S. Pardo and C. Gasperin and S. M. Aluísio},
title = {Building a Brazilian Portuguese parallel corpus of original and simplified texts},
booktitle = {Advances in Computational Linguistics, Research in Computer Science - 10th Conference on Intelligent Text Processing and Computational Linguistics - CICLing},
year = {2009},
volume = {41},
pages = {59-70}
}
|
| Caseli, H.M., Ramisch, C.E., Nunes, M.G.V. & Villavicencio, A. (2009), "Alignment-based extraction of multiword expressions", Language Resources and Evaluation., August, 2009. Vol. 1, pp. 1-20. |
| Abstract: Due to idiosyncrasies in their syntax, semantics or frequency, Multiword Expressions (MWEs) have received special attention from the NLP community, as the methods and techniques developed for the treatment of simplex words are not necessarily suitable for them. This is certainly the case for the automatic acquisition of MWEs from corpora. A lot of effort has been directed to the task of automatically identifying them, with considerable success. In this paper, we propose an approach for the identification of MWEs in a multilingual context, as a by-product of a word alignment process, that not only deals with the identification of possible MWE candidates, but also associates some multiword expressions with semantics. The results obtained indicate the feasibility and low costs in terms of tools and resources demanded by this approach, which could, for example, facilitate and speed up lexicographic work. |
BibTeX:
@article{LanguageResourcesandEvaluation_2009,
author = {H. M. Caseli and C. E. Ramisch and M. G. V. Nunes and A. Villavicencio},
title = {Alignment-based extraction of multiword expressions},
journal = {Language Resources and Evaluation},
year = {2009},
volume = {1},
pages = {1-20},
doi = {http://dx.doi.org/10.1007/s10579-009-9097-9}
}
|
| Caseli, H.M., Scalco, M.A.G. & Nunes, M.G.V. (2005), "Manual para a marcação de alinhamentos lexicais (NILC-TR-05-09)". Instituto de Ciências Matemáticas e de Computação (ICMC-USP), Technical Report 256, 2005. |
| Abstract: Este relatório apresenta as diretrizes definidas, no âmbito do projeto ReTraTos, para o processo de alinhamento lexical de textos paralelos escritos em Português do Brasil, Espanhol e Inglês. Os textos paralelos e sua versão alinhada são, ambos, de grande importância para diversas aplicações de Processamento de Línguas Naturais (PLN), como: aprendizado de regras de tradução (objetivo do projeto ReTraTos), Example-Based Machine Translation (EBMT), Statistical Machine Translation (SMT), extração de léxicos bilíngües, desambiguação lexical de sentido, entre outras. As diretrizes aqui apresentadas possibilitaram a criação de córpus paralelos alinhados lexicalmente que seguem padrões bem definidos eliminando, assim, um grande número de ambigüidades inerentes do processo de alinhamento. Tanto os córpus quanto as diretrizes produzidos neste trabalho poderão ser utilizados em projetos futuros para a produção de ferramentas e recursos para o Processamento de Linguagem Natural. In this technical report we present some guidelines defined during ReTraTos project for lexical alignment of Brazilian Portuguese, Spanish and English parallel texts. Parallel texts and their aligned version play an important role in many Natural Language Processing (NLP) applications, such as: transfer rule learning for machine translation (ReTraTos project's goal), Example-Based Machine Translation (EBMT), Statistical Machine Translation (SMT), bilingual lexicography, and word sense disambiguation, among others. By using these guidelines lexically aligned parallel corpora can be built following well-defined standards and avoiding, in this way, a lot of ambiguities inherent in the alignment process. The corpora and guidelines produced in this work can be used in future projects for building NLP tools and resources. |
BibTeX:
@techreport{Manual_marcacao_alinhamento_2005,
author = {H. M. Caseli and M. A. G. Scalco and M. G. V. Nunes},
title = {Manual para a marcação de alinhamentos lexicais (NILC-TR-05-09)},
year = {2005},
number = {256},
note = {21 p.}
}
|
| Caseli, H.M., Silva, A.M.P. & Nunes, M.G.V. (2004), "Evaluation of Methods for Sentence and Lexical Alignment of Brazilian Portuguese and English Parallel Texts", In Proceedings of the XVII Brazilian Symposium on Artificial Intelligence (SBIA) - Lecture Notes on Artificial Intelligence. São Luís, MA. Volume 3171, pp. 184-193. |
| Abstract: Parallel texts, i.e., texts in one language and their translations to other languages, are very useful nowadays for many applications such as machine translation and multilingual information retrieval. If these texts are aligned in a sentence or lexical level their relevance increases considerably. In this paper we describe some experiments that have being carried out with Brazilian Portuguese and English parallel texts by the use of well known alignment methods: five methods for sentence alignment and two methods for lexical alignment. Some linguistic resources were built for these tasks and they are also described here. The results have shown that sentence alignment methods achieved 85.89% to 100% precision and word alignment methods, 51.84% to 95.61% on corpora from different genres. |
BibTeX:
@inproceedings{SBIA_2004,
author = {H. M. Caseli and A. M. P. Silva and M. G. V. Nunes},
title = {Evaluation of Methods for Sentence and Lexical Alignment of Brazilian Portuguese and English Parallel Texts},
booktitle = {Proceedings of the XVII Brazilian Symposium on Artificial Intelligence (SBIA) - Lecture Notes on Artificial Intelligence},
year = {2004},
volume = {3171},
pages = {184-193}
}
|
| Caseli, H.M., Sugiyama, B.A. & Anacleto, J.C. (2010), "Using Common Sense to generate culturally contextualized Machine Translation", In Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas. Los Angeles, California. June 2010., pp. 24-31. |
| Abstract: This paper reports an ongoing work in applying Common Sense knowledge to Machine Translation aiming at generating more culturally contextualized translations. Common Sense can be defined as the knowledge shared by a group of people in a given time, space and culture; and this knowledge, here, is represented by a semantic network called ConceptNet. Machine Translation, in turn, is the automatic process of generating an equivalent translated version of a source sentence. In this work we intend to use the knowledge represented in two ConceptNets, one in Brazilian Portuguese and another in English, to fix/filter translations built automatically. So, this paper presents the initial ideas of our work, the steps taken so far as well as some opportunities for collaboration. |
BibTeX:
@inproceedings{NAACL_W_2010_CS_MT,
author = {Helena M. Caseli and Bruno A. Sugiyama and Junia C. Anacleto},
title = {Using Common Sense to generate culturally contextualized Machine Translation},
booktitle = {Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas},
year = {2010},
pages = {24--31}
}
|
| Caseli, H.M., Villavicencio, A., Machado, A. & Finatto, M.J. (2009), "Statistically-Driven Alignment-Based Multiword Expression Identification for Technical Domains", In Proceedings of the 2009 Workshop on Multiword Expressions (ACL-IJCNLP 2009). Suntec, Singapore. 6 August 2009., pp. 1-8. |
| Abstract: Multiword Expressions (MWEs) are one of the stumbling blocks for more precise Natural Language Processing (NLP) systems. Particularly, the lack of coverage of MWEs in resources can impact negatively on the performance of tasks and applications, and can lead to loss of information or communication errors. This is especially problematic in technical domains, where a significant portion of the vocabulary is composed of MWEs. This paper investigates the use of a statistically-driven alignment-based approach to the identification of MWEs in technical corpora. We look at the use of several sources of data, including parallel corpora, using English and Portuguese data from a corpus of Pediatrics, and examining how a second language can provide relevant cues for this tasks. We report results obtained by a combination of statistical measures and linguistic information, and compare these to the reported in the literature. Such an approach to the (semi-)automatic identification of MWEs can considerably speed up lexicographic work, providing a more targeted list of MWE candidates. |
BibTeX:
@inproceedings{ACL_MWE_2009,
author = {H. M. Caseli and A. Villavicencio and A. Machado and M. J. Finatto},
title = {Statistically-Driven Alignment-Based Multiword Expression Identification for Technical Domains},
booktitle = {Proceedings of the 2009 Workshop on Multiword Expressions (ACL-IJCNLP 2009)},
year = {2009},
pages = {1-8}
}
|
| Gomes, F., Pardo, T.A.S. & Caseli, H.M. (2007), "VisualTCA: Uma Ferramenta Visual On-line para Alinhamento Sentencial de Textos Paralelos", In Proceedings of the V Workshop em Tecnologia da Informação e da Linguagem Humana (TIL). Rio de Janeiro, RJ., pp. 1729-1732. |
| Abstract: Apresenta-se, neste artigo, uma ferramenta visual on-line para alinhamento sentencial de textos paralelos, independentes de sua língua. Descrevem-se o funcionamento e as capacidades da ferramenta, assim como suas possíveis aplicações. |
BibTeX:
@inproceedings{TIL_TCA_2007,
author = {F. Gomes and T. A. S. Pardo and H. M. Caseli},
title = {VisualTCA: Uma Ferramenta Visual On-line para Alinhamento Sentencial de Textos Paralelos},
booktitle = {Proceedings of the V Workshop em Tecnologia da Informação e da Linguagem Humana (TIL)},
year = {2007},
pages = {1729-1732}
}
|
| Martins, M.S., Caseli, H.M. & Nunes, M.G.V. (2001), "A construção de um corpus de textos paralelos inglês-português (NILC-TR-01-05)". Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional (NILC), 2001. |
| Abstract: Neste relatório é descrito o processo de construção de um corpus bilíngüe inglês-português brasileiro, composto por resumos de teses, dissertações, monografias e artigos da área de computação, para o estudo de técnicas e metodologias de alinhamento de textos paralelos. |
BibTeX:
@techreport{Corpus_2001,
author = {M. S. Martins and H. M. Caseli and M. G. V. Nunes},
title = {A construção de um corpus de textos paralelos inglês-português (NILC-TR-01-05)},
year = {2001}
}
|
| Meuchi, L.A.S., Caseli, H.M. & Anacleto, J.C. (2009), "Inferência em Redes Semânticas: Investigação de Métodos de Inferência de Conhecimento de Tradução em ConceptNets Paralelas", In Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic). São Carlos, SP, Brasil., pp. 1-4. |
| Abstract: Esse artigo descreve uma proposta de inferência de conhecimento útil para a tradução automática a partir de duas redes de conceitos (ConceptNets) obtidas a partir de bases de senso comum em idiomas distintos. O senso comum pode ser definido como o conhecimento compartilhado por um determinado grupo de pessoas em um dado tempo, espaço e cultura. A partir de uma rede de conceitos em português e de outra rede de conceitos em inglês, pretende-se inferir conhecimento que poderá ser aplicado para ajustar/filtrar traduções geradas automaticamente. Para tanto, neste artigo são apresentadas as ideias iniciais, um método que poderá servir de base e um exemplo de aplicação da inferência nas redes em questão. |
BibTeX:
@inproceedings{TILic_Lais_2009,
author = {L. A. S. Meuchi and H. M. Caseli and J. C. Anacleto},
title = {Inferência em Redes Semânticas: Investigação de Métodos de Inferência de Conhecimento de Tradução em ConceptNets Paralelas},
booktitle = {Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic)},
year = {2009},
pages = {1-4},
url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/tilic/MeuchiETAL.pdf}
}
|
| Meuchi, L.A.S., Caseli, H.M. & Anacleto, J.C. (2009), "Inferência de relações em ConceptNets com base em corpus paralelo alinhado", In Anais do VI WorkShop de Trabalhos de Iniciação Científica (WTIC) - evento integrante do WebMedia 2009. Fortaleza, CE, Brasil., pp. 1-3. |
| Abstract: Este artigo apresenta uma pesquisa conjunta de Senso Comum e Tradução Automática, realizada com o objetivo de se obter traduções automáticas mais contextualmente corretas. Para tanto, propõe-se um algoritmo para inferência de relações em redes semânticas (ConceptNets) utilizando corpus paralelo alinhado com o intuito de enriquecer a base de conhecimento que essas redes representam. |
BibTeX:
@inproceedings{WTIC_WebMedia_Lais_2009,
author = {L. A. S. Meuchi and H. M. Caseli and J. C. Anacleto},
title = {Inferência de relações em ConceptNets com base em corpus paralelo alinhado},
booktitle = {Anais do VI WorkShop de Trabalhos de Iniciação Científica (WTIC) - evento integrante do WebMedia 2009},
year = {2009},
pages = {1-3}
}
|
| Nunes, I.A. & Caseli, H.M. (2009), "Experimentos com tradução automática estatística português-inglês", In Anais de Eventos da UFSCar. São Carlos, SP, Brasil. Volume 5, pp. 494-494. |
BibTeX:
@inproceedings{CIC_Israel_2009,
author = {I. A. Nunes and H. M. Caseli},
title = {Experimentos com tradução automática estatística português-inglês},
booktitle = {Anais de Eventos da UFSCar},
year = {2009},
volume = {5},
pages = {494-494},
url = {http://www.jornada2009.nit.ufscar.br/cic/uploads/C16/C16-001.pdf}
}
|
| Nunes, I.A. & Caseli, H.M. (2009), "Primeiros Experimentos na Investigação e Avaliacão da Tradução Automática Estatística Inglês-Português", In Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic). São Carlos, SP, Brasil., pp. 1-4. |
| Abstract: Esse artigo descreve alguns experimentos desenvolvidos com o intuito de treinar e testar os modelos de tradução automática estatística para textos paralelos escritos em português do Brasil e inglês. Neste artigo são apresentados os valores de BLEU e NIST na tradução de inglês para português com e sem a realização de uma etapa de otimização (tuning). Os resultados obtidos podem ser considerados satisfatórios para o pequeno corpus usado no treinamento. Em breve, esses restultados serão usados como base para a compração com os valores obtidos no treinamento e teste de modelos de tradução fatorada. |
BibTeX:
@inproceedings{TILic_Israel_2009,
author = {I. A. Nunes and H. M. Caseli},
title = {Primeiros Experimentos na Investigação e Avaliacão da Tradução Automática Estatística Inglês-Português},
booktitle = {Anais do I Workshop de Iniciaçao Científica em Tecnologia da Informação e da Linguagem Humana (TILic)},
year = {2009},
pages = {1-4},
url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/tilic/NunesCaseli.pdf}
}
|
| Pardo, T.A.S., Caseli, H.M. & Nunes, M.G.V. (2009), "Mapeamento da Comunidade Brasileira de Processamento de Línguas Naturais", In Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology. São Carlos, SP, Brazil., pp. 1-21. |
| Abstract: Relatam-se, neste documento, os resultados do mapeamento da comunidade brasileira de Processamento de Línguas Naturais, realizado entre Maio e Julho de 2009. O mapeamento, realizado pela Comissão Especial de Processamento de Linguagem Natural da Sociedade Brasileira de Computação, foi idealizado com o objetivo de se conhecer melhor a área e, desta forma, permitir o estabelecimento de ações direcionadas para que a área se desenvolva e seja representada apropriadamente no Brasil. |
BibTeX:
@inproceedings{STIL_Mapeamento_2009,
author = {T. A. S. Pardo and H. M. Caseli and M. G. V. Nunes},
title = {Mapeamento da Comunidade Brasileira de Processamento de Línguas Naturais},
booktitle = {Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology},
year = {2009},
pages = {1-21},
url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/stil/STIL2009-Painel-PardoEtAl.pdf}
}
|
| Pardo, T.A.S., Gasperin, C.V., Caseli, H.M. & das Graças V. Nunes, M. (2010), "Computational Linguistics in Brazil: An Overview", In Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas. Los Angeles, California. June 2010., pp. 1-7. |
| Abstract: In this paper we give an overview of Computational Linguistics/Natural Language Processing in Brazil, describing the general research scenario, the main research groups, existing events and journals, and the perceived challenges, among other relevant information. We also identify opportunities for collaboration. |
BibTeX:
@inproceedings{NAACL_W_2010_NILC,
author = {Thiago A. S. Pardo and Caroline V. Gasperin and Helena M. Caseli and Maria das Graças V. Nunes},
title = {Computational Linguistics in Brazil: An Overview},
booktitle = {Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas},
year = {2010},
pages = {1--7}
}
|
| Ramisch, C., Caseli, H.M., A.Villavicencio, Machado, A. & Finatto, M.J. (2010), "A Hybrid Approach for Multiword Expression Identification", In Proceedings of the International Conference on Computational Processing of Portuguese Language (PROPOR 2010) - LNAI. Porto Alegre, RS, Brazil.(6001), pp. 65-74. Springer-Verlag Berlin Heidelberg. |
| Abstract: Considerable attention has been given to the problem of Multiword Expression (MWE) identification and treatment, for NLP tasks like parsing and generation, to improve the quality of results. Statistical methods have been often employed for MWE identification, as an inexpensive and language independent way of finding co-occurrence patterns. On the other hand, more linguistically motivated methods for identification, which employ information such as POS filters and lexical alignment between languages, can produce more targeted candidate lists. In this paper we propose a hybrid approach that combines the strenghts of different sources of information using a machine learning algorithm to produce more robust and precise results. Automatic evaluation on gold standards shows that the performance of our hybrid method is superior to the individual results of statistical and alignment-based MWE extraction approaches for Portuguese and for English. This method can be used to aid lexicographic work by providing a more targeted MWE candidate list. |
BibTeX:
@inproceedings{PROPOR_2010,
author = {C. Ramisch and H. M. Caseli and A.Villavicencio and A. Machado and M. J. Finatto},
title = {A Hybrid Approach for Multiword Expression Identification},
booktitle = {Proceedings of the International Conference on Computational Processing of Portuguese Language (PROPOR 2010) - LNAI},
publisher = {Springer-Verlag Berlin Heidelberg},
year = {2010},
number = {6001},
pages = {65--74},
url = {http://www.springer.com/computer/ai/book/978-3-642-12319-1}
}
|
| Villavicencio, A., Caseli, H.M. & Machado, A. (2009), "Identification of Multiword Expressions in Technical Domains: Investigating Statistical and Alignment-based Approaches", In Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology. São Carlos, SP, Brazil., pp. 1-9. |
| Abstract: Multiword Expressions (MWEs) are one of the stumbling blocks for more precise Natural Language Processing (NLP) systems. The lack of coverage of MWEs in resources can impact negatively on the performance of tasks and applications, and can lead to loss of information or communication errors; especially in technical domains where MWE are frequent. This paper investigates some approaches to the identification of MWEs in technical corpora based on: association measures, part-of-speech and lexical alignment information. We examine the influence of some factors on their performance such as sources of information for identification and evaluation. While the association measures emphasize recall, the alignment method focuses on precision. |
BibTeX:
@inproceedings{STIL_MWE_2009,
author = {A. Villavicencio and H. M. Caseli and A. Machado},
title = {Identification of Multiword Expressions in Technical Domains: Investigating Statistical and Alignment-based Approaches},
booktitle = {Proceedings of the 7th Brazilian Symposium in Information and Human Language Technology},
year = {2009},
pages = {1-9},
url = {http://www.nilc.icmc.usp.br/til/stil2009_English/Proceedings/stil/Villavicencio-57680_1.pdf}
}
|
| Villavicencio, A., Ramisch, C., Machado, A., Caseli, H.M. & Finatto, M.J. (2010), "Identificação de Expressões Multipalavras em Domínios Específicos", LinguaMÁTICA., Abril, 2010. Vol. 2(1), pp. 15-34. |
BibTeX:
@article{Linguamatica2010,
author = {Aline Villavicencio and Carlos Ramisch and André Machado and Helena M. Caseli and Maria José Finatto},
title = {Identificação de Expressões Multipalavras em Domínios Específicos},
journal = {LinguaMÁTICA},
year = {2010},
volume = {2},
number = {1},
pages = {15-34},
note = {ISSN: 1647-0818}
}
|
Created by JabRef on 08/07/2010.