Am Interinstitutional Center for Research and Development in Computational Linguistics

EXPLOSA

Methods of Automatic Summarization

 

Starting Time: 2002

Current Status

Concluded in 2004

Goals
Such a project aims at investigating AS under diversified foci, towards building an

automatic summarizer for Brazilian Portuguese texts


Project's Features
EXPLOSA is an acronym for EXPLOração de métodos diversos para a Sumarização Automática

(or EXPLOration of several methods for Automatic Summarization).

Fundamental and experimental approaches are tackled by means of a variety of small projects under

the EXPLOSA scenario.  The former is pursued through discourse-driven text generation;

the latter, through extraction-based AS methods.

Expected Results

A proposal for the project and development of an automatic summarizer for Brazilian Portuguese

 

Test corpora comprising texts written in Brazilian Portuguese to support evaluation of Automatic Summarization tasks.

 

Currently, the most significant corpus that has been built under this Project is TeMário (acronym for TExtos com suMÁRIOs’). This corpus comprises 100 newspaper texts, along with both their manual summaries and ideal extracts (these have been automatically generated).

A technical report describing TeMário is available in pdf format and should be read for clarification on its organization.

 

The manual summaries of the TeMário corpus have been produced by a Brazilian Portuguese consultant and language teacher, Deusdedit Ferreira de Menezes (CV annexed), under the support of FAPESP (Proc. Nro. 01/08849-8).

Team

Lucia H. Machado Rino (coordinator)

Maria das Graças Volpe Nunes (colaborator)

Thiago A. S. Pardo

Camilla Brandel Martins

Lucia Specia

Eloize Seno

Marcelo Módolo

Alice P. Espina

Gislaine Ribeiro

Maurício de Bem

Carolina F. Souza

Marcel Brito Pereira

Finantial Support
CNPq(PIBIC), CAPES e FAPESP

Contact
Lucia Helena Machado Rino: lucia@dc.ufscar.br

Related Projects

DiZer-PBr - DIscourse analyZER for BRrazilian Portuguese

Automatic Text Summarization
        NeuralSumm - NEURAL network for SUMMarization
        GistSumm - Gist SUMMarizer
        DMSumm - Discourse Modeling SUMMarizer

ConPor - A conceptual generator for Portuguese

Related Publications

2004

Book Chapters

Rino, L.H.M.; Pardo, T.A.S. (2004). A Coleção TeMário e a Avaliação de Sumarização Automática. In D. Santos (ed.), Avaliação conjunta: um novo paradigma no processamento computacional da língua portuguesa, Cap. III: Recuperação de informação. (no prelo).

Rino, L.H.M.; Nunes, M.G.V. (2004). Geração de textos e sumários. In R. Vieira e V.L.S. de Lima (eds.), Engenharia de linguagem: uma introdução ao tratamento computacional da língua, Cap. 3 - Parte II: Aplicações. Editora Manole.

Nunes, M.G.V.; Oliveira Jr., O.N.; Rino, L.H.M.; Aluísio, S.M.; Dias da Silva, B.C. (2004). Desafios na Construção de Recursos Lingüísticos para o Processamento Automático do Português do Brasil. In A.P. Berber Sardinha (org.), A Língua Portuguesa no Computador, Cap. 2 (Série As Faces da Lingüística Aplicada). Mercado de Letras / EDUC / FAPESP. Campinas .

Magazine articles

Specia, L.; Rino, L.H.M. (2004). Um gerador de estruturas conceituais UNL para o português. SCIENTIA 14(2), pp. 1-20.

Conference papers

Rino, L.H.M.; Módolo, M. (2004). SuPor: An environment for AS of texts in Brazilian Portuguese. In José Luis Vicedo, Patricio Martínez-Barco, Rafael Muñoz, et al. (eds.), Advances in Natural Language Processing, Lecture Notes in Computer Science, 3230, pp. 419-430 (4th International Conference, EsTAL 2004. Alicante, Spain, October 20-22). Springer-Verlag Heidelberg.

2003

Book Chapters

Rino, L.H.M.; Pardo, T.A.S. (2003). A Sumarização Automática de Textos: Principais Características e Metodologias. Anais do XXIII Congresso da Sociedade Brasileira de Computação, Vol. VIII: III Jornada de Minicursos de Inteligência Artificial (III MCIA), pp. 203-245. Agosto, Campinas-SP.

* also presented as a lecture in

Rino, L.H.M. e Pardo, T.A.S. (2003). A Sumarização Automática de Textos: Abordagens Atuais. V Escola de Informática Norte (V EIN’2003), publicação em CD-ROM. Faculdade SEAMA. Associação Educacional da Amazônia. Outubro. Macapá-AP.

Magazine articles

Nunes, M.G.V.; Rino, L.H.M.; Martins, R.T.; Oliveira Jr., O.N. (2003). O uso de interlíngua para comunicação via internet: a decodificação UNL-Português. Revista Tecnologia da Informação, V.3, Nro. 1, pp. 49-56. Abril. ISSN 1516-9197. Editora Universa.

Conference papers

Pardo, T.A.S.; Rino, L.H.M.; Nunes, M.G.V. (2003). GistSumm: A Summarization Tool Based on a New Extractive Method. In N.J. Mamede, J. Baptista; I. Trancoso; M.G.V. Nunes (eds.), 6th Workshop on Computational Processing of the Portuguese Language - Written and Spoken, pp. 210-218 (Lecture Notes in Artificial Intelligence 2721). Springer-Verlag, Germany. (Proc. of the VI PROPOR’2003. Universidade do Algarve-FCHS, Faro, Portugal. 26-27 Junho).pdf

Specia, L.; Rino, L.H.M. (2003). An intrinsic approach to the evaluation of a conceptual generator. XXIX Conferencia Latinoamericana de Informática – CLEI’2003, TCL 123 (Proceedings em CD-ROM). Sep-Oct, La Paz , Bolivia .

Pardo, T.A.S; Rino, L.H.M.; Nunes, M.G.V. (2003). DiZer: Uma Proposta de Análise Discursiva Automática para o Português do Brasil. Anais do I Workshop em Tecnologia da Informação e da Linguagem Humana – TIL’2003. São Carlos-SP. Outubro (publicado em CD-ROM)

Pardo, T.A.S; Rino, L.H.M.; Nunes, M.G.V. (2003). NeuralSumm: Uma Abordagem Conexionista para a Sumarização Automática de Textos. Anais do IV Encontro Nacional de Inteligência Artificial – ENIA’2003. XXII Congresso Nacional da Sociedade Brasileira de Computação. Campinas – SP. Agosto.

Specia, L.; Rino, L.H.M. (2003). ConPor: um modelo de geração conceitual para o português visando à tradução automática. Anais do IV Encontro Nacional de Inteligência Artificial – ENIA’2003. XXII Congress

Techn. Reports

Pardo, T.A.S. e Rino, L.H.M. (2003). TeMário: Um Corpus para Sumarização Automática de Textos. Série de Relatórios do NILC. NILC-TR-03-09. São Carlos, Outubro, 12p. zip

Specia, L.; Rino, L.H.M. (2003). A avaliação do sistema ConPor. Série de Relatórios Técnicos do NILC, NILC-TR-03-05. São Carlos, Janeiro, 21p. pdf

Specia, L.; Rino, L.H.M. (2003). A generalização do sistema ConPor. Série de Relatórios Técnicos do NILC, NILC-TR-03-01. São Carlos, Janeiro, 34p. pdf

2002

Magazine articles

Pardo, T.A.S.; Rino, L.H.M.; Nunes, M.G.V. (2002). Extractive summarization: how to identify the gist of a text. In M.G.V. Nunes and A.C.P.L.F. Carvalho (eds.), Cadernos de Computação, Vol. 3, N. 2, pp. 245-260. ICMC-USP. October. (also in the Proceedings of the International Information Technology Symposium –  I2TS. Florianópolis - SC, Brazil .) pdf

Journal articles

Pardo, T.A.S. and Rino, L.H.M. (2002). DMSumm: Review and Assessment. In Elisabete Ranchhod and Nuno J. Mamede (eds.), Advances in Natural Language Processing, pp. 263-273 (Lecture Notes in Artificial Intelligence 2389). Springer-Verlag , Germany . (also presented at PorTAL - Portugal for Natural Language Processing. Faro, Portugal. 23-26 June) pdf

Rino, L.H.M.; Di Felippo, A.; Pinheiro, G.M.; Martins, R.T.; Fillié, V.M.; Hasegawa, R.; Nunes, M.G.V. (2002). Aspectos da construção de um revisor gramatical automático para o português. Estudos Lingüísticos, v. 31, Maio. São Paulo. ISSN 1413 0939. (em CD-ROM). pdf

Conference papers

Martins, C.B. and Rino, L.H.M. (2002). Revisiting UNLSumm: Improvement through a case study. Workshop on Multilingual Information Access and Natural Language Processing, IBERAMIA’2002. Sevilha, Espanha. Novembro. (ISBN 84-607-6057-X) pdf

Martins, R.T.; Rino, L.H.M.; Nunes, M.G.V.; Oliveira Jr., O.N. (2002). On learning a semantic representation language for machine translation purposes. 6th EAMT Workshop: Teaching Machine Translation. Centre for Computational Linguistics, UMIST, Manchester , England . November.

Martins, C.B. and Rino, L.H.M. (2002). UNLSumm: um Sumarizador Automático de Textos UNL. I Workshop de Teses e Dissertações em IA (WTDIA’2002). Novembro. Porto de Galinhas- RE, Brasil. pdf

Pardo, T.A.S.; Rino, L.H.M. (2002). DMSumm: Um Gerador Automático de Sumários. I Workshop de Teses e Dissertações em Inteligência Artificial (WTDIA’2002). Novembro. Porto de Galinhas- RE, Brasil. pdf

Martins, R.T.; Rino, L.H.M.; Nunes. M.G.V.; Oliveira Jr., O.N. (2002). The UNL distinctive features: inferences from a NL-UNL enconverting task. In the Proc. of the First International Workshop on UNL, other Interlinguas and their Applications. LREC 2002. Las Palmas, Canary Islands, Spain. 29-31 May. pdf

Monographs

Pardo, T.A.S. (2002). DMSumm: Um Gerador Automático de Sumários. Dissertação de Mestrado. Março. Departamento de Computação, UFSCar. pdf

Martins, C.B. (2002). UNLSumm: Um Sumarizador Automático de Textos UNL. Dissertação de Mestrado. Julho. Departamento de Computação, UFSCar. pdf

Techn. Reports

Espina, A.P.; de Bem, M.; Rino, L.H.M. (2002). A exploração de questões de estilo do português para a realização superficial automática. Série de Relatórios Técnicos do NILC, NILC-TR-02-16. São Carlos, Setembro, 21p. pdf 

Specia, L. e Rino, L.H.M. (2002). ConPor: um gerador de estruturas conceituais UNL. Série de Relatórios Técnicos do NILC, NILC-TR-02-15. São Carlos, Novembro, 40 p. pdf

Specia, L. e Rino, L.H.M. (2002). O Desenvolvimento de um Léxico para a Geração de Estruturas Conceituais UNL. Série de Relatórios Técnicos do NILC, NILC-TR-02-14. São Carlos, Setembro, 25p. pdf 

Pardo, T.A.S. (2002). GistSumm: Um Sumarizador Automático Baseado na Idéia Principal de Textos. Série de Relatórios Técnicos do NILC, NILC-TR-02-13. São Carlos, Setembro, 25p. pdf

Specia, L. e Rino, L.H.M. (2002). Representação Semântica: Alguns Modelos Ilustrativos. Série de Relatórios Técnicos do NILC, NILC-TR-02-12. São Carlos, Julho, 29p. pdf

Martins, C.B. e Rino, L.H.M. (2002). Heurísticas de Poda de Sentenças para a Sumarização Automática de Textos UNL: Estudo de Casos. Série de Relatórios Técnicos do NILC, NILC-TR-02-11. São Carlos, Julho, 51p. pdf

Espina, A.P. e Rino, L.H.M. (2002). Utilização de Métodos Extrativos na Sumarização Automática de Textos. Série de Relatórios Técnicos do NILC, NILC-TR-02-06. São Carlos, Março, 21p. pdf

Ribeiro, G.F. e Rino, L.H.M. (2002). A Sumarização Automática com Base em Estruturas RST. Série de Relatórios Técnicos do NILC, NILC-TR-02-05. São Carlos, Maio, 20p. pdf

Specia, L. e Rino, L.H.M. (2002). Introdução aos Métodos e Paradigmas de Tradução Automática. Série de Relatórios Técnicos do NILC, NILC-TR-02-04. São Carlos, Março, 23p. pdf

Pardo, T.A.S. (2002). Descrição do DMSumm: Um Sumarizador Automático Baseado em um Modelo Discursivo. Tech. Rep. NILC-TR-02-02. São Carlos, Março, 17p. pdf

Martins, C.B. e Rino, L.H.M. (2002). Heurísticas de Poda de Sentenças para a Sumarização Automática de Textos UNL. Série de Relatórios Técnicos do NILC, NILC-TR-02-01. São Carlos, Março, 38p. pdf

2001

Magazine articles

Nunes, M.G.V.; Martins, R.T.; Rino, L.H.M.; Oliveira Jr., O.N. (2001). The use of the Universal Networking Language for devising an automatic sentence generator for Brazilian Portuguese. Cadernos de Computação  2 (2), pp. 57-79, ICMC-USP. pdf

Martins, R.T.; Rino, L.H.M.; Nunes, M.G.V.; Montilha, G.; Oliveira Jr., O.N. (2001). An interlingua aiming at communication on the Web: How language-independent can it be?  Cadernos de Computação, 2 (1), pp. 69-80. ICMC-USP, March. (also in the Proceedings of the Workshop on Applied Interlinguas: Practical Applications of Interlingual Approaches to NLP, pp. 24-33. NAACL-ANLP 2000 Workshop, April. Seattle, Washington, USA) pdf

Conference papers

Pardo, T.A.S. and Rino, L.H.M. (2001). A summary planner based on a three-level discourse model. In the Proc. of the 6th NLPRS - Natural Language Processing Pacific Rim Symposium, pp. 533-538. National Center of Science, Tokyo, Japan. 27-29 November. pdf

Martins, C.B. and Rino, L.H.M. (2001). Pruning UNL Texts for Summarizing Purposes. In the Proc. of the 6th NLPRS - Natural Language Processing Pacific Rim Symposium, pp. 539-544. National Center of Science, Tokyo, Japan. 27-29 November. pdf

Souza, C.F.R.; Pereira, M.B.; Nunes, M.G.V. (2001). Algoritmos de Sumarização Extrativa de Textos em Português. WORKCOMP´2001 - IV Workshop de Computação. ITA, São José dos Campos. Outubro. zip

Pardo, T.A.S e Rino, L.H.M. (2001). O Planejamento de Sumários a partir de Operadores de Plano. Post-graduate Workshop. Universidade Federal de São Carlos. August.

Techn. Reports

Souza, C.F.R.; Nunes, M.G.V. (2001). Sumarização Extrativa de Textos em Português. Série de Relatórios Técnicos do NILC, NILC-TR-01-9, Outubro, 16p. zip

Pereira, M.B.; Nunes, M.G.V. (2001). Algoritmos de Extração de Palavras-Chave de Textos em Português. Tech. Report NILC-TR-01-6, Outubro, 18p. zip

Martins, C.B.; Pardo, T.A.S.; Espina, A.P.; Rino, L.H.M. (2001). Introdução à Sumarização Automática. Tech. Report RT-DC 002/2001, Departamento de Computação, Universidade Federal de São Carlos. Abril. 38p. pdf

1996

Journal articles

Rino, L.H.M. and Scott, D. (1996). A Discourse Model for Gist Preservation. In Díbio L. Borges and Celso A. A. Kaestner (eds.), Advances in Artificial Intelligence. Lecture Notes in Artificial Intelligence, 1159, pp. 131-140. Springer-Verlag, October. (also presented at the XIII Brazilian Symposium on Artificial Intelligence. Curitiba-PR)

Conference papers

Rino, L.H.M. (1996). A Sumarização automática de textos em português. Anais do II Encontro para o Processamento Computacional do Português Escrito e Falado, pp. 109-119. Curitiba-PR. Outubro.

Techn. Reports

Rino, L.H.M. and Scott, D. A Discourse Model for Gist Preservation. ITRI Techn. Report ITRI-96-12. University of Brighton , England , August 1996, 14p. pdf

Theses

Rino, L.H.M. (1996). Modelagem de Discurso para o Tratamento da Concisão e Preservação da Idéia Central na Geração de Textos. PhD Thesis. Universidade de São Paulo, Brasil. April. (in Brazilian Portuguese)

1994

Conference papers

Rino, L.H.M. and Scott, D. (1994). Content Selection in Summary Generation. In Tarcísio Pequeno and Fernando Carvalho (eds.), Proceedings of the Brazilian Symposium on Artificial Intelligence, pp. 411-423. Fortaleza-CE, Brazil, October.

Rino, L.H.M. and Scott, D. (1994). Automatic Generation of Draft Summaries: Heuristics for Content Selection. In A.I.C. Monaghan (ed.), Proceedings of the Third International Conference of the Cognitive Science of Natural Language Processing. Dublin City University, Ireland, July.

Techn. Reports

Rino, L.H.M. and Scott, D. (1994). Content selection in summary generation. ITRI Techn. Report ITRI-94-9. University of Brighton , England , August. ps

Rino, L.H.M. and Scott, D. (1994). Automatic generation of draft summaries: heuristics for content selection. ITRI Techn. Report ITRI-94-8. University of Brighton , England , August. ps

Voltar