Main Projects

(in portuguese)

2008 – 2010 - Read the Web

Descrição: A evolução e os resultados atingidos por duas importantes áreas de pesquisa (e também a disponibilidade de um “corpus” extremamente grande (a Web) para fins de aprendizado automático de máquina) podem ser vistos como grande motivação para a busca do desenvolvimento de um programa de computador capaz de, automaticamente, ler as páginas da web, extrair o conhecimento nelas disponível e armazena-lo de maneira estruturada. A primeira das duas áreas de pesquisa supracitadas é o processamento de linguagem natural para a extração de entidades nomeadas (NER – Named Entity Recognition). Nesta linha de pesquisa, algoritmos de aprendizado de máquina tem sido aplicados com bastante sucesso. A segunda área está vinculada às técnicas de aprendizado de máquina com base no processo de “bootstrap” (bootstrap learning algorithms), pois, com a utilização desta técnica bons resultados podem ser obtidos em problemas onde há um volume pequeno de dados rotulados (caracterizando aprendizado supervisionado) e um grande volume de dados não rotulados (caracterizando aprendizado não supervisionado). Desta forma este projeto tem como objetivo investigar, propor e implementar algoritmos e técnicas que permitam a construção de um programa de computador capaz de extrair conhecimento armazenado na Web e armazena-lo de forma estruturada.

Situação: Em Andamento Natureza: Pesquisa
Alunos envolvidos: Mestrado acadêmico (1); Doutorado (4);
Integrantes: Tom Mitchell (Responsável); Estevam Rafael Hruschka Júnior; Andrew Carlson; Edith Lok Man Law; Justin Betteridge; Sue Ann Hong; Sophie Wang
Financiador(es): Carnegie Mellon University-CMU, Carnegie Mellon University-CMU, Conselho Nacional de Desenvolvimento Científico e Tecnológico-CNPq, Google Inc.-Google

2008 – 2011 – Bolsa de Produtividade em Pesqusa CNPq - Aprendizado de Máquina e a Mineração de Dados (Processo CNPq 307403/2007-6)

Descrição: O Aprendizado de Máquina (AM) pode ser visto como uma área de pesquisa que busca o desenvolvimento de programas de computador que possam evoluir à medida que vão sendo expostos a novas experiências. Estas experiências podem ser vistas como registros armazenados em meios eletrônicos e assim podem ser utilizados como fonte de informação para o aprendizado automático dos programas de computador. Já as técnicas de Descoberta de Conhecimento em Bancos de Dados (Knowledge Discovery in Databases - KDD), também chamadas de Mineração de Dados (MD), surgiram da grande necessidade de se obter mais informação sobre os dados armazenados por empresas e grandes corporações. O avanço da tecnologia fez com que a quantidade de informações armazenada em repositórios eletrônicos aumentasse muito. Desta forma, a análise destes dados passa a ser uma tarefa muito árdua para ser realizada por seres humanos. Isto ocorre, pois, além da quantidade, a forma com que as informações são armazenadas, muitas vezes, dificulta o processo de compreensão do significado associado aos fatos, e assim, os processos de tomada de decisão acabam desprezando muitas informações relevantes. As técnicas de AM são consideradas por muitos autores como fundamentais na etapa de descoberta do conhecimento de um processo de MD. Mas, além disso, o AM se revela adequado também em outras fases da Mineração de Dados. Desta forma, pode-se dizer que de uma maneira geral, este projeto tem como foco principal dar continuidade às pesquisas já iniciadas e investigar o potencial de técnicas de AM na etapa da descoberta de conhecimento e também em outras etapas da MD.

Situação: Em Andamento Natureza: Pesquisa
Alunos envolvidos: Graduação (1); Mestrado acadêmico (1); Doutorado (1);
Integrantes: Estevam Rafael Hruschka Júnior (Responsável); Edimilson Batista dos Satntos; Saulo Domingos de Souza Pedro
Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico-CNPq, Carnegie Mellon University-CMU Número de produções C,T & A: 1/

2005 – 2009 Jovem Pesquisador FAPESP - Redes Bayesianas Aplicadas à Tarefas de Descoberta de Conhecimento em Bancos de Dados


Descrição: As técnicas de Descoberta de Conhecimento em Bancos de Dados (KDD), também chamadas de Mineração de Dados, surgiram da grande necessidade de se obter mais informação sobre os dados arma-zenados por empresas e grandes corporações. As redes bayesianas (RBs) podem ser consideradas como uma forma de representação do conhecimento baseada no raciocínio probabilístico e possuem característi-cas que as tornam muito adequadas para tarefas de descoberta de conhecimento em bancos de dados. Por isso, este é um campo de aplicação efervescente nos últimos anos. Este projeto tem como objetivo principal propor, implementar e avaliar algoritmos para a otimização do aprendizado de redes bayesianas a partir de dados para a aplicação em tarefas de descoberta de conhecimento em bancos de dados. O método de aprendizado bayesiano otimizado será aplicado mais especificamente na limpeza e integração, na seleção e transformação, na mineração e na avaliação e apresentação dos dados. Assim será definida uma metodologia bayesiana integrada de descoberta de conhecimento em bancos de dados. Os resultados deste projeto contribuirão para o desenvolvimento teórico e prático da área de mineração de dados e redes bayesianas. Neste sentido, as metodologia propostas levarão ao desenvolvimento de programas computacionais que automatizem as metodologias desenvolvidas e à produção de artigos científicos..

Situação: Em andamento; Natureza: Pesquisa.
Alunos envolvidos: Graduação (1) / Mestrado acadêmico ( 2) .
Coordenador: Estevam Rafael Hruschka Júnior.
Integrantes: Diego Pagliarini Vivencio (aluno de graduação); Edimilson Batista dos Santos (aluno de mestrado acadêmico); Murilo Lacerda Yoshida (aluno de mestrado acadêmico).
Finaciador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio finaceiro.Número de orientações: 3

2005 - 2009 Desenvolvimento de sistemas de análise e controle integrados para populações de plantas

Descrição: Sistemas de produção agrícolas mais eficientes são indispensáveis para o desenvolvimento sustentável e estes começam a explorar o uso de tecnologias de controle e informática avançadas. A presente proposta contempla um projeto de pesquisa e extensão em análise e controle de populações de plantas o qual insere-se predominantemente na área de conhecimento Engenharia Elétrica, mas envolve as áreas da Matemática, Ciências da Computação e Ciências Agrárias. O objetivo do projeto é o desenvolvimento de técnicas de análise e controle de infestação de culturas por plantas daninhas para otimização de riscos baseadas na modelos matemáticos da população de plantas e metodologias avançadas de identificação visual e de reconhecimento de padrões. O projeto engloba tanto a aplicação e adequação de técnicas conhecidas aos problemas tratados bem como a solução de problemas em aberto em controle, modelagem e agricultura de precisão. A principal originalidade da proposta está na utilização da dinâmica da infestação em conjunção com técnicas de visão computacional. Como produtos finais deste projeto destacam-se o desenvolvimento de estratégias de controle de população de plantas em competição por nutrientes e espaço, a obtenção da distribuição de plantas daninhas em relação à cultura, a obtenção da distribuição ótima de herbicidas e mapas de risco geo-referenciados quanto à probabilidade de infestação para vários tipos de plantas daninhas e a projeção de cenários futuros de infestação por plantas daninhas..

Situação: Em andamento; Natureza: Desenvolvimento.

http://www.sel.eesc.sc.usp.br/lac/proj/apl.htm

2005 – 2007 Edital Universal CNPq nº 019/2004 - Preparação de Dados para Mineração

Descrição: O presente projeto de pesquisa aborda dois assuntos fundamentais sobre preparação de dados: substituição (preenchimento) de valores ausentes e a seleção de atributos relevantes. E tem por objetivos principais propor, implementar e avaliar algoritmos para preparação de dados especificamente projetados para selecionar atributos relevantes e para preencher valores ausentes, tanto em problemas de classificação quanto em problemas de agrupamento (clustering). Conquanto aparentemente existam duas linhas de pesquisa distintas (seleção de atributos e substituição de valores ausentes), cumpre enfatizar que se pretende investigar os dois aspectos supramencionados num contexto mais amplo, no qual uma base de dados dita preparada é usada para mineração. Neste cenário, pode-se dividir o processo de preparação de dados em duas etapas: (i) substituição dos valores ausentes; e (ii) seleção dos atributos relevantes. Em outras palavras, assume-se que bases de dados com valores ausentes podem ser inicialmente tratadas e, a partir destas bases tratadas pode-se selecionar os atributos mais relevantes para a modelagem (mineração) propriamente dita. Em linhas gerais, a eficácia das abordagens propostas para substituição de valores ausentes será avaliada sob dois aspectos: capacidade de previsão e inserção de tendências. No primeiro aspecto, serão realizadas simulações (eliminação de alguns valores da base de dados) para verificar a semelhança do valor substituído em relação ao original. No segundo aspecto, avaliar-se-á a eficácia dos métodos propostos no contexto de algoritmos de mineração, e.g. algoritmos de agrupamento, árvores de classificação, redes Bayesianas, redes neurais, etc. No contexto da seleçãoo de atributos, serão consideradas tanto as abordagens wrapper (a seleção é realizada com base nos resultados da mineração propriamente dita, isto é, empacotada no algoritmo de mineração) quanto filter (o método para selecionar atributos é aplicado anteriormente ao processo de mineração.

Situação: Concluido; Natureza: Pesquisa.
Alunos envolvidos: Graduação ( 2) / Mestrado acadêmico ( 1).
Integrantes: Estevam Rafael Hruschka Júnior - Integrante / Nelson F. F. Ebecken - Coordenador / Eduardo Raul Hruschka - Integrante / Diego Pagliarini Vivencio - Integrante / Thiago Ferreira Covões - Integrante / Antônio Jesus Tallo Garcia - Integrante.
Finaciador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)- Auxílio finaceiro.Número de orientações: 1.

2004 - 2006 Ferramenta para a Substituição Automática de Valores Ausentes em Bancos de Dados

Descrição: Com a crescente utilização dos computadores nas mais variadas áreas do conhecimento e o início, do que é chamado por muitos, de Sociedade da Informação, o volume de informações armazenadas em bases de dados gerenciadas por computadores tem aumentado de forma muito rápida nos últimos anos. Mas um dos grandes problemas encontrados é a falta de qualidade nos dados armazenados que impõe uma perda na qualidade dos resultados de análises baseadas nestes repositórios. Buscando-se minimizar estas perdas, a substituição de valores ausentes é um tema muito importante neste contexto. O objetivo geral deste projeto de pesquisa é o estudo e a aplicação de técnicas de inteligência artificial para o desenvolvimento de uma ferramenta para a substituição automática de valores ausentes em bancos de dados por valores plausíveis. Assim, pode-se obter maior qualidade e confiabilidade nas informações contidas em bancos de dados das mais diversas áreas do conhecimento.

Situação: Concluido. Natureza: Pesquisa
Alunos envolvidos: Graduação (1);
Integrantes: Estevam Rafael Hruschka Júnior (Responsável); André Willik Valenti
Financiador(es): Universidade Federal de São Carlos-UFSCAR

2005 - 2006 Árvores de Decisão para Extração de Regras de Classificação

Descrição: Uma questão relevante no processo de mineração de dados é a forma de visualização e apresentação dos resultados obtidos. Quando os resultados não são apresentados de maneira adequada, todo o trabalho de AM pode ser perdido. Assim, buscar a melhor forma de apresentação dos resultados se torna uma tarefa de suma importância no processo de MD como um todo. As árvores de decisão são vistas como algoritmos de aprendizado que permitem uma ótima forma de apresentação dos resultados obtidos no processo de MD. Assim, o objetivo deste projeto é: • o estudo da teoria das árvores de decisão; • a definição de uma forma de representação textual destas estruturas; • a implementação de uma ferramenta de software capaz de interpretar a representação textual definida, permitindo a inferência e a extração de regras de classificação. O que se pretende é a obtenção de um formato padrão de representação de árvores de decisão capaz de armazenar todas as características dos modelos e que possa ser utilizado por qualquer outro método de AM para definir seus resultados no formato destas árvores. Assim, métodos que não possuem uma boa forma de apresentação de resultados (como as redes bayesianas, os métodos baseados em instâncias, etc.) poderão ser traduzidos em uma árvore de decisão (respeitando-se as limitações e alcance dos modelos originais).

Situação: Concluido. Natureza: Pesquisa
Alunos envolvidos: Graduação (1);
Integrantes: Estevam Rafael Hruschka Júnior (Responsável); Marcell Luigi Fujii
Financiador(es): PIBIC/CNPq Conselho Nacional de Desenvolvimento Científico e Tecnológico.