| Main Projects (in portuguese) | 2008 – 2010 - Read the Web |
Descrição: A evolução e os resultados atingidos por duas importantes áreas de pesquisa
(e também a disponibilidade de um “corpus” extremamente grande (a Web) para fins de aprendizado
automático de máquina) podem ser vistos como grande motivação para a busca do desenvolvimento de um programa
de computador capaz de, automaticamente, ler as páginas da web, extrair o conhecimento nelas disponível e
armazena-lo de maneira estruturada. A primeira das duas áreas de pesquisa supracitadas é o processamento de
linguagem natural para a extração de entidades nomeadas (NER – Named Entity Recognition). Nesta linha de
pesquisa, algoritmos de aprendizado de máquina tem sido aplicados com bastante sucesso. A segunda área
está vinculada às técnicas de aprendizado de máquina com base no processo de “bootstrap”
(bootstrap learning algorithms), pois, com a utilização desta técnica bons resultados podem ser obtidos em
problemas onde há um volume pequeno de dados rotulados (caracterizando aprendizado supervisionado) e um
grande volume de dados não rotulados (caracterizando aprendizado não supervisionado). Desta forma este projeto
tem como objetivo investigar, propor e implementar algoritmos e técnicas que permitam a construção de um programa
de computador capaz de extrair conhecimento armazenado na Web e armazena-lo de forma estruturada. |
2008 – 2011 – Bolsa de Produtividade em Pesqusa CNPq - Aprendizado de Máquina e a Mineração de Dados (Processo CNPq 307403/2007-6) |
Descrição: O Aprendizado de Máquina (AM) pode ser visto como uma área de pesquisa
que busca o desenvolvimento de programas de computador que possam evoluir à medida que vão sendo expostos a
novas experiências. Estas experiências podem ser vistas como registros armazenados em meios eletrônicos e
assim podem ser utilizados como fonte de informação para o aprendizado automático dos programas de computador.
Já as técnicas de Descoberta de Conhecimento em Bancos de Dados (Knowledge Discovery in Databases - KDD),
também chamadas de Mineração de Dados (MD), surgiram da grande necessidade de se obter mais informação sobre
os dados armazenados por empresas e grandes corporações. O avanço da tecnologia fez com que a quantidade de
informações armazenada em repositórios eletrônicos aumentasse muito. Desta forma, a análise destes dados passa
a ser uma tarefa muito árdua para ser realizada por seres humanos. Isto ocorre, pois, além da quantidade, a forma
com que as informações são armazenadas, muitas vezes, dificulta o processo de compreensão do significado associado
aos fatos, e assim, os processos de tomada de decisão acabam desprezando muitas informações relevantes. As técnicas
de AM são consideradas por muitos autores como fundamentais na etapa de descoberta do conhecimento de um processo de
MD. Mas, além disso, o AM se revela adequado também em outras fases da Mineração de Dados. Desta forma, pode-se dizer
que de uma maneira geral, este projeto tem como foco principal dar continuidade às pesquisas já iniciadas e investigar
o potencial de técnicas de AM na etapa da descoberta de conhecimento e também em outras etapas da MD. |
2005 – 2009 Jovem Pesquisador FAPESP - Redes Bayesianas Aplicadas à Tarefas de Descoberta de Conhecimento em Bancos de Dados |
Descrição: As técnicas de Descoberta de Conhecimento em Bancos de Dados (KDD),
também chamadas de Mineração de Dados, surgiram da grande necessidade de se obter
mais informação sobre os dados arma-zenados por empresas e grandes corporações.
As redes bayesianas (RBs) podem ser consideradas como uma forma de representação do
conhecimento baseada no raciocínio probabilístico e possuem característi-cas que as
tornam muito adequadas para tarefas de descoberta de conhecimento em bancos de dados.
Por isso, este é um campo de aplicação efervescente nos últimos anos. Este projeto
tem como objetivo principal propor, implementar e avaliar algoritmos para a otimização
do aprendizado de redes bayesianas a partir de dados para a aplicação em tarefas de
descoberta de conhecimento em bancos de dados. O método de aprendizado bayesiano
otimizado será aplicado mais especificamente na limpeza e integração, na seleção
e transformação, na mineração e na avaliação e apresentação dos dados. Assim será
definida uma metodologia bayesiana integrada de descoberta de conhecimento em bancos
de dados. Os resultados deste projeto contribuirão para o desenvolvimento teórico e
prático da área de mineração de dados e redes bayesianas. Neste sentido, as metodologia
propostas levarão ao desenvolvimento de programas computacionais que automatizem as
metodologias desenvolvidas e à produção de artigos científicos.. |
2005 - 2009 Desenvolvimento de sistemas de análise e controle integrados para populações de plantas |
Descrição: Sistemas de produção agrícolas mais eficientes são indispensáveis para o desenvolvimento sustentável
e estes começam a explorar o uso de tecnologias de controle e informática avançadas. A presente proposta contempla
um projeto de pesquisa e extensão em análise e controle de populações de plantas o qual insere-se predominantemente
na área de conhecimento Engenharia Elétrica, mas envolve as áreas da Matemática, Ciências da Computação e Ciências Agrárias.
O objetivo do projeto é o desenvolvimento de técnicas de análise e controle de infestação de culturas por plantas
daninhas para otimização de riscos baseadas na modelos matemáticos da população de plantas e metodologias avançadas
de identificação visual e de reconhecimento de padrões. O projeto engloba tanto a aplicação e adequação de técnicas
conhecidas aos problemas tratados bem como a solução de problemas em aberto em controle, modelagem e agricultura de
precisão. A principal originalidade da proposta está na utilização da dinâmica da infestação em conjunção com técnicas
de visão computacional. Como produtos finais deste projeto destacam-se o desenvolvimento de estratégias de controle de
população de plantas em competição por nutrientes e espaço, a obtenção da distribuição de plantas daninhas em relação à
cultura, a obtenção da distribuição ótima de herbicidas e mapas de risco geo-referenciados quanto à probabilidade de
infestação para vários tipos de plantas daninhas e a projeção de cenários futuros de infestação por plantas daninhas.. http://www.sel.eesc.sc.usp.br/lac/proj/apl.htm |
2005 – 2007 Edital Universal CNPq nº 019/2004 - Preparação de Dados para Mineração |
Descrição: O presente projeto de pesquisa aborda dois assuntos fundamentais sobre preparação de dados:
substituição (preenchimento) de valores ausentes e a seleção de atributos relevantes. E tem por
objetivos principais propor, implementar e avaliar algoritmos para preparação de dados especificamente
projetados para selecionar atributos relevantes e para preencher valores ausentes, tanto em problemas
de classificação quanto em problemas de agrupamento (clustering). Conquanto aparentemente existam duas
linhas de pesquisa distintas (seleção de atributos e substituição de valores ausentes), cumpre enfatizar
que se pretende investigar os dois aspectos supramencionados num contexto mais amplo, no qual uma base
de dados dita preparada é usada para mineração. Neste cenário, pode-se dividir o processo de preparação
de dados em duas etapas: (i) substituição dos valores ausentes; e (ii) seleção dos atributos relevantes.
Em outras palavras, assume-se que bases de dados com valores ausentes podem ser inicialmente tratadas e,
a partir destas bases tratadas pode-se selecionar os atributos mais relevantes para a modelagem (mineração)
propriamente dita. Em linhas gerais, a eficácia das abordagens propostas para substituição de valores
ausentes será avaliada sob dois aspectos: capacidade de previsão e inserção de tendências. No primeiro
aspecto, serão realizadas simulações (eliminação de alguns valores da base de dados) para verificar a
semelhança do valor substituído em relação ao original. No segundo aspecto, avaliar-se-á a eficácia dos
métodos propostos no contexto de algoritmos de mineração, e.g. algoritmos de agrupamento, árvores de
classificação, redes Bayesianas, redes neurais, etc. No contexto da seleçãoo de atributos, serão
consideradas tanto as abordagens wrapper (a seleção é realizada com base nos resultados da mineração
propriamente dita, isto é, empacotada no algoritmo de mineração) quanto filter (o método para selecionar
atributos é aplicado anteriormente ao processo de mineração. |
2004 - 2006 Ferramenta para a Substituição Automática de Valores Ausentes em Bancos de Dados |
Descrição: Com a crescente utilização dos computadores nas mais variadas áreas do
conhecimento e o início, do que é chamado por muitos, de Sociedade da Informação, o volume de informações
armazenadas em bases de dados gerenciadas por computadores tem aumentado de forma muito rápida nos últimos anos.
Mas um dos grandes problemas encontrados é a falta de qualidade nos dados armazenados que impõe uma perda na
qualidade dos resultados de análises baseadas nestes repositórios. Buscando-se minimizar estas perdas, a
substituição de valores ausentes é um tema muito importante neste contexto. O objetivo geral deste projeto de
pesquisa é o estudo e a aplicação de técnicas de inteligência artificial para o desenvolvimento de uma ferramenta
para a substituição automática de valores ausentes em bancos de dados por valores plausíveis. Assim, pode-se obter
maior qualidade e confiabilidade nas informações contidas em bancos de dados das mais diversas áreas do conhecimento. |
2005 - 2006 Árvores de Decisão para Extração de Regras de Classificação |
Descrição: Uma questão relevante no processo de mineração de dados é a forma
de visualização e apresentação dos resultados obtidos. Quando os resultados não são apresentados de maneira
adequada, todo o trabalho de AM pode ser perdido. Assim, buscar a melhor forma de apresentação dos resultados
se torna uma tarefa de suma importância no processo de MD como um todo.
As árvores de decisão são vistas como algoritmos de aprendizado que permitem uma ótima forma de apresentação
dos resultados obtidos no processo de MD. Assim, o objetivo deste projeto é:
• o estudo da teoria das árvores de decisão;
• a definição de uma forma de representação textual destas estruturas;
• a implementação de uma ferramenta de software capaz de interpretar a representação textual definida,
permitindo a inferência e a extração de regras de classificação.
O que se pretende é a obtenção de um formato padrão de representação de
árvores de decisão capaz de armazenar todas as características dos modelos e que possa ser
utilizado por qualquer outro método de AM para definir seus resultados no formato destas árvores.
Assim, métodos que não possuem uma boa forma de apresentação de resultados (como as redes bayesianas,
os métodos baseados em instâncias, etc.) poderão ser traduzidos em uma árvore de decisão (respeitando-se
as limitações e alcance dos modelos originais). |