Informática

Data Mining

Mineração de dados, ou data mining, é o processo de análise de conjuntos de dados que tem por objetivo a descoberta de padrões interessantes e que possam representar informações úteis. Um padrão pode ser definido como sendo uma afirmação sobre uma distribuição probabilística. Estes padrões podem ser expressos principalmente na forma de regras, fórmulas e funções, entre outras.

O interesse por este tipo de informação se deve principalmente ao fato de que as empresas e organizações estão coletando e armazenando grandes quantidades de dados como consequência da queda dos preços de meios de armazenamento e computadores e do aumento da capacidade de ambos. A popularização na utilização de armazém de dados, ou data warehousing, que são grandes bancos de dados criados para análise e suporte à decisão, tende a aumentar ainda mais a quantidade de informações disponível. Os métodos tradicionais de análise de dados, como planilhas e consultas, não são apropriados para tais volumes de dados, pois podem criar relatórios informativos sobre os dados, mas não conseguem analisar o conteúdo destes relatórios a fim de obter conhecimentos importantes.

4.1. Tipos de Padrões

Os dois objetivos de mais alto nível da mineração de dados tendem ser a predição ou a descrição. Os padrões preditivos são encontrados para resolver o problema de predizer o valor futuro ou desconhecido de um ou mais atributos do banco de dados a partir do valor conhecido dos demais atributos. Os padrões descritivos, ou informativos, têm por objetivo encontrar padrões interessantes, de forma interpretável pelo homem, que descrevam os dados.

A importância relativa de ambos os tipos para uma aplicação particular de mineração pode variar consideravelmente, porém, no contexto da descoberta de conhecimento em bancos de dados, os padrões descritivos tendem a ser mais importantes do que os preditivos. Por outro lado afirmam que este tipo de padrão é mais difícil de avaliar, pois seu valor verdadeiro não deixa claro se ele sugere alguma ação para o especialista do domínio e quanto efetiva esta ação seria. Isto se deve ao fato de que a predição normalmente é utilizada quando se tem um problema claro e bem especificado a ser resolvido, sendo que se busca, através da mineração, uma resposta para este problema. No caso da descrição, tem-se apenas um volume de dados como ponto de partida. Cabe ao analista perceber se algo pode ser feito com as informações extraídas. A seguir serão apresentados alguns tipos de padrões comuns, sendo três deles descritivos (agrupamento, regras de associação e padrões sequenciais) e dois preditivos (regressão e classificação).

4.2. Mineração de Regras de Associação

A descoberta de regras de associação, introduzida é uma bem sucedida e importante tarefa de mineração de dados e que tem por objetivo encontrar relacionamentos ou padrões frequentes entre conjuntos de dados. Uma regra de associação é um padrão descritivo que representa uma declaração na forma X ® Y. O interesse nesta busca de informações ocorre devido, principalmente, aos progressos feitos na tecnologia de códigos de barra, que tornou possível para organizações de varejo coletar e armazenar grandes quantidades de dados referentes às vendas efetuadas, conhecidos como dados da cesta. Um registro destes dados tipicamente consiste da data da transação e dos itens comprados.

Organizações de sucesso veem tais bancos de dados como importantes peças da sua infra-estrutura de marketing, pois permitem que o processo de marketing seja dirigido, além de auxiliar em programas e estratégias customizadas como reorganização do layout das lojas e projeto de catálogos . Como exemplo de uma regra que poderia ser encontrada em um banco de dados de um supermercado seria o fato de que 90% dos clientes que compram o produto A, também adquirem, na mesma ocasião, o produto B

Além da análise do comportamento do consumidor no comércio varejista, outras áreas onde a mineração de regras de associação poderia ser aplicada incluem serviços bancários e de telecomunicação, histórico de pacientes e análise de admissão em cursos universitários.