KDD (Knowledge Discovery Databases)

KDD ou “Processo de Descoberta de Conhecimento”, segundo Fayyad, Piatetsky e Smyth, é um processo de várias etapas ‘não trivial’ (cada hora pode fazer de um jeito,interativo e iterativo, para a identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir do conjunto de dados.

A caracteristica ‘não trivial’ diz respeito a complexidade existente na execução e manutenção dos processos de KDD, “interativo” representa a relevancia de um elemento que controle o processo, “iterativo” indica a possibilidade de repetições em qualquer parte dos processos, e “conhecimento útil” indica que o objetivo foi alcançado.

Geralmente é divido em 5 fases: Seleção, Pré-Processamento, Transformação, Data Mining e Interpretação.

Seleção:

Consiste em pegar um conjunto ou subconjunto de dados que fará parte da análise;
A fonte de dados pode ser variadas (planilhas, banco de dados, datawarehouse);
Os dados podem vir em diversas estruturas (estruturado, semi-estruturados e não-estruturados).

Pré-Processamento:

Consite em saber sobre a qualidade dos dados. Exceções e ruídos são removidos;
Limpeza, correção e remoção de dados inconsistentes;
Identificação de dados incompletos, não íntegros e ausentes também fazem parte do processo.

Transformação:

Aplica técnicas de transformação como: normalização, agregação, criação de novos atributos, redução e sintetização dos dados;
Busca-se identificar atributos úteis nos dados para alcançar os objetivos pretendidos.

Mineiração dos dados (Data Mining):

Aplicação de algoritmos e técnicas para identificar padrões nos dados e verificar hipóteses.
Geralmente as descobertas podem ser descritivas ou preditivas, com os seguintes objetivos:
Regressão (uma função que faça o mapeamento dos dados);
Clusterização (identificar um conjunto finito de categorias ou clusters);
Sumarização (busca uma descrição compacta para o subconjunto de dados);
Dependências ou Associações (encontrar dependencias significativas entre as variáveis);
Divergências (encontrar alterações significativas entre os valores medidos).

Interpretação:

Consiste em fazer a avaliação do desempenho do modelo, ocorrendo a consolidação do conhecimento descoberto.
A avaliação pode ser feita com base na análise de profissionais ou em comparação com dados coletados anteriormente.

Espero que você tenha aprendido um pouco hoje. Sinta-se à vontade para deixar uma mensagem se tiver algum feedback e compartilhar com qualquer pessoa que possa achar isso útil.

Linkedin: https://www.linkedin.com/in/victorxbarbosa/
GitHub: https://github.com/victorxbarbosa