Luiz Cardoz
Luiz Cardoz27/06/2024 15:48
Compartilhe

Machine Learning e CRISP-DM

  • #Machine Learning

METODOLOGIA

O presente trabalho foi desenvolvido através de pesquisas em livros e sites onde pode-se obter os processos e os conteúdos dirigidos para tal finalidade, o método de pesquisa descritiva, onde o processo inteiro será descrito e poderá servir como referência para estudos posteriores e desenvolvimento de processos de interação e criação de ML com o método Crisp-DM.

INTRODUÇÃO

A presente pesquisa visa, mostrar o processo de criação e elaboração de um sistema ML, não se prendendo a um caso específico, mas demonstrando um processo de forma geral para o desenvolvimento de ML. Busco ensinar e apresentar o processo para fins de estudos e utilização.

O processo se dá em seis etapas desde a elaboração até a implementação, tratando desde o objetivo para que está se desenvolvendo uma machine learning até sua fase de implementação e testes.

Entende que a criação de machine learning auxiliar e aprimorar sistemas e traz noções e dados que antes não poderia ser examinados com tanta eficiência como testes e dados coletados e inseridos em uma máquina com aprendizado induzido, podendo trazer novos vieses sobre assuntos ou prever situações que podem ajudar a realizar medidas e desenvolver empresas.

O MODELO CRISP-DM

O Cross Industry Standard Process for Data Mining, ou traduzindo “Processo padrão da indústria para mineração de dados cruzados”. Criado há aproximadamente 20 anos, o Crisp-DM é o método utilizado para desenvolver machine learning, sendo utilizado para contornar problemas com BIG Data e ser capaz de trazer insights sobre tais dados.

Sendo uma metodologia ágil, servindo em cenários onde apenas após uma validação de um processo pode se seguir para a seguinte, sendo flexível e podendo sofrer alterações com o tempo, lidando sempre com os problemas de Big Data.

O sistema é dividido em seis etapas, sendo ela a primeira: Entendimento do problema, onde analisamos o que precisa ser resolvido, buscando todos os aspectos da situação-problema, e quais os objetivos esperados que a machine learning possa resolver. Logo em seguida temos a compreensão dos dados, é a etapa onde os dados são minerados e o profissional deve identificar os dados que serão úteis para o desenvolvimento e elaboração da solução para o problema, devendo explorar e analisar a Big Data.

Vamos a terceira(Preparação dos dados) situação onde os dados são ‘polidos’ ou seja, preparados para a database e serão definidos onde devem ser posicionados e considerados no espectro do sistema de aprendizado, podendo ser classificados como mais importantes ou menos importantes. Para que possam ser cruzados para trazer um resultado esperado.

Na quarta etapa, também chamada de modelagem, são aplicadas as técnicas de Data Mining, baseadas nos dados selecionados e listados nas situações anteriores, desde a separação quanto o polimento dos dados. Trazendo análises preditivas, para que a criação esteja se preparando para a situação real, com os dados que serão implementados no futuro.Sendo agora necessário avançar no processo e trazer consigo a etapa de “avaliação”, onde se tem em si o resultado em relação ao objetivo e as considerações obtidas, através das técnicas de Data Mining. Nesta etapa são realizados insights, desenvolvidos baseados nas tomadas de decisão do programa elaborado.A última fase é a implementação

ENTENDENDO O PROBLEMA

Para que o processo seja bem definido é necessário que o projeto proposto seja bem elaborado, e que tanto na definição quanto no objetivo, tudo esteja dentro daquilo que é o problema a ser resolvido pelo projeto de machine learning.

Desde a reunião como o brainstorm da situação deve escolher bem a situação da qual o problema está envolvido, escolhas erradas ou buscar solução para um problema, onde não se sabe o que de fato está ocorrendo pode acarretar em um processo demorado e sem avanços significativos, além de trazer para o projeto um sensação de falha, causando mais desgastes e diminuindo a chance de sucesso do desenvolvimento.

Feita a elaboração do processo e definindo o problema pode continuar para a segunda fase, garantindo assim um foco maior no objetivo desejado. Diminuindo desgastes e priorizando o desenvolvimento do projeto.

COMPRESSÃO DE DADOS

Buscamos na compressão de dados escolher e selecionar os melhores dados da situação, onde o profissional deve analisar e escolher os dados devidos nos BIG Datas, a escolha certa pode impactar diretamente o desempenho do sistema, como por exemplo em um projeto onde eu deva perceber a compra de presentes dos usuários de um site, devo pegar dados que sejam pertinentes a aquela situação como a data de compra de itens selecionados como envio para presente, e preparar para esses usuários por exemplo, um envio de um email automático uma semana ou uma quinzena antes o envio de um cupom com relação às compras de presente com envio similares.

A compressão de dados serve para que o projeto passe por uma malha fina onde apenas os dados que são considerados úteis para o projeto possam prosseguir para desenvolver a rede e direcionar os dados para utilizar na machine learning.         

Com os dados bem resolvidos e selecionados pode avançar a etapa seguinte, com a boa seleção de dados a criação da machine learning fica mais preparada para quando os dados menos filtrados ou a big data chegar ela possa filtrar e realizar as tarefas necessárias para o projeto definido.

PREPARAÇÃO DOS DADOS

Com os dado já selecionados, deve-se agora prepara-los para a parte técnica, onde serão preparados as databases para que os dados sejam armazenados e bem implementados, definindo as técnicas e os meios para qual os dados serão processados, essa fase tem extrema importância, pois é nela onde se tem noções do os dados imprimirão para o profissional que criou a machine learning.

Também deve escolher a forma como os dados serão mesclados então o processo pode levar a diversos vieses para que o produto final esteja refinado. 

MODELAGEM

Nesta fase são montadas e aplicadas as técnicas de Data Mining, onde são feitas baseadas nos objetivos predefinidos relatados no início da etapa um, a mineração dos dados vai ser o viés definitivo para saber se o problema está sendo resolvido ou não, podendo ser testado diversas vezes e de diversas formas.

  Deve-se atentar aqui se o processamento de dados está sendo feito de forma correta e que os dados que estão passando pela técnica definida estão de acordo com o esperado. O programa processa todos os dados inseridos e faz análises preditivas que podem servir ou não para o objetivo.

Analisando o quadro que foi exposto pelo sistema, o processo deve continuar para a próxima etapa. Que pode trazer resultados tanto positivos quanto negativos. Mas que somente pode-se concluir com uma boa avaliação dos dados e aprimoramento do processo caso necessário.

AVALIAÇÃO

O processo trouxe dados para o projeto, onde dos dados coletados foram tiradas informações e análises preditivas, e a equipe deve decidir então se o processo está correto ou se deve voltar às etapas para que se chegue ao objetivo escolhido.

Reuniões são elaboradas, discussões são feitas, para saber se o projeto em si deu resultados satisfatórios, onde os dados são expostos e insights são apresentados, trazendo para eles um veredito em se o processo foi aceito ou não

Determinada a realidade do projeto, onde se for necessário, voltará a etapas anteriores, caso o resultado seja positivo serão tomadas novas decisões e o projeto alcançará a etapa final que é conhecida como a implementação.

IMPLEMENTAÇÃO NA EMPRESA

Com o desenvolvimento do processo, será necessário apresentar a machine learning a escala real e com os dados como estão, então uma nova etapa é gerada para que o sistema caiba ou caso necessário expanda dentro do sistema para que seus dados se tornem eficientes. O processo é feito por cada empresa e somente a equipe que desenvolveu tudo pode estimar o processo, pois cada caso varia, mas o processo em si segue o modelo completo explicado.

Depois de implementado o sistema a empresa seguirá, com atualizações e seguindo de acordo com as necessidades da empresa. Baseado nos dados da mesma e ajudando no crescimento e elaboração de insights.

O processo de implementação reúne todo o processo realizado anteriormente para que se possa ter certeza que a solução irá funcionar adequadamente.

CONCLUSÃO

Entende-se que o processo da criação de machine learning pelo método Crisp-DM, resolve e implementa soluções ágeis, baseados em um sistema de etapa que não progride até o próximo resultado travando em etapas evitando o desperdício e perda de tempo em etapas que ainda não estão realizada, podendo focar unitariamente em cada etapa garantindo o fluxo correto do processo.

O Crisp-DM é realizado em seis etapas cujo elas explicadas, etapa por etapa, até a implementação final, abordando desde a escolha do problema a ser resolvido, como a limpeza de dados e escolha certa para que os dados fiquem coerentes com a busca pela solução do problema, a escolha das técnicas para o serviço e criação de insights pelo resultado dos dados escolhidos e até a implementação do sistema numa cadeia maior de resultados.

Entende-se que o machine learning é uma ferramenta bem amistosa que se bem elaborada pode resolver problemas que antes não eram vistos pelas empresas devido ao volume de dados, trazendo automação e percepção das situações. O projeto bem definido e a boa execução das etapas pode resolver situações que perduraram anos, como a escolha no período certo para fazer compras, ou o melhor horário de rendimento dos funcionários, ou como controlar o desempenho dos mesmo fazendo os ter uma pausa em um período específico onde se tem uma perda da produtividade. O machine learning pode abranger diversas situações, basta ser capaz de analisar o problema e encontrar métodos em que se possa implementar soluções, sem esquecer dos meios em que se faz.

REFERÊNCIAS

GÉRON, Aurélien. Hands-on Machine Learning with Scikit-Learn, Keras & TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. 2. ed. CA 95472: O'Reilly, 2019.

GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron. Deep Learning. MIT Press, 2016.

KDnuggets. Fonte de artigos, tutoriais e novidades sobre Data Science e Machine Learning. Disponível em: https://www.kdnuggets.com. Acesso em: 02 jun. 2024.

MULLER, Andreas C.; GUIDO, Sarah. Introduction to Machine Learning with Python: A Guide for Data Scientists. 1. ed. O'Reilly Media, 2016.

RUSSELL, Stuart J.; NORVIG, Peter. Artificial Intelligence: A Modern Approach. 3. ed. Pearson, 2009.

Towards Data Science. Plataforma de artigos técnicos sobre Data Science e Machine Learning. Disponível em: https://towardsdatascience.com. Acesso em: 02 jun. 2024.

Compartilhe
Comentários (0)