Os 5 erros mais comuns na análise de dados

Introdução

Na ciência de dados ou em machine learning, usamos dados para obtermos conclusões significativas por meio de uma análise descritiva, dados também são usados com o objetivo de construirmos  modelos capazes de fazer predições em um conjunto de dados incompletos. A confiança de qualquer modelo é determinada pela experiência do cientista e o conjunto de dados utilizados para análise. 

1. Objetivos vagos

Instaurar o início de uma pesquisa sem antes definirmos nossos objetivos nos levará a uma péssima coleta de dados, resultando em respostas/modelos vagos e não úteis. Não devemos coletar dados com o intuito de respondermos questionamentos do tipo, “como está indo a performance do meu produto?”.

Ao invés disso, devemos iniciar nossa pesquisa com hipóteses claras e bem definidas. Por exemplo, “o quão diferente meu produto performa em condições irregulares?”, ou até mesmo hipóteses do tipo, “podemos provar estaticamente que os investimentos feitos em marketing melhoraram as vendas do meu produto?”

2. Assumir que os dados obtidos são perfeitos

Dados são fundamentais para análise de dados e machine learning. Dados habitualmente podem ser arranjados em diferentes tipos, como numéricos, categóricos, texto, imagem, áudio e até em vídeo. O poder de predição de um modelo depende diretamente da qualidade de dados utilizados na criação do modelo. Isto é, antes da construção de um modelo é extremamente importante que uma análise exploratória seja realizada,  com o intuito de conferirmos se a confiabilidade dos dados é suficiente para nossa análise. Existem diversos fatores que contribuem para a má qualidade de um conjunto de dados:

– Dados incompletos

– Outliers 

– Dados redundantes

– Falta de variabilidade nos dados

– Quantidade de dados

3. Causalidade falsa

A temperatura média global vem aumentando nos últimos 150 anos, e o número de piratas está decrescendo a uma taxa considerável. Perceba que não é razoável considerarmos que exista uma dependência entre os eventos, mesmo que exista uma correlação estatística. Habitualmente correlações entre dois eventos nos provoca a acreditar que um evento causou o outro; no entanto, em relação ao nosso estudo percebemos que é a causa de ambos eventos. É importante salientar que correlação não implica causalidade.

4. Cherry Picking

A expressão cherry picking expressa a ideia de “escolher a dedo”, isto é, escolher intencionalmente um conjunto de dados ou uma métrica estatística que corrobora com uma suposição inicial.

É de natureza humana aceitar dados que favorecem nossas suposições; você acha que ao lançar um produto para um novo segmento de mercado as vendas vão aumentar, e então logo após tal lançamento as vendas apresentam uma melhora considerável. Em muitos casos, inferimos, não conscientemente, que nossa suposição inicial estava correta. Porém, ao analisarmos as vendas considerando todos os segmentos de mercado, percebemos que o novo lançamento não teve um impacto significativo nas vendas do produto.

Isto é considerado Cherry Picking, e é um erro que pode ser cometido facilmente, ou pior, intencionalmente.

5. Além dos dados 

Você formou uma hipótese específica e testável. Você reuniu dados de diferentes fontes, determinou as principais métricas estatísticas que se relacionam com seu objetivo e comparou sua hipótese com os números. Seus resultados são estatisticamente significativos. E agora? Muitas vezes, cientistas de dados concluem suas análises com resultados que não providenciam uma oportunidade de ação. 

Examine os resultados de sua análise, e em seguida os aplique em seu objetivo principal. O que funcionou? O quê deu errado? Como você vai incorporar esses resultados para guiar seu objetivo principal?  Analista/líderes sempre devem dispor de bons insights após uma análise de dados.

6. Conclusão

Para que a ciência de dados e o machine learning gerem valor real, é essencial definir objetivos claros desde o início, garantir a qualidade dos dados e evitar erros comuns como a falsa causalidade e o cherry picking. Mais do que apenas obter resultados estatisticamente significativos, é crucial aplicar esses insights de forma estratégica e prática. Na Quanta Jr., valorizamos uma abordagem rigorosa e orientada para resultados, sempre buscando transformar dados em oportunidades concretas para o sucesso dos nossos clientes.

Não se esqueça de acessar nosso blog e nossos cases para mais informações sobre o mundo da tecnologia e um pouco mais sobre nossas soluções.

Compartilhar:

Posts Relacionados

A Importância da Análise de Dados para Pequenas Empresas

No cenário competitivo atual, as pequenas empresas enfrentam o desafio constante de crescer e se destacar no mercado. Muitos gestores, entretanto, ainda acreditam que a análise de dados é uma ferramenta destinada apenas às grandes corporações, com vastos recursos tecnológicos. No entanto, a realidade é que a análise de dados

CONTINUAR LENDO

Computação Quântica: Diferenças, Aplicações e Equipamentos

Diferença entre Computação Quântica e Inteligência Artificial (IA) A computação quântica e a inteligência artificial (IA) são dois dos maiores avanços tecnológicos das últimas décadas, mas suas funções e naturezas são bem distintas. A IA refere-se a sistemas de software que simulam a inteligência humana para resolver problemas complexos, como

CONTINUAR LENDO