Os 5 erros mais comuns na análise de dados

Introdução Na ciência de dados ou em machine learning, usamos dados para obtermos conclusões significativas por meio de uma análise descritiva, dados também são usados com o objetivo de construirmos modelos capazes de fazer predições em um conjunto de dados incompletos. A confiança de qualquer modelo é determinada pela experiência do cientista e o conjunto de dados utilizados para análise. 1. Objetivos vagos Instaurar o início de uma pesquisa sem antes definirmos nossos objetivos nos levará a uma péssima coleta de dados, resultando em respostas/modelos vagos e não úteis. Não devemos coletar dados com o intuito de respondermos questionamentos do tipo, “como está indo a performance do meu produto?”. Ao invés disso, devemos iniciar nossa pesquisa com hipóteses claras e bem definidas. Por exemplo, “o quão diferente meu produto performa em condições irregulares?”, ou até mesmo hipóteses do tipo, “podemos provar estaticamente que os investimentos feitos em marketing melhoraram as vendas do meu produto?” 2. Assumir que os dados obtidos são perfeitos Dados são fundamentais para análise de dados e machine learning. Dados habitualmente podem ser arranjados em diferentes tipos, como numéricos, categóricos, texto, imagem, áudio e até em vídeo. O poder de predição de um modelo depende diretamente da qualidade de dados utilizados na criação do modelo. Isto é, antes da construção de um modelo é extremamente importante que uma análise exploratória seja realizada, com o intuito de conferirmos se a confiabilidade dos dados é suficiente para nossa análise. Existem diversos fatores que contribuem para a má qualidade de um conjunto de dados: – Dados incompletos – Outliers – Dados redundantes – Falta de variabilidade nos dados – Quantidade de dados 3. Causalidade falsa A temperatura média global vem aumentando nos últimos 150 anos, e o número de piratas está decrescendo a uma taxa considerável. Perceba que não é razoável considerarmos que exista uma dependência entre os eventos, mesmo que exista uma correlação estatística. Habitualmente correlações entre dois eventos nos provoca a acreditar que um evento causou o outro; no entanto, em relação ao nosso estudo percebemos que é a causa de ambos eventos. É importante salientar que correlação não implica causalidade. 4. Cherry Picking A expressão cherry picking expressa a ideia de “escolher a dedo”, isto é, escolher intencionalmente um conjunto de dados ou uma métrica estatística que corrobora com uma suposição inicial. É de natureza humana aceitar dados que favorecem nossas suposições; você acha que ao lançar um produto para um novo segmento de mercado as vendas vão aumentar, e então logo após tal lançamento as vendas apresentam uma melhora considerável. Em muitos casos, inferimos, não conscientemente, que nossa suposição inicial estava correta. Porém, ao analisarmos as vendas considerando todos os segmentos de mercado, percebemos que o novo lançamento não teve um impacto significativo nas vendas do produto. Isto é considerado Cherry Picking, e é um erro que pode ser cometido facilmente, ou pior, intencionalmente. 5. Além dos dados Você formou uma hipótese específica e testável. Você reuniu dados de diferentes fontes, determinou as principais métricas estatísticas que se relacionam com seu objetivo e comparou sua hipótese com os números. Seus resultados são estatisticamente significativos. E agora? Muitas vezes, cientistas de dados concluem suas análises com resultados que não providenciam uma oportunidade de ação. Examine os resultados de sua análise, e em seguida os aplique em seu objetivo principal. O que funcionou? O quê deu errado? Como você vai incorporar esses resultados para guiar seu objetivo principal? Analista/líderes sempre devem dispor de bons insights após uma análise de dados. 6. Conclusão Para que a ciência de dados e o machine learning gerem valor real, é essencial definir objetivos claros desde o início, garantir a qualidade dos dados e evitar erros comuns como a falsa causalidade e o cherry picking. Mais do que apenas obter resultados estatisticamente significativos, é crucial aplicar esses insights de forma estratégica e prática. Na Quanta Jr., valorizamos uma abordagem rigorosa e orientada para resultados, sempre buscando transformar dados em oportunidades concretas para o sucesso dos nossos clientes. Não se esqueça de acessar nosso blog e nossos cases para mais informações sobre o mundo da tecnologia e um pouco mais sobre nossas soluções.
O que é Web Scraping e onde usamos?

Web Scraping é uma coleta de dados através da internet, que funciona de forma automática, com linha de códigos programáveis (que chamamos de scripts). E usamos esses dados para fazer análises e ver qual a melhor decisão a partir desses resultados. Por exemplo, se você for comprar um carro e quiser obter o melhor preço, você pode usar o web scraping para comparar preços do mesmo modelo de carro. Vale a pena! Na internet encontramos uma quantidade inestimável de informação, e nossa dificuldade hoje é separar esses dados, procurando por informações de qualidade. É aí que o web scraping entra em ação! Para coletar os dados da web. Então, toda e qualquer empresa que faça isso estará em vantagem em relação às outras, que não fazem. Isso porque, hoje em dia, não tem como falarmos de Business sem mencionar a tecnologia. Onde usar? Essa ferramenta multifuncional aparece em várias áreas. Pode ser usada para comparar preços e filtrar público-alvo para o marketing, a partir da coleta de dados. Então, podemos observar que pode ser usada em várias áreas, até mesmo na advocacia! Podemos exemplificar, na advocacia precisa-se saber qual técnica foi usada nos julgamentos passados. Então os advogados coletam e tratam os relatórios antigos. Com isso, obtém essas informações de forma sintetizada e conseguem tomar melhores decisões. E assim também acontece em todas as outras áreas que estão na internet. As empresas de tecnologia que possuem as redes sociais, por exemplo, usam o web scraping para ver os assuntos que estão em alto no momento. Isso pode facilitar a recomendação de conteúdo para as pessoas que estão inscritas naquela rede social. Como fazer? Primeiramente, é importante saber sobre linguagens de programação, como Python, por exemplo. Aí então, através dela conseguimos escrever um script, que será os comando para rodas e coletar os dados que queremos. Só que, para isso acontecer, precisamos de algumas bibliotecas. Essas bibliotecas são instaláveis, seriam as tais: Pip, Requests e Beautifulsoup. As bibliotecas são uma coleção de subprogramas, são geralmente usadas no desenvolvimento de softwares, como o web scraping. Como funciona? Os scripts, citado acima, simularão uma pessoa navegando na internet, e quando o servidor web enviar de volta a página requisitada pelo script, o coletor de dados processa essa página. Só então ele converte essa página de dados para dados estruturados, depois disso conseguimos manipular e analisar. Isso é legal? Claro que se deve seguir com ética e ter consciência das atitudes tomadas, precisamos fazer as coisas com prudência! O web scraping precisa ter limitações, é proibido por lei que se faça coleta de dados pessoais privadas, ou faça uma violação da propriedade intelectual. Com isso, seguimos as seguintes diretrizes para fazer a coleta de dados de forma lícita: Direitos autorais, Propriedade intelectual, Marca registrada, Plágio, Difamação, etc. Quanta Jr. & Web Scraping A Quanta Jr. É uma empresa que oferece serviços voltados à tecnologia, incluindo o web scraping e análise de dados. Para isso, contamos com bons analistas. Não toleramos qualquer tipo de comportamento antiético de nossos membros! Então, se você estiver precisando de alguma solução nesse escopo, por favor entre em contato conosco a partir do nosso formulário. Estaremos dispostos a tirar qualquer dúvida e a ajudar o seu negócio! Se quiser saber mais sobre web scraping e como fazê-la, indicamos este site para ajudá-lo!