Por que cidadãos cientista de dados são raros?

Por que cidadãos cientista de dados são raros?

Você sabe o que é um cidadão cientista de dados e o porquê são pessoas raras? Será a dificuldade tecnológica?

Imagine um cenário fictício onde a tecnologia não é mais a maior limitação das análises de dados, embora isso já seja realidade em algumas comunidades de analytics. Então, agora imagine que nesse mundo, você poderia simplesmente criar datasets de qualquer tipo e rapidamente extrair insights de todo e qualquer tipo.

Com tudo isso em mãos, será que você viraria um cidadão cientista de dados? Essa é a provocação da palestra que apresentei no dia 10 de março em Florianópolis e espero que seja útil para a carreira e vida de todos!

Confira a palestra na íntegra no vídeo abaixo:

Agradeço aos patrocinadores do evento: comunidade Power BI Floripa e Softplan, e aos colegas cidadãos cientista de dados Brian Henkels, Leonardo Karpinski e Rafael Arruda que também doaram seu tempo para fazer o evento acontecer.

Como escolher o melhor fornecedor de Data Analytics e Inteligência Artificial?

Como escolher o melhor fornecedor de Data Analytics e Inteligência Artificial?

Escolher um fornecedor de inteligência artificial para projetos de analytics, precificação dinâmica, previsão de demanda é, sem dúvida, um processo que deve estar na mesa de todo gestor da indústria em transformação digital. Se você estiver considerando agilizar o processo, uma saída e a contratação de empresas especializadas no assunto.

Uma implementação bem-sucedida de analytics é, em grande parte, um resultado de uma parceria bem equilibrada entre as equipes internas da operação com as equipes prestadoras do serviço de analytics, portanto, essa é uma decisão importante.

Avaliando parceiros e fornecedores de inteligencia artificial e analytics com base em competências e escala

Primeiro, você deve avaliar suas opções com base nas competências dos membros da equipe do parceiro de analytics. Abaixo trazemos alguns para critérios:

  • Pegada global consistente com as necessidades da sua organização.
  • Competências individuais dos membros da equipe e forma de trabalho.
  • Experiência com a sua indústria, em oposição, as ofertas padrão de mercado.
  • Experiência no segmento de seu negócio.
  • Fit cultural com sua organização.
  • Maturidade comercial das soluções como a plataforma de analytics.
  • Referência no mercado e capacidade de escalar times.
  • Capacidade de geração de insights externos. 

Seja desenvolvendo um time interno de analytics ou contratando externamente, o fato é que você provavelmente gastará bastante dinheiro e tempo com o parceiro de analytics e inteligência artificial, por isso é importante que eles tragam as competências certas para o negócio ou processo do seu departamento.

Considere todas as opções da oferta de analytics.

Temos visto muitas organizações limitarem suas opções à Capgemini, EY, Deloitte, Accenture e outros grandes consultorias ou simplesmente desenvolvendo times internos de analytics. Porém:

Mas há muitas outras boas opções no mercado, incluindo o nacional, e por isso vale estar atento ao rápido crescimento dessas opções. Principalmente dentro dos principais polos tecnológicos do país, como: Florianópolis, Recife, Campinas e outros.

Ajuste as expectativas e evite frustrações analíticas

Já vimos, em diversas ocasiões, a criação frustrada de times de analytics totalmente internos, sejam estes para a configuração de data-lakes, governança de dados, machine learning ou integração de sistemas. 

O panorama da adoção de I.A é parecido, pelo menos por hora, com o tempo onde as empresas desenvolviam seus próprios ERPs internos nos departamentos de processamento de dados. Hoje das 4000 maiores contas de tecnologia do Brasil, apenas 4.2% mantém o desenvolvimento do ERP interno, destes o que predominam são  bancos e governos, o que faz total sentido do ponto de vista de estratégia e core business. 

Investigamos um pouco mais estas histórias e vimos que existem, pelo menos, quatro fatores por trás dos resultados: 

  • A Cultura não data-driven e segmentação vertical impedem o fluxo necessário(velocidade e quantidade) de ideias e dados que tornam o analytics valioso (guia de introdução a cultura de dados).
  • Gestão de projetos modelo waterfall, como é feito para construção de artefatos físicos ou sistemas de ERPs, não são adequados para analytics. (Business Canvas Analytics).
  • Dificuldade de contratação de profissionais com o conhecimento de analytics na área de negócio da empresa junto com a falta de programas de onboarding adequados aos desafios. (O profissional de Data Science na visão da Aquarela)
  • Desafios técnicos e imprevistos acontecem aos montes, e é necessário ter profissionais resilientes e acostumados a essas capoeiras cognitivas, já que datasets da vida real nunca estão prontos e são tão calibrados como aqueles dos exemplos de machine learning dos passageiros do titanic. Normalmente têm outliers (O que são outliers?), estão amarrados a processos de negócio complexos e cheios de regras como no exemplo da precificação dinâmica das passagens do metrô de londres.

Embora não exista uma resposta única para como implantar analytics e processos robustos de governança e inteligência artificial, lembre-se de que você é o responsável pelo relacionamento com essas equipes, e pelo relacionamento entre os sistemas de produção e de analytics.

Entenda os pontos fortes dos parceiros de analytics – mas também reconheça suas fraquezas

É difícil encontrar no mercado recursos com profundidade e qualidades funcionais e técnicas, principalmente se o perfil do seu negócio é industrial, envolvendo conhecimentos de processos raros, como por exemplo o processo físico químico para criação de pastilhas de freio. 

Mas, como toda organização, esses parceiros de analytics também podem ter pontos fracos, como por exemplo:

  • Falta de prontidão na implementação do analytics (metodologia, plataforma), para garantir que você tenha uma solução implementada rápido. 
  • Falta de estratégia de migração, mapeamento de dados e ontologias
  • Sem garantia de transferência de conhecimento e documentação.
  • Falta de experiências práticas na indústria.
  • Dificuldade em absorver o contexto do negócio do cliente

Portanto, conhecer bem os métodos e processos do parceiro é essencial, estes são os pilares da execução de um bom projeto de Analytics e I.A – Metodologia e processos de trabalho, busque entender sobre o background dele, pergunte sobre suas experiências com outros clientes de grande porte, busque entender como este parceiro resolveu desafios complexos em outros negócios, mesmo que estes não tenham ligação direta com o seu desafio. 

Data Ethics

Ética no tratamento de dados, lógico que que não podemos deixar de pontuar esse tema. Não é de agora que os dados estão se tornando o centro das atenções da gestão, e ainda mais com a Lei Geral de Proteção de Dados (LGPD) entrando em vigor no Brasil.  

Fique atento! Veja a forma como os seus dados serão tratados, transferidos e guardados pelo parceiro, e se o nome dele está limpo na praça.

Bons parceiros são aqueles que, além de conhecer bem a tecnologia, possuem diretrizes para lidar com a informação do seu negócio, como por exemplo:

  • Tem processos de segurança bem claros e definidos
  • Utilizam criptografia de ponta a ponta
  • Acompanham as atualizações de seus softwares
  • Respeitam NDAs (Non-disclosure Agreements) – NDAs não devem ser simplesmente de praxe quando se fala em dados. 
  • Todos os canais de comunicação estão alinhados e segmentados por níveis de segurança. 
  • São bem vistos pela comunidade de análise de dados.

Concluíndo

Escolher seu parceiro Analytics é uma das maiores decisões que você fará para a transformação digital da sua organização. 

Independente de qual parceiro você escolher para a sua empresa, é importante que você monte uma equipe de consultoria externa de analytics que faça sentido para sua organização, que tenha uma lastro tecnológico e que suporte a demanda da sua indústria. 


Fique atento às novas publicações seguindo nosso Linkedin e assinando nossa newsletter

Problemas em Prever demanda – parte 2

Problemas em Prever demanda – parte 2

Prever demanda é estratégico, mas não é fácil, pois está sujeita a fatores externos à companhia, como por exemplo: clima, o nível de atividade econômica, preços da concorrência, acessibilidade ao produto-serviço e, até mesmo a impasses geopolíticos.  

Neste artigo vamos compartilhar alguns dos possíveis problemas relacionados ao desafio da previsão de demanda. Sugerimos a leitura da parte 1 para entender como abordamos o desafio da previsão de demanda

Processos não colaborativos

O Planejamento de Demanda deve ser um processo colaborativo entre diferentes áreas da companhia, e aqui citamos: suprimentos, produção, logística, marketing, vendas e T.I. 

TI?! Peraí, o que o setor de Tecnologia da Informação tem haver com planejamento de demanda?

Por mais que você, Gestor, consiga, com sucesso, fazer o herculano trabalho de sincronizar as agendas e alocar os responsáveis de cada área na mesma sala de reunião, é bem provável que tenha dificuldades em chegar a um acordo sobre quais dados utilizar no planejamento da demanda (conte com a gente para resolver isso!). 

E quando você pensou que tudo isso foi resolvido, surge a questão de descobrir onde estão esses dados e como consumi-los. Bom… é nesse momento que você deve chamar o seu departamento de TI! 

A falta de colaboração entre as diferentes áreas da companhia sem dúvidas afeta suas operações internas, mas também resulta na formação de Silos de Informação (também conhecidos como Data Silos), isto é, repositórios (ou bancos) de dados isolados, que são controlados por essas diferentes áreas da companhia, e que não estão integrados e compartilhados aos demais sistemas da empresa, ferindo conceitos básicos dos 5Vs do Big Data.

Ou seja, a falta de colaboração é refletida nos dados, justamente – o principal insumo – para qualquer modelo de previsão de demanda, dos mais arcaicos feitos em planilha eletrônica até aos nossos mais complexos algoritmos de Advanced Analytics.

É por isso que em nossa visão – o cenário ideal – e que buscamos construir a quatro-mãos com nossos clientes industriais é: 

“Um ambiente onde os dados internos referentes à suprimentos, produção, vendas e distribuição estão devidamente integrados e associados à fatores externos relativos ao negócio e ao tipo de produto vendido.”

Aplicação de regras do passado no futuro para prever demanda

A aplicação de algoritmos de inteligência artificial, sejam eles quais forem, apresenta um tipo de risco metodológico importante: 

“Treinar uma máquina com padrões do passado, fará com que ela busque trabalhar como no passado, se queremos que ela gere um desempenho melhor do que o passado, precisamos saber como ensinar a máquina a esquecer alguns erros e reforçar os acertos, isso é um desafio”

Ciclo de vida dos produtos e produtos de características diferentes 

Em cada estágio da vida de um produto (da concepção até as vendas em escala), as decisões da gestão variam consideravelmente, e isso pode gerar, consequentemente,  reflexos importantes na capacidade de prever demanda. Assim, é recomendável tratar produtos e suas séries históricas de forma separada.  

Também, quando são colocados produtos com naturezas diferentes, haverá a mistura de padrões de comportamentos, como por exemplo, produtos frios não devem se comparados com produtos de massas e assim por diante.

Quanto mais controlado, balanceado e focado do dataset final de previsão de demanda, melhor pode ser a assertividade do modelo.

Regras de negócio pré estabelecidas

Quando analisamos, às vezes bilhões de transações de venda, percebemos que começam a surgir padrões nas vendas que não são necessariamente variações da demanda e sim da oferta. Isso ocorre quando há regras pré estabelecidas de negócio que são executadas em épocas específicas.

Vamos supor que uma fábrica têxtil oferte mais meias de crianças no verão do que no inverno ao longo dos últimos 5 anos, isso pode levar a ideia de que a demanda do produto é maior no verão, mas isso só seria possível verificar se a oferta gerada pela empresa for a mesma ao longo das estações.

Recomendamos entender como e onde estão as regras comerciais para, sempre que possível, fazer atenuações artificiais sobre as regras artificiais em um processo de harmonização de indicadores que, uma vez equilibrados, podem dar mais qualidade e visibilidade das variações aos algoritmos.  

Conclusões

Empresas com grande quantidade de produtos, em diversas regiões ao longo do tempo, enfrentam desafios para estabelecer um planejamento relativo a previsão de demanda, e alguns riscos devem ser mitigados, sobretudo no que tange a metodologia das análises e machine learning e regras comerciais pré estabelecidas que geram viés nos resultados passados. 

Apesar de serem vários os empecilhos metodológicos/técnicos e organizacionais  (expomos apenas alguns) que inibem um melhor planejamento da demanda. Prever demanda continua sendo possível, não para prever o futuro mas sim gerar condições favoráveis a decisões mais assertivas no presente. O que eu devo fazer agora para melhorar os resultados do futuro? 

Para ficar por dentro de esses e outros conteúdos de analytics, assine gratuitamente nossa newsletter e siga a Aquarela no Linkedin

O desafio da previsão de demanda na visão da Aquarela – parte 1

O desafio da previsão de demanda na visão da Aquarela – parte 1

Previsão de demanda é uma demanda

Conhecer a previsão de demanda de forma preditiva é um grande diferencial para estratégia, principalmente se vinculada aos processos de precificação, porém, esta é provavelmente a peça mais importante e difícil do quebra-cabeças do time de planejamento e gestão.

Uma forma interessante de enfrentar este desafio é apresentada pelo futurista Paul Saffo na Harvard Business Review onde, para ele:

O objetivo da previsão de demanda não é necessariamente prever o futuro, mas dizer o que você precisa saber para executar ações significativas no presente. 

Neste artigo, abordamos o tema da previsão de demanda nas cadeias de suprimento sob a ótica das novas capacidades de Advanced Analytics e como esse resultado pode ser integrado de forma estratégica na operação de processos de negócio e precificação.

Sazonalidade, influência do clima e geografia na demanda

Apesar de existirem tendências sazonais importantes que afetam os movimentos de compra da população (natal, páscoa e etc).

É importante notar que cada tipo de produto possui também características intrínsecas de consumo que, por sua vez, podem não flutuar nas ondas de tendência, e em alguns casos até podem apresentar correlação negativa. Ex. o caso dos materiais de construção. 

Considerando que o clima e a geografia afetam diretamente o comportamentos das pessoas e, consequentemente, seus desejos de consumo, faremos uma demonstração a título didático utilizando uma ferramenta Google Trends

O Google Trends mostra a intensidade de buscas textuais executadas no Google ao longo do tempo. Ou seja, quanto às pessoas de determinado local procuram algo no google durante os meses do ano. 

Comparativo de demandas Brasil vs Canadá

Assumindo que as pessoas apresentam um maior interesse de andar de bicicleta no verão do que no inverno, vamos fazer o seguinte teste:

Vamos buscar os resultados das buscas dos últimos 5 anos pelo termo “bike” (bicicleta em inglês) e “snow” (neve em inglês) no Canadá.  Escolhemos o Canadá porque sabemos a priori que este país tem um inverno bastante rigoroso. 

Na figura abaixo, temos a linha azul mostrando o aumento de buscas por bicicleta nos meses de verão no hemisfério norte, ao passo que, no final do ano essas buscas caem quase simetricamente.

De maneira oposta, as buscas por “neve” acontecem mais nos meses de dezembro e janeiro, com alguns picos que estão relacionados a acontecimentos relativos às nevascas ocorridas no período. 

Fazendo a mesma pesquisa, porém no cenário brasileiro com um clima mais estável e a neve sendo um fenômeno raro, verificamos diferenças marcantes nos padrões, onde os ciclos são menos previsíveis e a busca por neve se torna relativamente inferior às por bicicletas.  

Series históricas em diferentes setores

Preparamos a seguinte aplicação com dados reais para que possamos brincar um pouco de prever demanda.

Deixamos a série “demanda por tecidos e calçados” como padrão. Nesse sentido, além de ser uma série facilmente previsível, a mesma possui dois picos sazonais que chamam atenção, natal e dias das mães. 

Essas são técnicas estatísticas usadas quando dados de vários anos para um produto ou linha de produtos estão disponíveis, e quando as tendências são claros e relativamente estáveis.

Como é na prática?

Na prática, em projetos de Data Science, buscamos trabalhar com diversas variáveis em conjunto, para transformar um caldeirão de variáveis (datasets) em valor para nossos clientes na indústria e de serviços de forma integrada na plataforma VORTX.

Atualmente, há diversas maneiras de se fazer isso, a própria planilha do excel já pode trazer alguns resultados, porém não recomendamos, por questões de integração de sistemas e outras limitações sistêmicas

Bons exemplos de ingredientes de modelos de demanda, que usuários de planilhas não costumam ter acesso, são dados espaciais.

A geo estatística teve significativos avanços nas últimas décadas e aqui na Aquarela utilizamos muito. Assim, fazer bom uso destas ferramentas, com dados bem coletados, pode promover significativas vantagens em relação a concorrência (geo-marketing de expansão). 

Anteriormente já escrevemos sobre algumas técnicas de visualização que também podem contribuir com análises de demanda – Da visualização a tomada de decisão.

Integração da demanda nas estratégias de estoque e vendas

Vamos considerar que conseguimos elaborar um sistema com diversas técnicas de machine learning que nos trás uma alta taxa de assertividade. Neste cenário chegamos no segundo nível de desejo dos gestores, a automação de comportamentos inteligentes de forma antecipada. 

“O sonho de qualquer indústria é a precificação dinâmica em tempo real, associada a uma boa previsão de demanda” .

Para quem busca mais informações sobre os processos de precificação dinâmica e inteligente, escrevemos sobre isso usando como exemplo a precificação do metrô de Londres.  

As ações necessárias para que um sistema se comporte de forma inteligente dependem de muitos fatores técnicos/metodológicos que precisam estar associados aos processos de negócio. Para ajudar nesse mapeamento, criamos e recomendamos fortemente o uso do Analytics Business Canvas

Em alguns de nossos clientes, temos cenários onde determinados tipos de produtos precisam ser vendidos de maneira mais rápida do que outros devido a perda de valor monetário em relação ao prazo de validade, levando em conta a qualidade dos estoques – Smart Stock.

O sistema deve prever oportunidades de consumo maior na cadeia de suprimento, para que este produto seja encaminhado com priorização dentro da cadeira. Logo, técnicas de precificação e descontos podem ser aplicadas automaticamente conforme as previsões da demanda, sem excluir regras e limites de preço estabelecidas pelo time de preço.

Aprendemos que há sempre a necessidade de trabalhar com abordagens mescladas de precificação para que o resultado seja adequado às expectativas. O módulo que utilizamos é o Smart Pricing.

Conclusões e recomendações

Para prever a demanda com propriedade é necessário entender suas características, como tendência, sazonalidade, clima, região, público, etc.

A organização da análise e alinhamento de todos os envolvidos nestas análises podem ser facilitada com o uso do Business Canvas Analytics (download Gratuito).

O trabalho de profeta sempre foi e continuará sendo difícil. O que está havendo, no entanto, é que:

a emergência dos algoritmos de machine learning e metodologias de analytics tem permitido um aprimoramento deste trabalho sem precedentes na história, tornando as incertezas do futuro um mais administráveis. 

Bons dados nas mãos de bons cientistas de dados podem gerar predições confiáveis, mas isso não torna a atividade de previsão de demanda uma tarefa fácil. 

Na Aquarela desenvolvemos projetos integrados em uma plataforma de recomendação busca reduzir estes pontos de gargalo, utilizando diversas abordagens de I.A para a descoberta de padrões sazonais, regionais e histórico de consumo de produtos.

Tudo deve estar alinhado dentro de uma metodologia de dados para que a solução gere recomendações personalizadas de vendas e encaminhamentos logísticos ao mesmo tempo ajudem no controle do estoque e até colabora nas estratégias de otimização dos preços.

Acompanhe a parte 2 deste artigo, onde abordamos os principais problemas para prever demanda.

Você pode acompanhar novas postagens assinado gratuitamente nossa newsletter ou seguindo nosso Linkedin

A distribuição normal em Data Analytics

A distribuição normal em Data Analytics

Encontrar a normalidade e as anormalidades (outliers) nos processo de negócio, tais como vendas, compras, cadeias de distribuição e precificação dinâmica é tarefa fundamental na ciência de dados.

Neste artigo, explicamos e mostramos como a estatística aborda a descoberta da normalidade. Também vamos mostrar algumas distribuições normais associadas aos negócios, dentro de estratégias de data analytics, visando ajudar os leitores a converterem suas análises em resultados tangíveis.

O que é a distribuição normal ou curva normal?

A distribuição Normal também é conhecida como distribuição Gaussiana, em homenagem ao “príncipe da matemática”, o alemão Johann Carl Friedrich Gauss, que contribuiu para diversas áreas da ciência.

Sua utilização da distribuição normal vai além da determinação da probabilidade entre valores numa distribuição, ela também é recorrentemente utilizada como indicativo de qualidade de modelos estatísticos, como o Método dos Mínimos Quadrados, por exemplo. Caso a distribuição de erros do modelo apresente distribuição não normal, supõe-se então que o modelo está viesado, ou seja, não confiável.

Exemplos de Distribuição Normal estão presentes em nosso cotidiano, seja na distribuição de peso de recém nascidos, notas de acadêmicos, Quociente Intelectual (QI), tamanho de sapatos e velocidade de veículos em uma rota, isso para citar alguns dos mais comuns. 

A distribuição normal na visão matemática

Podemos defini-la como uma distribuição de probabilidade contínua com esperança matemática (μ) e desvio padrão (σ). A função densidade de uma distribuição Normal segue a seguinte equação:

Sendo assim, poderíamos dizer que X~N(μ, σ2). Ou seja, uma variável qualquer X segue uma distribuição Normal com média (μ) e variância (σ2). Além disso, uma distribuição normal deve possuir média, mediana e moda iguais, ser simétrica e leptocúrtica.

Distribuição normal de forma didática

Mal começamos o artigo e já estamos com uma baita fórmula cheia de letras gregas na cabeça. Mas calma. Seremos mais didáticos daqui em diante e, falando nisso, sabiam que o conceito de distribuição normal pode ser demonstrado fisicamente? Dá uma olhada nesse gif:

As bolinhas caem aleatoriamente entre os pinos até formar a distribuição normal.

Contudo, há algo que as pessoas costumam confundir com frequência e devemos deixar claro aqui:

Distribuição Normal e Normal padrão, apesar de serem bastante semelhantes, não são exatamente a mesma coisa. Então:

  • Distribuição normal pode possuir qualquer valor como média e desvio padrão. Contudo, o desvio padrão não pode assumir valores negativos.
  • Distribuição normal padrão sempre terá média igual a zero (0) e desvio padrão igual a um (1). Costuma ser bastante utilizada para facilitar cálculos de probabilidade.

Por que algumas distribuições não são normais?

  • Outliers: Valores muito altos ou muito baixos podem distorcer a curva, a média é especialmente sensível aos extremos. Sugerimos remover os outliers e verificar como ficou a distribuição. Temos um artigo que aborda mais aprofundadamente o que são outliers e como tratá-los
  • Distribuições misturadas: Podem haver casos onde duas ou mais distribuições podem ser combinadas em seus dados. Se desenharmos um gráfico de distribuição com esses dois grupos, podem aparecer duas curvas misturadas, e quando são muitos grupos fica até difícil visualizar o que está acontecendo, e a análise pode demandar o uso de filtros complexos. 
  • Poucos dados: Dados insuficientes podem fazer com que uma distribuição normal pareça completamente deformada. Por exemplo, os resultados da idade dos pacientes de um hospital são distribuídos normalmente. Mas se você escolher três deles aleatoriamente, não obterá uma distribuição normal. Se você estiver em dúvida se possui um tamanho de amostra suficiente para ter resultados robustos, confira esse outro artigo no qual disponibilizamos uma calculadora de amostragem – O que é amostragem e como fazer o cálculo amostral?  
  • Coleta incorreta dos dados: Se em um dataset (o que são datasets) existe uma coluna na qual é esperada uma curva normal, e esta fica deformada, verifique se não há filtros aplicados, ou se a coleta está sendo feita de forma adequada. 
  • Distribuição não normal: Por vezes, a distribuição pode simplesmente ser de outra natureza. A quantidade de vezes que a face de um dado se repete em jogadas seguidas, por exemplo, se comportaria de maneira uniforme. Ou seja, suas faces se repetiriam um número de vezes virtualmente igual. Classificaríamos sua distribuição, então, como uniforme.

Tratamentos

Contudo, bem sabemos que nem tudo se mostra normal nessa terra. Muitas vezes a variável deverá passar por algum tipo de tratamento para ser considerada normal, outras vezes nem mesmo com os tratamentos mais robustos isso será possível. 

Frequentemente encontramos em nossas análises variáveis que se distribuem de maneira logarítmica, por exemplo. Apenas ao observar essa característica já nos damos conta do tratamento mais adequado para este tipo de caso, a aplicação de logaritmo (de base 10). Dessa maneira, teríamos então uma distribuição log-normal. Confira o exemplo abaixo:

Cálculo de probabilidade na prática

Digamos que uma máquina que preenche água em garrafas plásticas de uma determinada fábrica encha as garrafinhas em média 300 ml. Após verificar a distribuição da quantidade de água preenchida por essa máquina, percebe-se que a mesma preenche as garrafinhas com um desvio padrão de 6 ml. Logo:

Qual a probabilidade desta máquina preencher uma garrafinha menos que 295 ml?

Bom, na academia, recorrentemente utilizamos a tabela de distribuição normal padrão para calcularmos algo nesse sentido. Calcularíamos o valor Z e procuraríamos na tabela para determinar a probabilidade de evento como este acontecer. Entretanto, considerando que esse método é apenas utilizado para facilitar o cálculo e o mesmo pode ser estimado através da densidade abaixo da curva, podemos fazer uso da calculadora que desenvolvemos. Veja e tente você mesmo:

Se você chegou a um valor de aproximadamente 20%, parabens! Você acertou!
Fique a vontade para utilizá-la em outros exercícios. Temos certeza que ela pode lhe ser útil em diversos outros experimentos.

Distribuições na Aquarela 

Na Aquarela, utilizamos diariamente a ideia de distribuição, seja para validar a qualidade do dado, da captura do dado ou mesmo entender a natureza dos fenômenos que estamos estudando. Contudo, as demandas que atendemos nos diversos setores industriais de serviço exigem muito mais do que isso para criar predições, prescrições e cenarização de negócio. 

Ao atuar diretamente com analytics na indústria, necessitamos criar e aplicar algoritmos de inteligência artificial para descobrir múltiplas combinações probabilísticas de diversas distribuições que, por sua vez, gerarão recomendações tais como:

  • preço dinâmico;
  • horário de melhor atendimento;
  • níveis de risco de entrega de produtos;
  • riscos de falhas em equipamentos em produção. 

Conclusões e recomendações

Entender o conceito da distribuição normal e seu papel no processo da análise de probabilidades é muito importante. Nesse sentido, com a transformação digital que está em curso, cada dia mais, existirão dados disponíveis para análises. 

Neste artigo vimos:

  • O que é uma distribuição normal e como diferenciar ela das demais;
  • Por que algumas curvas ou distribuições não são normais;
  • Como o conceito de distribuição pode ser demonstrado de forma física; 
  • Como descrevemos a distribuição de probabilidade Normal e como calcular a probabilidade entre intervalos de valores;
  • Demonstramos como proceder tratamentos logarítmicos para transformar a distribuição.

Concluímos que, o conhecimento da distribuição de probabilidade é fundamental para a condução de procedimentos estatísticos. A partir daí, podemos calcular parâmetros, estimar intervalos de confiança e investigar hipóteses. A distribuição mais relevante dentre as possíveis, sem dúvidas, é distribuição normal, tendo enorme importância para a validade de diversos modelos estatísticos aplicados à economia e negócios. 

Fique atento às futuras publicações assinando nossa newletter!

Onde erramos?

Graças ao olhar atento da comunidade, encontramos alguns erros na primeira versão do artigo e abaixo está o esclarecimento:

01 – Onde dizíamos:

Distribuição normal é “assimétrica”, o correto é “simétrica”.

02 – Onde dizíamos:

Distribuição normal pode possuir qualquer valor como média e desvio padrão.

Adicionamos a seguinte informação para evitar a ambiguidade no sentido de que o desvio padrão poderia assumir valores negativos. A continuação ficou assim:

Contudo, o desvio padrão não pode assumir valores negativos.