Paradoxo de Simpson e a amostragem
Carlos Domenech
Será que a forma em que coletamos os dados de um processo, pode influenciar nossas conclusões?
Uma das questões que consideramos mais importantes quando se trabalha em melhoria de processos é a Estratégia de Amostragem (ver ilustração do método científico na Figura 1). Nos nossos cursos mostramos como escolher um plano de amostragem adequado conforme a situação. Se o plano foi bem selecionado, a análise dos dados será usualmente simples e a tomada de decisões não terá riscos grandes de erros.
Neste pequeno resumo mostramos que quando utilizamos dados históricos agregados a partir de distintos estratos de forma desbalanceada, as conclusões extraídas podem ser errôneas, devido entre outros motivos, ao paradoxo de Simpson.

Figura 1 – Plano de amostragem no método científico
Ilustremos o problema com dados tipo atributo relacionados com a porcentagem de refugo de dois produtos. Suponha que em dois meses foram produzidas 11.000 unidades do produto A e 55.000 unidades do produto B. O Controle de Qualidade (CQ) inspecionou 10% da produção, ou seja, 1100 unidades de A e 5500 unidades de B. Destes totais, o CQ encontra as seguintes quantidades de produtos defeituosos:

O pessoal do Controle de Qualidade conclui que a porcentagem de refugo é maior para o produto B do que para o A! Está certa esta conclusão? Talvez sim, talvez não! Inspecionemos os números com mais detalhes. Consideremos por exemplo o que aconteceu nos meses 1 e 2 com o refugo:

Quando comparamos as taxas de refugo dos produtos A e B para cada mês o panorama muda: realmente o produto A é bem pior que o produto B. O interessante é que este tipo de problema pode acontecer tanto com variáveis atributos, quanto com variáveis contínuas.
Conclusões e sugestões:
O paradoxo de Simpson é gerado pela combinação de amostras de tamanhos distintos provenientes de vários estratos. Isto pode conduzir a conclusões erradas. Para não cometer este tipo de erros há vários caminhos:
- A forma mais simples, e óbvia, é somente combinar conjuntos de dados contendo o mesmo número de observações para cada estrato (dados balanceados). Às vezes isto não é possível quando se trabalha com dados históricos.
- Ao estudar dados que podem estar influenciados por diferentes fatores (departamentos, turnos, máquinas, produtos, operadores, etc.), controle de forma adequada estes fatores quando faça análise dos dados.
Se tiver comentários sobre o artigo nos escreva!