23 Junho 2021 8:16

T-Test

O que é um T-Test?

Um teste t é um tipo de estatística inferencial usada para determinar se há uma diferença significativa entre as médias de dois grupos, que podem estar relacionadas em certas características. É mais usado quando os conjuntos de dados, como o conjunto de dados registrado como resultado de jogar uma moeda 100 vezes, seguiriam uma distribuição normal e podem ter variações desconhecidas. Um teste t é usado como uma ferramenta de teste de hipótese, que permite testar uma suposição aplicável a uma população. 

Um teste t examina a estatística t, os valores da distribuição t e os graus de liberdade para determinar a significância estatística. Para realizar um teste com três ou mais meios, deve-se usar uma  análise de variância.

Principais vantagens

  • Um teste t é um tipo de estatística inferencial usada para determinar se há uma diferença significativa entre as médias de dois grupos, que podem estar relacionadas em certas características.
  • O teste t é um dos muitos testes usados ​​para fins de teste de hipóteses em estatísticas.
  • O cálculo de um teste t requer três valores-chave de dados. Eles incluem a diferença entre os valores médios de cada conjunto de dados (chamada de diferença média), o desvio padrão de cada grupo e o número de valores de dados de cada grupo.
  • Existem vários tipos diferentes de teste t que podem ser realizados, dependendo dos dados e do tipo de análise necessária.

Explicando o T-Test

Essencialmente, um teste t nos permite comparar os valores médios dos dois conjuntos de dados e determinar se eles vêm da mesma população. Nos exemplos acima, se pegássemos uma amostra de alunos da classe A e outra amostra de alunos da classe B, não esperaríamos que tivessem exatamente a mesma média e desvio padrão. Da mesma forma, as amostras retiradas do grupo de controle alimentado com placebo e aquelas retiradas do grupo do medicamento prescrito devem ter uma média e desvio padrão ligeiramente diferentes.

Matematicamente, o teste t obtém uma amostra de cada um dos dois conjuntos e estabelece a definição do problema, assumindo uma hipótese nula de que as duas médias são iguais. Com base nas fórmulas aplicáveis, certos valores são calculados e comparados com os valores padrão, e a hipótese nula assumida é aceita ou rejeitada de acordo.

Se a hipótese nula se qualificar para ser rejeitada, isso indica que as leituras de dados são fortes e provavelmente não são devidas ao acaso. O teste t é apenas um dos muitos testes usados ​​para essa finalidade. Os estatísticos também devem usar outros testes além do teste t para examinar mais variáveis ​​e testes com tamanhos de amostra maiores. Para uma amostra grande, os estatísticos usam um  teste z. Outras opções de teste incluem o teste do qui-quadrado e o teste f.

Existem três tipos de testes t, e eles são categorizados como testes t dependentes e independentes.

Resultados de teste ambíguos

Considere que um fabricante de medicamentos deseja testar um medicamento recém-inventado. Ele segue o procedimento padrão de experimentar a droga em um grupo de pacientes e dar um placebo a outro grupo, chamado de grupo de controle. O placebo dado ao grupo de controle é uma substância sem valor terapêutico pretendido e serve como uma referência para medir como o outro grupo, que recebe a droga real, responde.

Após o teste da droga, os membros do grupo de controle alimentado com placebo relataram um aumento na expectativa de vida média de três anos, enquanto os membros do grupo que receberam a nova droga relataram um aumento na expectativa de vida média de quatro anos. A observação instantânea pode indicar que a droga está de fato funcionando, pois os resultados são melhores para o grupo que está usando a droga. No entanto, também é possível que a observação seja devida a um acontecimento fortuito, especialmente um golpe de sorte surpreendente. Um teste t é útil para concluir se os resultados estão realmente corretos e aplicáveis ​​a toda a população.

Em uma escola, 100 alunos da classe A pontuaram em média 85% com um desvio padrão de 3%. Outros 100 alunos pertencentes à classe B obtiveram média de 87% com desvio padrão de 4%. Embora a média da classe B seja melhor do que a da classe A, pode não ser correto concluir que o desempenho geral dos alunos da classe B é melhor do que o dos alunos da classe A. Isso ocorre porque há variabilidade natural nas pontuações dos testes em ambas as classes, de modo que a diferença pode ser devido apenas ao acaso. Um teste t pode ajudar a determinar se uma classe se saiu melhor do que a outra.

Suposições do T-Test

  1. A primeira suposição feita em relação aos testes t diz respeito à escala de medição. A suposição de um teste t é que a escala de medição aplicada aos dados coletados segue uma escala contínua ou ordinal, como as pontuações de um teste de QI.
  2. A segunda suposição feita é a de uma amostra aleatória simples, de que os dados são coletados de uma porção representativa e selecionada aleatoriamente da população total.
  3. A terceira suposição é que os dados, quando plotados, resultam em uma distribuição normal, curva de distribuição em forma de sino.
  4. A suposição final é a homogeneidade da variância. Variância homogênea ou igual existe quando os desvios padrão das amostras são aproximadamente iguais.

Calculando Testes-T

O cálculo de um teste t requer três valores-chave de dados. Eles incluem a diferença entre os valores médios de cada conjunto de dados (chamada de diferença média), o desvio padrão de cada grupo e o número de valores de dados de cada grupo.

O resultado do teste t produz o valor t. Esse valor t calculado é então comparado com um valor obtido de uma tabela de valores críticos (chamada Tabela de distribuição T ). Essa comparação ajuda a determinar o efeito do acaso sozinho na diferença e se a diferença está fora dessa faixa de chance. O teste t questiona se a diferença entre os grupos representa uma diferença real no estudo ou se é possivelmente uma diferença aleatória sem sentido.

Tabelas de distribuição T

A Tabela de distribuição T está disponível nos formatos de uma cauda e duas caudas. O primeiro é usado para avaliar casos que têm um valor fixo ou intervalo com uma direção clara (positiva ou negativa). Por exemplo, qual é a probabilidade de o valor de saída permanecer abaixo de -3 ou obter mais de sete ao lançar um par de dados? O último é usado para análise de limite de alcance, como perguntar se as coordenadas estão entre -2 e +2.

Os cálculos podem ser realizados com programas de software padrão que suportam as funções estatísticas necessárias, como as encontradas no MS Excel.

Valores T e graus de liberdade

O teste t produz dois valores como sua saída: valor t e graus de liberdade. O valor t é uma razão da diferença entre a média dos dois conjuntos de amostras e a variação que existe dentro dos conjuntos de amostras. Embora o valor do numerador (a diferença entre a média dos dois conjuntos de amostra) seja simples de calcular, o denominador (a variação que existe dentro dos conjuntos de amostra) pode se tornar um pouco complicado dependendo do tipo de valores de dados envolvidos. O denominador da razão é uma medida da dispersão ou variabilidade. Valores mais altos do valor t, também chamado de pontuação t, indicam que existe uma grande diferença entre os dois conjuntos de amostras. Quanto menor for o valor t, maior será a semelhança entre os dois conjuntos de amostras.

  • Uma grande pontuação t indica que os grupos são diferentes.
  • Uma pequena pontuação t indica que os grupos são semelhantes.

Graus de liberdade referem-se aos valores em um estudo que tem liberdade para variar e são essenciais para avaliar a importância e a validade da hipótese nula. O cálculo desses valores geralmente depende do número de registros de dados disponíveis no conjunto de amostra.

Teste T correlacionado (ou pareado)

O teste t correlacionado é realizado quando as amostras normalmente consistem em pares combinados de unidades semelhantes, ou quando há casos de medidas repetidas. Por exemplo, pode haver casos dos mesmos pacientes sendo testados repetidamente – antes e depois de receber um determinado tratamento. Nesses casos, cada paciente está sendo usado como uma amostra de controle contra si mesmo.

Este método também se aplica a casos em que as amostras estão relacionadas de alguma forma ou têm características de correspondência, como uma análise comparativa envolvendo filhos, pais ou irmãos. Os testes t correlacionados ou emparelhados são de um tipo dependente, pois envolvem casos em que os dois conjuntos de amostras estão relacionados.

A fórmula para calcular o valor t e os graus de liberdade para um teste t pareado é:

Os dois tipos restantes pertencem aos testes t independentes. As amostras desses tipos são selecionadas independentemente umas das outras – ou seja, os conjuntos de dados nos dois grupos não se referem aos mesmos valores. Eles incluem casos como um grupo de 100 pacientes sendo dividido em dois conjuntos de 50 pacientes cada. Um dos grupos passa a ser o grupo de controle e recebe um placebo, enquanto o outro grupo recebe o tratamento prescrito. Isso constitui dois grupos de amostra independentes que não estão emparelhados.

Teste T de Variância Igual (ou Combinada)

O teste t de variância igual é usado quando o número de amostras em cada grupo é o mesmo ou a variância dos dois conjuntos de dados é semelhante. A seguinte fórmula é usada para calcular o valor t e os graus de liberdade para o teste t de variância igual:

T-value=meuman1-meuman2(n1-1)