1) Chamamos um desvio relativo simples o quociente de um desvio, isto é, de uma diferença entre uma variável e sua média ou outro valor ideal, e o seu erro standard. D= v-v/ δ ou D = v-v2/δ Num desvio composto nós reunimos vários desvios de acordo com a equação: D = + Σ (v - 2)²: o o = o1/ o o Todo desvio relativo é caracterizado por dois graus de liberdade (número de variáveis livres) que indicam de quantas observações foi calculado o numerador (grau de liberdade nf1 ou simplesmente n2) e o denominador (grau de liberdade nf2 ou simplesmente n2). 2) Explicamos em detalhe que a chamada distribuição normal ou de OAUSS é apenas um caso especial que nós encontramos quando o erro standard do dividendo do desvio relativo é calculado de um número bem grande de observações ou determinado por uma fórmula teórica. Para provar este ponto foi demonstrado que a distribuição de GAUSS pode ser derivada da distribuição binomial quando o expoente desta torna-se igual a infinito (Fig.1). 3) Assim torna-se evidente que um estudo detalhado da variação do erro standard é necessário. Mostramos rapidamente que, depois de tentativas preliminares de LEXIS e HELMERT, a solução foi achada pelos estatísticos da escola londrina: KARL PEARSON, o autor anônimo conhecido pelo nome de STUDENT e finalmente R. A. FISHER. 4) Devemos hoje distinguir quatro tipos diferentes de dis- tribuições de acaso dos desvios relativos, em dependência de combinação dos graus de liberdade n1 e n2. Distribuição de: fisher 1 < nf1 < infinito 1 < nf2 < infinito ( formula 9-1) Pearson 1 < nf1 < infinito nf 2= infinito ( formula 3-2) Student nf2 = 1 1 < nf2= infinito ( formula 3-3) Gauss nf1 = 1 nf2= infinito ( formula 3-4) As formas das curvas (Fig. 2) e as fórmulas matemáticas dos quatro tipos de distribuição são amplamente discutidas, bem como os valores das suas constantes e de ordenadas especiais. 5) As distribuições de GAUSS e de STUDENT (Figs. 2 e 5) que correspondem a variação de desvios simples são sempre simétricas e atingem o seu máximo para a abcissa D = O, sendo o valor da ordenada correspondente igual ao valor da constante da distribuição, k1 e k2 respectivamente. 6) As distribuições de PEARSON e FISHER (Fig. 2) correspondentes à variação de desvios compostos, são descontínuas para o valor D = O, existindo sempre duas curvas isoladas, uma à direita e outra à esquerda do valor zero da abcissa. As curvas são assimétricas (Figs. 6 a 9), tornando-se mais e mais simétricas para os valores elevados dos graus de liberdade. 7) A natureza dos limites de probabilidade é discutida. Explicámos porque usam-se em geral os limites bilaterais para as distribuições de STUDENT e GAUSS e os limites unilaterais superiores para as distribuições de PEARSON e FISHER (Figs. 3 e 4). Para o cálculo dos limites deve-se então lembrar que o desvio simples, D = (v - v) : o tem o sinal positivo ou negativo, de modo que é em geral necessário determinar os limites bilaterais em ambos os lados da curva (GAUSS e STUDENT). Os desvios relativos compostos da forma D = O1 : o2 não têm sinal determinado, devendo desprezar-se os sinais. Em geral consideramos apenas o caso o1 ser maior do que o2 e os limites se determinam apenas na extremidade da curva que corresponde a valores maiores do que 1. (Limites unilaterais superiores das distribuições de PEARSON e FISHER). Quando a natureza dos dados indica a possibilidade de aparecerem tanto valores de o(maiores como menores do que o2,devemos usar os limites bilaterais, correspondendo os limites unilaterais de 5%, 1% e 0,1% de probabilidade, correspondendo a limites bilaterais de 10%, 2% e 0,2%. 8) As relações matemáticas das fórmulas das quatro distribuições são amplamente discutidas, como também a sua transformação de uma para outra quando fazemos as necessárias alterações nos graus de liberdade. Estas transformações provam matematicamente que todas as quatro distribuições de acaso formam um conjunto. Foi demonstrado matematicamente que a fórmula das distribuições de FISHER representa o caso geral de variação de acaso de um desvio relativo, se nós extendermos a sua definição desde nfl = 1 até infinito e desde nf2 = 1 até infinito. 9) Existe apenas uma distribuição de GAUSS; podemos calcular uma curva para cada combinação imaginável de graus de liberdade para as outras três distribuições. Porém, é matematicamente evidente que nos aproximamos a distribuições limitantes quando os valores dos graus de liberdade se aproximam ao valor infinito. Partindo de fórmulas com área unidade e usando o erro standard como unidade da abcissa, chegamos às seguintes transformações: a) A distribuição de STUDENT (Fig. 5) passa a distribuição de GAUSS quando o grau de liberdade n2 se aproxima ao valor infinito. Como aproximação ao infinito, suficiente na prática, podemos aceitar valores maiores do que n2 = 30. b) A distribuição de PEARSON (Fig. 6) passa para uma de GAUSS com média zero e erro standard unidade quando nl é igual a 1. Quando de outro lado, nl torna-se muito grande, a distribuição de PEARSON podia ser substituída por uma distribuição modificada de GAUSS, com média igual ale unidade da abcissa igual a 1 : V2 n 1 . Para fins práticos, valores de nl maiores do que 30 são em geral uma aproximação suficiente ao infinito. c) Os limites da distribuição de FISHER são um pouco mais difíceis para definir. I) Em primeiro lugar foram estudadas as distribuições com n1 = n2 = n e verificamos (Figs. 7 e 8) que aproximamo-nos a uma distribuição, transformada de GAUSS com média 1 e erro standard l : Vn, quando o valor cresce até o infinito. Como aproximação satisfatória podemos considerar nl = n2 = 100, ou já nl =r n2 - 50 (Fig. 8) II) Quando n1 e n2 diferem (Fig. 9) podemos distinguir dois casos: Se n1 é pequeno e n2 maior do que 100 podemos substituir a distribuição de FISHER pela distribuição correspondente de PEARSON. (Fig. 9, parte superior). Se porém n1é maior do que 50 e n2 maior do que 100, ou vice-versa, atingimos uma distribuição modificada de GAUSS com média 1 e erro standard 1: 2n1 n3 n1 + n2 10) As definições matemáticas e os limites de probabilidade para as diferentes distribuições de acaso são dadas em geral na literatura em formas bem diversas, usando-se diferentes sistemas de abcissas. Com referência às distribuições de FISHER, foi usado por este autor, inicialmente, o logarítmo natural do desvio relativo, como abcissa. SNEDECOR (1937) emprega o quadrado dos desvios relativos e BRIEGER (1937) o desvio relativo próprio. As distribuições de PEARSON são empregadas para o X2 teste de PEARSON e FISHER, usando como abcissa os valores de x² = D². n1 Foi exposto o meu ponto de vista, que estas desigualdades trazem desvantagens na aplicação dos testes, pois atribui-se um peso diferente aos números analisados em cada teste, que são somas de desvios quadrados no X2 teste, somas des desvios quadrados divididos pelo grau de liberdade ou varianças no F-teste de SNEDECOR, desvios simples no t-teste de STUDENT, etc.. Uma tábua dos limites de probabilidade de desvios relativos foi publicada por mim (BRIEGER 1937) e uma tábua mais extensa será publicada em breve, contendo os limites unilaterais e bilaterais, tanto para as distribuições de STUDENT como de FISHER. 11) Num capítulo final são discutidas várias complicações que podem surgir na análise. Entre elas quero apenas citar alguns problemas. a) Quando comparamos o desvio de um valor e sua média, deveríamos corretamente empregar também os erros de ambos estes valores: D = u- u o2 +²5 Mas não podemos aqui imediatamente aplicar os limites de qualquer das distribuições do acaso discutidas acima. Em geral a variação de v, medida por o , segue uma distribuição de STUDENT e a variação da média V segue uma distribuição de GAUSS. O problema a ser solucionado é, como reunir os limites destas distribuições num só teste. A solução prática do caso é de considerar a média como uma constante, e aplicar diretamente os limites de probabilidade das dstribuições de STUDENT com o grau de liberdade do erro o. Mas este é apenas uma solução prática. O problema mesmo é, em parte, solucionado pelo teste de BEHRENDS. b) Um outro problema se apresenta no curso dos métodos chamados "analysis of variance" ou decomposição do erro. Supomos que nós queremos comparar uma média parcial va com a média geral v . Mas podemos calcular o erro desta média parcial, por dois processos, ou partindo do erro individual aa ou do erro "dentro" oD que é, como explicado acima, uma média balançada de todos os m erros individuais. O emprego deste último garante um teste mais satisfatório e severo, pois êle é baseado sempre num grau de liberdade bastante elevado. Teremos que aplicar dois testes em seguida: Em primeiro lugar devemos decidir se o erro ou difere do êrro dentro: D = δa/δ0 n1 = np/n2 m. n p Se este teste for significante, uma substituição de oa pelo oD não será admissível. Mas mesmo quando o resultado for insignificante, ainda não temos certeza sobre a identidade dos dois erros, pois pode ser que a diferença entre eles é pequena e os graus de liberdade não são suficientes para permitir o reconhecimento desta diferença como significante. Podemos então substituirmos oa por oD de modo que n2 = m : np: D = V a - v / δa Np n = 1 n2 = np passa para D = v = - v/ δ Np n = 1 n2 = m.n p as como podemos incluir neste último teste uma apreciação das nossas dúvidas sobre o teste anterior oa: oD ? A melhor solução prática me parece fazer uso da determinação de oD, que é provavelmente mais exata do que oa, mas usar os graus de liberdade do teste simples: np = 1 / n2 = np para deixar margem para as nossas dúvidas sobre a igualdade de oa a oD. Estes dois exemplos devem ser suficientes para demonstrar que apesar dos grandes progressos que nós podíamos registrar na teoria da variação do acaso, ainda existem problemas importantes a serem solucionados.
1) The present paper deals with the mathematical basis and the relations of the different chance distributions. It is shown that the concepts of classical statistics may only be applied correctly when dealing with illimited populations where the number of variables is so large that it may be considered as infinite. After the attempts of LEXIS and HELMERT, a partial solution was found by KARL PEARSON and by STUDENT, until finally R. A. FISHER gave the general solution, solving the problem of statistical analysis in a general form and determining the chance distribution in small samples. 2) As a basis for the formulas, I am using always the relative deviate, which may be determined in two ways: the simple relative deviale: D= v-v/ δ ou D = v-v2/δ the compound relative deviate: D = + Σ (v - 2)²: o o = o1/ o o 3) The deviates are always defined by two degrees of freedom, nl for the dividend and n2 for the divisor. According to the values combined in any given case, we may distinguish four basic chance distributions which we shall call according to the respective authors: the distributions of GAUSS, STUDENT, PEARSON and FISHER. The mathematical definition and the corresponding degrees of freedom are given both in formulae 3-1 to 3-4 on pg. and in the lower part of Fig. 2. The upper part of Fig. 2. represents grafically these four distributions. The equations and the forma of the corresponding curves are discussed in detail. 4) The main differences between the simple and the compound relative deviate are discussed: a) Simple deviates have always a definite signe and are either positive or negative, according to the signe of the numerator. Correspondingly the distributions of GAUSS and STUDENT are symetrical with regards to the abscissa zero and extend on both sides of it untill plus and minus infinite. Compound deviates on the other side, have no definite sign, since the numerator is a square root. The distributions of PEARSON and FISHER, accordingly, are discontinuous for the value zero and,we obtain two identical and independent curves which go from zero to plus infinite, resp. from zero to minus infinite. b) Secondly when studying simple deviates we admitt that both positive and negative large deviates may occur in consequence of an increase in variability. Consequently we ha- ve to use, in the corresponding tests, bilateral limits of probability (Fig. 3). When analysing compound deviates, we are comparing one standard error with another, which may either be an ideal value or at least a better estimate. Admitting that only an increase of variability may occurr, we apply in tests, based on PEARSON'S or FISHER's distribuitions, only the upper (superior) unilateral limit of probability (Fig. 4). The tables thus far published, for these distributions contain the unilaeeral limits only. A more complete table, including bilateral limits, has been computed by myself and is already in press. 5) Discussing the relations of the four distribuitions, it is shown that mathematically their formulas can be easily transiormed from one to the other by changing the respective values of degrees of freedom. The application of a few principles of mathematics is sufficient, besides remembering that the distributions of PEARSON and FISHER correspond only to half a distribution of STUDENT and GAUSS. Thus it is shown: a) that for nl bigger than 30, the distribution of STUDENT is so near to that of GAUSS (or normal), to permitt its substitution. b) that for nl bigger than 30, the distribution of PEARSON becomes almost symetrical and may be substituted by a modified distribution of GAUSS (or normal) with mean equal to one and error standard. 1 : 2n1 c) That the distribution of FISHER with nl = n2 becomes more or less symetrical when both reach the limit of 50 or bester still 100, and than may be substituted by a modified distribution of GAUSS with mean one and error standard. 1 : n d) That the distributions of FISHER, when nl differs from n2, may be substituted either by the correspondent distribution of PEARSAN, if nl is small and n2 bigger than 100, or by a modified distribution of GAUSS with mean unity and error standard equal to when nl goes beyond 50 and n2 beyond 100 ou vice versa. 1 : 2n1n2 n1 + n2 6) The formulas, generally given in the litterature to characterize the different distribuitions are far from being uniform and use differents measures for the abcissa. Thus in the tests for FISHER's distribution, the natural logarithm for the deviate were used initially (FISER's z-test). Later on SNEDECOR (1937) recommended the square of the deviate (F-test) and BRIEGER (1937) the deviate itself (n- test). In the X2 test, based on PEARSON'S distribution, one generally uses the square of the compound deviate, multiplied by the degree of freedom n1. The t-test, based on STUDENT'S distribution, finally makes use of the simple deviate itself. The inevitabal algebric consequences of this variation of unitis of emasure is, that the severity and thus the statistical efficiency of the tests is not comparable. Decimals in the t-test and n-test correspond to hundreds in the F-test and to almost anything, depending upon the values of nl, in the X2-test. 7) In the last chapter a few rather complicated problems are discussed, which can be solved with approximation in practical tests, but wich are still unsolved from the theoretical point of view. We shall mention here only two of the questions raised: a)Analyzing the difference between a variable and its mean (or of a partial mean and a general mean), only the standard error of the first term is used generally, considering the other as a constant: D = v- v 6n Howewer with more justification both terms may be considered as variable und thus one should apply the formula : D. v-v δ2 - δ 2 0 The first mentioned simple value of D chould follow a distribution of STUDENT and its analysis thus does not present any difficulties. But in the second term we combine the term, v, with standard error o which should follow STUDENT'S distribution and the mean, V , with standard error o v which generally will follow the distribution of GAUSS. How shall we combine the requeriments of those two distribuitions simultaneously? BEHREND's test seems to give a solution, which however is not very easy to apply and which is not suficient when the second term follows also a distribution of STUDENT, but with different degree of freedom. b) The second problem arises in connection with the ana-ysis of variance in its most simple form, i. e. the test "within-between". If we want to compare by a t-test the partial mean of one sample Va with the general mean v of the whole experiment, we must decide wether we should use standard error of this sample oa, based on np degrees of freedom or the error "within" oD which is a balanced mean value ot all the m individual sample errors. At the same time we have an alternative choice with regards to the degree of freedom: D = va - v/ Np n1 = 1/ n2 = n p ou D = va - v / δo/ n p = n1 = 1/ n2 = m. np Thus it is evident that the use of the value o D not only alters the value of the relative deviate D, but also the limits of probability to be applied which depend upon the degree of greedom. Howewer we must justify the substitution of the partial error o a by the error "within" oD and this should be done by determining wether the value o a: oD is due to chance only, i. e. that there is really no difference between the two errors from a statistical point of view. The necessary test howewer: D = δa /δ d n1 = np / n2 = m. n p generally does not allow a very decisive answer since the degree of freedom np is in most cases small. Whenever there is some reason to doubt wether the substitution is really justified, it seems to me reasonable to use the probably better estimate oD, instead of the individual sample error oa, while at the same time make allowances for doubts by not substituting the degrees of freedom: D = va - n / Bd Np n = 1 / n2 = nf A more complete formula naturally would be the following: D = va - v/ Bd N = 1 / N2... c) These too examples should be sufficient to show that there are still Important theoretical problems to be solved, in spite of the really very considerable progress achieved with regards to theory and methods of analysis of simple and compound relative deviates from uniform small or large, but always limited samples.