Saturday 10 June 2017

Movimento Média Sem Transbordamento


Eu tenho essencialmente uma tabela de números - uma série de tempo de medições. Cada linha na tabela tem 5 valores para as 5 categorias diferentes e uma linha de soma para o total de todas as categorias. Se eu tomar a média de cada coluna e somar as médias em conjunto, deve ser igual à média das linhas somas (ignorando erro de arredondamento, é claro) (Ive tem um caso em que os dois valores continuam saindo diferente por cerca de 30 e Im me perguntando Apenas como louco eu sou.) Atualização: Veja abaixo - Eu estava (ligeiramente) louco e tinha um erro no meu código. Sigh Encontrou o meu problema - foi um erro dupe estúpido no meu código. Eu estava procurando um erro na média da lógica de somas, mas estava na soma da lógica de médias - referenciando a variável errada. Bem, de qualquer maneira, temos demonstrado cerca de 5 maneiras de domingo que a soma das médias é realmente igual à média das somas, no caso de que é importante para qualquer pessoa no futuro. Respondeu Feb 6 12 at 17:19 Talvez isso deve ir como uma atualização para a pergunta De qualquer maneira está bem embora. Também não se esqueça de aceitar uma resposta agora que seu problema foi resolvido. Ndash Zev Chonoles Feb 7 12 at 2:15 Geralmente não é correto, é apenas o mesmo em casos específicos. Soma (x) Soma (y) não igual a Soma (xy) n onde n é as entradas totais x é entradas de linha e y é entradas de coluna. Somente verdadeiro se todos os ys forem iguais eg: (12 35) 2 1120 (13) (25) 47 Onde como se y for igual (17 47) 2 514 (14) (77) 514 PS Desculpe por postar no tópico morto Só quero que seja certo para qualquer outra pessoa olhando. Na verdade Steve poderia estar correto. Ill dar-lhe um exemplo simples e, em seguida, explicar por que as pessoas inteligentes podem vir com respostas diferentes, porque de uma forma, theyre ambos à direita. Primeira fila: 5 6 Segunda fila: 1 2 Terceira fila: 3 4 Se você fizer a soma das médias ou média das somas como Daniel perguntou, então você terá 7 como a resposta. Se, no entanto, você remover o 1 deixando um buraco em sua tabela, então sua média das somas cai para 6 23 e sua soma das médias aumenta para 8. Se sua tabela de dados tiver espaços em branco ou dados faltando pontos, então os dois são Quase nunca o mesmo. Se a tabela de dados é uniformemente distribuída sem pontos ausentes ou buracos na tabela, então eles devem ser sempre os mesmos. Qualquer um pode testar isso com o MS Excel ea função RAND (). Gere uma tabela com qualquer número de rowscolumns e preencha as linhas e colunas com números aleatórios ou deixe gerar números aleatórios para você. Em seguida, use AVERAGE () para fazer a média das colunas e SUM () para somar as médias. Em seguida, inverta o processo e use SUM () para adicionar as linhas e AVERAGE () para a média das somas. Se a tabela estiver completa, os dois números serão precisamente os mesmos. Se, no entanto, os dados por qualquer motivo estiver faltando entradas, então ele pode variar em uma grande porcentagem. Basta iniciar a exclusão de pontos de dados no meio da tabela e ver os dois resultados flutuam muito. Também de notas é se você virar as linhas e colunas, então você obtém resultados completamente diferentes, portanto, certifique-se de que você é consistente. Se você fizer a média das linhas no exemplo acima e somar as médias, ou somar as colunas e calcular a média das somas, então você obtém 10.5 com uma tabela completa e 11 e 10, respectivamente com o 1 em falta. Respondido Aug 6 12 at 21:40 Note que OP escreveu em um dos comentários que não há espaços em branco na tabela. Note também que se a resposta de Steve39s for suprimida então ninguém saberá o que sua primeira sentença significa. Ndash Gerry Myerson Ago 7 12 em 1:04 matemática mista está correta. Tomar 3 colunas 10 10s, 5 1s e 2,3,5,6,6,7,9,10 (8 valores de rand), não média em branco. Avg de avgs é 5,67 avg de todos os valores é 6,65. Matemática mista é ok para responder a um thread antigo. Este material, verdade ou truthy, vive para sempre no Internet Há uma maneira de calcular a média da data, mas apenas ignorando o ano Deixe-me explicar. Eu tenho essas datas: Se eu usar AVERAGE (F2: F39). O resultado será 12152008. Isso não é o que eu preciso. O que eu realmente gostaria é determinar a média do dia e do mês. Há um par de datas de dezembro lá que eu poderia provavelmente eliminar, porque eles estão longe, mas usando o resto das datas, acho que a média seria em algum lugar ao redor, digamos, 12 de julho (independentemente do ano), por exemplo . Espero que isto faça sentido. Se mais detalhes forem necessários, por favor me avise. Agradecimentos pediu maio 6 15 em 14:42 I39ve suprimido ele agora mas era similar à resposta de Jan Doggen39, eu usei a DATA (2001, MÊS (A1), DIA (A1)) assim que criou uma lista de datas em 2001. Você pode Precisa formatar as células para que elas sejam exibidas como datas - incluindo o resultado MÉDIO (ou GEOMEAN) que você calcula. Ndash Lefty 6 de maio 15 às 15: 21Tawani - eles não estão todos faltando o ponto. O que você diz precisa ser definido usando termos genéricos. Você não pode ir com um único exemplo. Sem definições gerais, se 400 é 30 é ainda um outlier E se é 14 E 9 Onde você parar Você precisa stddev39s, intervalos, quartis, para fazer isso. Ndash Daniel Daranas Feb 2 09 at 17:05 No corte você don39t remover outliers você apenas don39t incluí-los no cálculo. QuotRemovequot pode sugerir que os pontos não estão mais no conjunto de dados. E você não pode removê-los (ou ignorá-los) porque eles são outliers o critério é (geralmente) apenas que eles estão em alguma fração extrema dos dados. Um valor não incluído em uma média aparada geralmente é apenas um pouco mais (ou menos) do que o valor mais alto (menor) incluído. Eu não sei se ele tem um nome, mas você poderia facilmente chegar a uma série de algoritmos para rejeitar outliers: Encontre todos os números entre o 10 º e 90 º percentis (fazer isso, classificando, em seguida, rejeitando O primeiro N10 e último N10 números) e tomar o valor médio dos valores restantes. Classificar valores, rejeitar valores altos e baixos, desde que, ao fazê-lo, o desvio padrão médio mude mais do que X. Classifique os valores, rejeite os valores altos e baixos contanto que, fazendo isso, os valores em questão sejam mais do que K desvios padrão do significar. A maneira mais comum de ter uma média robusta (a palavra usual é resistente a dados ruins) é usar a mediana. Este é apenas o valor médio na lista ordenada (de meio caminho entre os dois valores médios), então para o seu exemplo seria 90,5 a meio caminho entre 90 e 91. Se você deseja obter realmente em estatísticas robustas (como estimativas robustas De desvio padrão, etc) Eu recomendaria um perdido do código no grupo AGORAS, mas isso pode ser muito avançado para seus propósitos. Respondeu Feb 13 09 at 9:22 Se tudo que você tem é uma variável (como você implica) eu acho que alguns dos entrevistados acima estão sendo mais crítico de sua abordagem. Certamente outros métodos que olham para coisas como alavancagem são mais estatisticamente som, no entanto, isso implica que você está fazendo a modelagem de algum tipo. Se você apenas tem, por exemplo, pontuações em um teste ou idade de idosos (casos plausíveis de seu exemplo) eu acho que é prático e razoável para ser suspeito do outlier você trazer. Você poderia olhar para a média geral ea média aparada e ver o quanto ela muda, mas isso será uma função do tamanho da amostra eo desvio da média para os seus valores abertos. Com outliers egregious como aquele, você quereria certamente olhar nos dados que geram o processo para figurar para fora por que aquele é o caso. É uma entrada de dados ou fluke administrativa Se assim for e é provavelmente não relacionados ao valor real real (que não é observado) parece-me perfeitamente bem para aparar. Se é um valor verdadeiro, tanto quanto você pode dizer que você não pode ser capaz de remover a menos que você é explícito em sua análise sobre ele. Respondeu Dec 3 14 at 13:58 Meu livro de estatísticas se refere a isso como uma média de amostra em oposição a uma média de população. A amostra implica que houve uma restrição aplicada ao conjunto de dados completo, embora nenhuma modificação (remoção) para o conjunto de dados tenha sido feita. Respondeu Mar 26 16 at 3:13 0. Bem-vindo ao site. 1. Que livro Por favor, dê uma referência. 2. quotA média de amostra não se refere tipicamente a uma média obtida após a remoção de outliers. Ndash Juho Kokkala Mar 26 16 às 8:06 Pode ser a mediana. Nem sempre, mas às vezes. Eu não tenho idéia do que é chamado em outras ocasiões. Espero que isso ajudou. (Pelo menos um pouco.)

No comments:

Post a Comment