New contributions to the statistical analysis of high-dimensional data under dependence
DATE:
2019-01-10
UNIVERSAL IDENTIFIER: http://hdl.handle.net/11093/1125
SUPERVISED BY: De Uña Alvarez, Jacobo

DOCUMENT TYPE: doctoralThesis
ABSTRACT
Multiple comparison procedures (Dudoit and van der Laan, 2008) are needed when one performs several tests in a simultaneous way, since they avoid the problem of an inflated type I error rate. Traditional methods for multiple comparisons aim to control the familywise error rate (FWER) or the false discovery rate (FDR) at a pre-specified level.
However, such procedures may exhibit a low power when the effects are weak or moderate. Carvajal-Rodríguez et al. (2009) introduced a new criterion, called SGoF for multiple comparisons, with the advantage of reporting a reasonable power which increases as the number of tests grow. The SGoF method starts by focusing on the p-values below a given threshold, and makes a decision which guarantees that the number of false positives is smaller than the number of false negatives with large probability 1-alpha, where alpha is fixed in advance (de Uña-Álvarez, 2012). Since no bound is imposed on the FWER or the FDR, the SGoF criterionresults in a powerful statistical procedure.
Like many other multiple testing procedures, the SGoF method assumes that the p-values are uniformly distributed when all the true hypotheses are true. However, this assumption fails in the case of discrete distributions (Gilbert, 2005), leading to a remarkable loss of power. An adaptation of SGoF method to the discrete case was proposed in Castro-Conde et al. (2015). A goal will be to adapt SGoF method to the case of dependent tests. Another objective in this line of research is to introduce adjusted p-values for the several existing versions of the SGoF method.
Finally, we include under the umbrella of multiple comparison procedures a goal which has to do with the comparison of a large number of densities. Zhan and Hart (2012) introduced a test statistic for this low-sample, large-dimension problem, in the independent case. However, in practice dependence in the samples is expected, and therefore a new analysis of such a test is needed. This is what it is pursued in this objective. The statistic of Zhan and Hart (2012) is a U-statistic; exist in the literature results of asymptotic normality under mixing conditions (see Dehling and Wendler, 2010, and references). For introduce a correct estimation of the variance of the U-statistic of Zhan and Hart (2012) in the practice we consider different methods adapted to dependent, for example the dependent multiplier bootstrap (Bücher and Kojadinovic 2016b).
References:
- Bücher, A., Kojadinovic, I. (2016b). Depedent multiplier bootstrap for non-degenerated U-statistics under mixing conditions with applications. Journal of Statistical Planning and Inference 170, 83-105.
- Carvajal-Rodríguez, A., de Uña-Álvarez, J., Rolan-Álvarez, E. (2009). A new multitest correction (SGoF) that increases its statistical power when increasing the number of tests. BMC Bioinformatics, 10, 209.
- Castro-Conde, I., Doehler, S., de Uña-Álvarez, J. (2015) An extended SGoF multiple testing method for discrete data. Statistical Methods in Medical Research, in press. DOI: 10.1177/0962280215597580
- Dehling, H., Wendler, M. (2010). Central limit theorem and the bootstrap for U-statistics of strongly mixing data. Journal of Multivariate Analysis 101, 126-137.
- Dudoit, S., van der Laan, M. (2008). Multiple testing procedures with applications to Genomics. Springer.
- Gilbert, P.G. (2005). A modified false discovery rate multiple-comparisons procedure for discrete data, applied to human immunodeficiency virus genetics. Journal of the Royal Statistical Society - Series C, 54, 143-158.
- Zhan, D., Hart, J. (2012). Testing equality of a large number of densities. Biometrika, 99, 1-17. Los procedimientos de comparaciones múltiples (Dudoit and van der Laan, 2008) son necesarios cuando se realizan varias pruebas de forma simultánea, ya que esto evita el problema de una tasa de error tipo I inflada. El objectivo de los métodos de comparaciones múltiples tradicionales es controlar la tasa de error familywise (FWER) o la tasa de falso descubrimiento (FDR) para un nivel prefijado. Sin embargo tales procedimientos pueden exhibir una baja potencia cuando los efectos son débiles o moderados. Carvajal-Rodríguez et al. (2009) introdujeron un nuevo criterio, llamado SGoF, con la ventaja de proporcionar una potencia razonable. El método SGoF comienza centrándose en los p-valores por debajo de un determinado umbral, y toma una decisión que garantiza que el número de falsos positivos es menor que el número de falsos negativos con alta probabilidad 1-alpha, donde alpha es fijado de antemano (de Uña-Álvarez, 2012). Puesto que no se le impone, a priori, ninguna cota a la FWER o a la FDR, el criterio SGoF es un procedimiento estadístico potente. Al igual que muchos otros procedimientos de contrastes múltiples, el método SGoF supone que los p-valores se distribuyen de manera uniforme cuando todas las hipótesis nulas son ciertas. Sen embargo, este supuesto no es cierto en el caso de distribucións discretas (Gilbert, 2005), lo que lleva a una notable pérdida de potencia. Una adaptación del método SGoF para el caso discreto fue propuesta en Conde et al. (2015). Un objectivo será adaptar el método SGoF al caso de pruebas dependientes. Otro de los objectivos de esta línea de investigación es introducir los p-valores ajustados para varias versiones existentes del método SGoF. Por último, en el marco de procedimientos de comparación múltiple se inclúe un objectivo que tiene que ver con la comparación de un gran número de densidades. Zhan y Hart (2012) introdujeron una prueba estadística para este problema de alta dimensión y muestra pequeña, en el caso de independencia. Sin embargo en la práctica es esperable la dependencia en las muestras, y por lo tanto se necesita un nuevo estadístico de contraste. Esto es lo que persigue este objectivo. El estadístico de Zhan y Hart (2012) es un U-estadístico; existen en la literatura resultados de normalidad asintótica bajo condiciones de dependencia tipo mixing (ver Dehling y Wendler, 2010, y referencias). Para introducir una correcta estimación de la varianza del U-estadístico de Zhan y Hart (2012) en la practica consideraremos distintos métodos adaptados a dependencia, como por ejemplo el multiplicador bootstrap dependiente (Bücher y Kojadinovic 2016b). Referencias: - Bücher, A., Kojadinovic, I. (2016b). Depedent multiplier bootstrap for non-degenerated U-statistics under mixing conditions with applications. Journal of Statistical Planning and Inference 170, 83-105. - Carvajal-Rodríguez, A., de Uña-Álvarez, J., Rolan-Álvarez, E. (2009). A new multitest correction (SGoF) that increases its statistical power when increasing the number of tests. BMC Bioinformatics, 10, 209. - Castro-Conde, I., Doehler, S., de Uña-Álvarez, J. (2015) An extended SGoF multiple testing method for discrete data. Statistical Methods in Medical Research, in press. DOI: 10.1177/0962280215597580 - Dehling, H., Wendler, M. (2010). Central limit theorem and the bootstrap for U-statistics of strongly mixing data. Journal of Multivariate Analysis 101, 126-137. - Dudoit, S., van der Laan, M. (2008). Multiple testing procedures with applications to Genomics. Springer. - Gilbert, P.G. (2005). A modified false discovery rate multiple-comparisons procedure for discrete data, applied to human immunodeficiency virus genetics. Journal of the Royal Statistical Society - Series C, 54, 143-158. - Zhan, D., Hart, J. (2012). Testing equality of a large number of densities. Biometrika, 99, 1-17. Os procedementos de comparacións múltiples (Dudoit and van der Laan, 2008) son necesarios cando se realizan varias probas de forma simultánea, xa que isto evita o problema dunha tasa de erro tipo I inflada. O obxectivo dos métodos de comparacións múltiples tradicionais é controlar a tasa de erro familywise (FWER) ou a tasa de falso descubrimento (FDR) para un nivel prefixado.
Porén tales procedementos poden exhibir unha baixa potencia cando os efectos son débiles ou moderados. Carvajal-Rodríguez et al. (2009) introduciron un novo criterio, chamado SGoF, coa vantaxe de proporcionar unha potencia razoable. O método SGoF comenza centrándose nos p-valores por debaixo dun determinado umbral, e toma unha decisión que garante que o número de falsos positivos é menor que o número de falsos negativos con alta probabilidade 1-alpha, onde alpha é fixado de antemán (de Uña-Álvarez, 2012). Posto que non se lle impón, a priori, ningunha cota á FWER ou á FDR, o criterio SGoF é un procedemento estatístico moi potente.
O igual que moitos outros procedementos de contrastes múltiples, o método SGoF supón que os p-valores se distribúen de xeito uniforme cando todas as hipóteses nulas son certas. Porén, este suposto non é certo no caso de distribucións discretas (Gilbert, 2005), o que leva a unha notable perda de potencia. Unha adaptación do método SGoF para o caso discreto foi proposta en Conde et al. (2015). Un obxectivo será adaptar o método SGoF ao caso de probas dependentes. Outro dos obxectivos desta liña de investigación é introducir os p-valores axustados para varias versións existentes do método SGoF.
Por último, no marco de procedementos de comparación múltiple inclúese un obxectivo que ten que ver coa comparación dun gran número de densidades. Zhan e Hart (2012) introduxeron unha proba estatística para este problema de alta dimensión e mostra pequena, no caso de independencia. Porén na práctica é esperable a dependencia nas mostras, e polo tanto necesítase un novo estatístico de contraste. Isto é o que persigue este obxectivo. O estatístico de Zhan e Hart (2012) é un U-estatístico; existen na literatura resultados de normalidade asintótica baixo condicións tipo mixing (ver Dehling e Wendler, 2010, e referencias). Para introducir unha correcta estimación da varianza do U-estatístico de Zhan e Hart (2012) na práctica consideraremos métodos adaptados a dependencia, como por exemplo o multiplicador bootstrap dependente (Bücher e Kojadinovic, 2016b).
Referencias:
- Bücher A., Kojadinovic, I. (2016b). Dependent multiplier bootstrap for non-degenerated U-statistics under mixing conditions with applications. Journal of Statistical Planning and Inference 170, 83-105
- Carvajal-Rodríguez, A., de Uña-Álvarez, J., Rolan-Álvarez, E. (2009). A new multitest correction (SGoF) that increases its statistical power when increasing the number of tests. BMC Bioinformatics, 10, 209.
- Castro-Conde, I., Doehler, S., de Uña-Álvarez, J. (2015) An extended SGoF multiple testing method for discrete data. Statistical Methods in Medical Research, in press. DOI: 10.1177/0962280215597580
- Dehling, H., Wendler, M. (2010). Central limit theorem and the bootstrap for U-statistics of strongly mixing data. Journal of Multivariate Analysis 101, 126-137.
- Dudoit, S., van der Laan, M. (2008). Multiple testing procedures with applications to Genomics. Springer.
- Gilbert, P.G. (2005). A modified false discovery rate multiple-comparisons procedure for discrete data, applied to human immunodeficiency virus genetics. Journal of the Royal Statistical Society - Series C, 54, 143-158.
- Zhan, D., Hart, J. (2012). Testing equality of a large number of densities. Biometrika, 99, 1-17.