Computational intelligence and statistical learning applied to Coffea canephora

Imagem de Miniatura

Data

2022-05-02

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Viçosa

Resumo

Genomic prediction in Coffee breeding has shown good potential in predictive ability (PA), genetic gains and reduction of the selection cycle time. Many methodologies are used to predict the genetic merit, but some of them require priori assumptions that may increase the complexity of the model. Artificial neural network (ANN) has advantage to not require priori assumptions about the relationships between inputs and the output allowing great flexibility to handle different types of complex non-additive effects, such as dominance and epistasis. Despite this advantage, the biological interpretability of ANNs is still limited. In the elaboration of this research project, two basic questions were formulated. The first question, is it possible to estimate genetic parameters using ANNs? The second, is it possible to reduce the panel marker size with no penalty in predictive ability? For this, the analyzes were divided into two articles. In the first article, the aim was to estimate the heritability and markers effects for two traits in Coffea canephora using an additive-dominance architecture ANN and to compare it with genomic best linear unbiased prediction (GBLUP). In the second article, the aim was to evaluate the trade-off between density marker panels size and the PA for eight agronomic traits in Coffea canephora using machine learning (bagging and random forest) algorithms and comparing them with BLASSO (Bayesian Least Absolute Shrinkage and Selection Operator) method. For both article, the data set consisted of 165 genotypes of Coffea canephora genotyped for 14,387 snp markers, after quality control analysis. For the first article the phenotypic data used was rust (Rus) and yield (Y). For the second article the phenotypic data is composed by vegetative vigor (Vig), rust (Rus) and cercosporiose incidence (Cer), fruit maturation time (Mat), fruit size (FS), plant height (PH), diameter of the canopy projection (DC) and yield (Y). In the first article we reduced the dimensionality of the data using bagging decision tree and then run 64,000 neural networks for each trait selecting the best architecture based on predictive ability for estimating the heritability, obtained results compatibles with those in literature. In the second article, 12 different density market panels were used to evaluate the effect of dimensionality reduction in PA. The common trend observed in the analysis shows an increase of the PA as the number of markers decreases, having a peak in most of the cases when used between 500 and 1,000 markers. In general, the worst results were obtained when used the full SNP panel density. The results of the second article indicate that the reduction of the number of markers can improve the selection of individuals at a lower cost. Computational Intelligence methods prove to be powerful tools for predicting genetic values, to estimate genetic parameters and to select markers. Keywords: GBLUP. BLASSO. BAGGING. Random forest. GEBV. Marker effect. Heritability.
A predição genômica no melhoramento de café tem mostrado um grande potencial na capacidade preditiva (CP), da predição dos valores genômicos, ganhos genéticos e redução no tempo do ciclo de seleção. Várias metodologias são utilizadas para predizer o mérito genético dos indivíduos, porém algumas metodologias necessitam da informação a priori de efeitos de dominância e epistático, uma vez que seus efeitos devem ser inseridos no modelo utilizado. Redes Neurais Artificias (RNA) possuem a vantagem de não precisar inserir a priori os efeitos de dominância e epistático, permitindo lidar com diferentes tipos de efeitos não aditivos, sem a necessidade de saber a prior se tais efeitos existem ou não na população estudada. Apesar desta vantagem, a capacidade de estimar parâmetros genéricos através das RNA ainda são limitadas. No presente projeto de pesquisa, duas questões foram formuladas. A primeira questão se trata da possibilidade de estimar parâmetros genéticos utilizando RNA e a segunda questão da possibilidade em reduzir a densidade de painéis de marcadores sem que haja redução na CP. Para responder estas perguntas, foi desenvolvido dois artigos. No primeiro artigo, o objetivo foi estimar a herdabilidade e os efeitos dos marcadores por meio de RNA para duas características morfológicas de interesse agronômico de café canéfora (produção e resistência à ferrugem) com arquitetura genética aditiva-dominante e comparar com os resultados obtidos por meio do Genomic Best Linear Unbiased Prediction (GBLUP). No segundo artigo, o objetivo foi avaliar o equilíbrio entre a densidade dos painéis de marcadores utilizada e a CP obtida para oito características agronômicas de café canéfora utilizando algoritmos de Machine Learning (bagging e Random Forest). Os dados forma comparados com os resultados obtidos pela metodologia BLASSO (Bayesian Least Absolute Shrinkage and Selection Operator). O conjunto de dados, utilizado em ambos artigos, consiste em 165 plantas de café da espécie Coffea canephora (café canéfora) genotipados com 14.387 marcadores SNP (Single Nucleotide Polymorphisms), após o controle de qualidade. No primeiro artigo, as duas características fenotípicas avaliadas foram, resistência à ferrugem e produtividade. No segundo artigo, os dados fenotípicos consistem em vigor vegetativo, resistência à ferrugem, incidência de cercosporiose, tempo de maturação do fruto, tamanho do fruto, altura da planta, diâmetro da projeção da copa e produção. No primeiro artigo, a dimensionalidade dos dados foi reduzida utilizando o bagging e em seguida avaliou-se 64.000 redes neurais para cada característica. Foi selecionada a RNA que obteve a maior CP para, para através das informações obtidas por esta RNA se estimar a herdabilidade, obtendo resultados compatíveis com os encontrados na literatura. No segundo artigo, foram utilizados 12 densidade de painéis de marcadores diferentes para avaliar a relação entre a densidade do painel de marcador e a CP. É observado que à medida que o número de marcadores aumenta dentro de um intervalo de 25 até 500/1000 marcadores, a CP também aumenta, no entanto acima dessa quantidade de marcadores, quanto maior for o número de marcadores utilizados menor é a CP obtida. No geral, a CP possui menores valores quando utilizado todos os marcadores. Os resultados indicam que a redução da densidade até um certo nível no painel de marcadores pode melhorar a seleção de indivíduos com um menor custo. Diante do exposto, os métodos de computational intelligence provam ser ferramentas poderosas para predição de valores genéticos, estimação de parâmetros genéticos e seleção de marcadores. Palavras-chave: GBLUP. BLASSO. BAGGING. Random forest. GEBV. Marker effect. Heritability.

Descrição

Tese de Doutorado defendida na Universidade Federal de Viçosa.

Palavras-chave

Marcadores genéticos - Métodos estatísticos, Aprendizado do computador, Redes neurais (Computação)

Citação

SOUSA, Ithalo Coelho de. Computational intelligence and statistical learning applied to Coffea canephora. 2022. 58 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa - MG. 2022.

Coleções

Avaliação

Revisão

Suplementado Por

Referenciado Por