ABSTRACT: Near-infrared (NIR) spectroscopy is a promising tool for optimizing seed analyses quickly and assertively. The aim of this study was to investigate the viability of NIR in association with chemometric methods in classification of soybean seed lots regarding their physiological potential. We evaluated 372 soybean seed lots for vigor and obtained NIR spectra from seed samples. The original spectra were pre-processed by the following methods: Standard Normal Variate (SNV), SNV + 1st and 2nd derivatives, Gap-segment derivative, and Savitzky-Golay for the first- and second-degree derivatives, as well as combinations of the methods. The lots were divided into Class I (≥ 85% germination after accelerated aging) and Class II (< 85% germination after accelerated aging); and the pre-processed spectra were used to build classification models through the following methods: K-nearest neighbors (KNN), Partial Least Squares - Discriminant Analysis (PLS-DA), Naive Bayes (NB), Random Forest (RF), and Support Vector Machine (SVM). The PLS-DA model showed greater classification accuracy and kappa, followed by SVM. The lowest accuracy values were obtained for the NB and RF models. The regions between the wavelengths 1,000-1,200 nm and 2,200-2,500 nm were the most important for distinguishing the quality levels of soybean seeds. ABSTRACT Nearinfrared Near infrared (NIR assertively potential 37 samples preprocessed pre processed SNV, , (SNV) st nd derivatives Gapsegment Gap segment derivative SavitzkyGolay Savitzky Golay first seconddegree second degree ≥ ( 85 aging < Knearest K nearest KNN, KNN (KNN) PLSDA, PLSDA PLS DA (PLS-DA) NB, (NB) RF, (RF) SVM . (SVM) kappa 1,0001,200 10001200 1,000 1,200 1 000 200 1,000-1,20 2,2002,500 22002500 2,200 2,500 2 500 2,200-2,50 seeds 3 (SNV 8 (KNN (PLS-DA (NB (RF (SVM 0001 1,0001,20 1000120 1000 1,00 1200 1,20 00 20 1,000-1,2 2002 2,2002,50 2200250 2200 2,20 2500 2,50 50 2,200-2,5 1,0001,2 100012 100 1,0 120 1,2 0 1,000-1, 2,2002,5 220025 220 2,2 250 2,5 5 2,200-2, 1,0001, 10001 10 1, 12 1,000-1 2,2002, 22002 22 2, 25 2,200-2 1,0001 1,000- 2,2002 2,200-
RESUMO: A espectroscopia no infravermelho próximo (NIR) consiste em uma ferramenta promissora para otimização das análises de sementes de forma rápida e assertiva. Este trabalho teve como objetivo investigar a viabilidade do NIR, associado a métodos quimiométricos, para classificar lotes de sementes de soja quanto ao potencial fisiológico. Foram utilizados 372 lotes de sementes de soja avaliados quanto ao vigor e obtidos espectros NIR das amostras de sementes. Os espectros originais foram submetidos aos métodos de pré-processamento Standard Normal Variate (SNV), SNV + 1ª e 2ª derivadas; Gap-segment derivative; e Savitzky-Golay, pelas derivadas de primeiro e segundo grau, e a combinação entre os métodos. Os lotes foram divididos em Classe I (≥ 85% de germinação após envelhecimento acelerado), Classe II (< 85% de germinação após envelhecimento acelerado) e os espectros pré-processados foram utilizados para a construção de modelos de classificação por meio dos métodos K-nearest neighbors (KNN), Partial Least Squares - Discriminant Analysis (PLS-DA), Naive Bayes (NB), Random Forest (RF) e Support Vector Machine (SVM). O modelo de classificação PLS-DA apresentou maior acurácia e kappa, seguido pelo SVM. Os menores valores de acurácia foram obtidos para os modelos NB e RF. As regiões entre os comprimentos de ondas 1.000-1.200 nm e 2.200-2.500 nm foram as mais importantes para distinguir os níveis de qualidade das sementes de soja. RESUMO (NIR assertiva quimiométricos fisiológico 37 préprocessamento pré processamento SNV, , (SNV) ª Gapsegment Gap segment derivative SavitzkyGolay, SavitzkyGolay Savitzky Golay, Golay Savitzky-Golay grau ≥ ( 85 acelerado, acelerado < préprocessados processados Knearest K nearest KNN, KNN (KNN) PLSDA, PLSDA PLS DA (PLS-DA) NB, (NB) RF (RF SVM . (SVM) kappa 1.0001.200 10001200 1.000 1.200 1 000 200 1.000-1.20 2.2002.500 22002500 2.200 2.500 2 500 2.200-2.50 3 (SNV 8 (KNN (PLS-DA (NB (SVM 0001 1.0001.20 1000120 1000 1.00 1200 1.20 00 20 1.000-1.2 2002 2.2002.50 2200250 2200 2.20 2500 2.50 50 2.200-2.5 1.0001.2 100012 100 1.0 120 1.2 0 1.000-1. 2.2002.5 220025 220 2.2 250 2.5 5 2.200-2. 1.0001. 10001 10 1. 12 1.000-1 2.2002. 22002 22 2. 25 2.200-2 1.0001 1.000- 2.2002 2.200-