ABSTRACT The ranking of seed lots is a fundamental process for all companies in the seed industry. This work aims to demonstrate data mining methods for ranking sorghum seed lots during the seed processing through analysis of quality control data. Germination and cold tests were performed to verify the physiological quality of the lots. Seed samples from each lot were evaluated in two moments: post-cleaning and finished product (ready for marketing). The results after pre-processing totaled 188 rows of data with six attributes, encompassing 150 lots accepted for marketing, 6 rejected, and 32 intermediate lots. The classifiers used were J48, Random Forest, Classification Via Regression, Naive Bayes, Multilayer Perceptron, and IBk. The Resample filter was used for adjustment of the data. The k-fold technique was used for training, with ten folds. The metrics of Accuracy, Precision, Recall, F-measure, and ROC Area were used to verify the accuracy of the algorithms. The results obtained were used to determine the best machine-learning algorithm. IBk and J48 presented the highest accuracy of data; the IBk technique presented the best results. The Resample filter was essential for solving the data imbalance problem. Sorghum seed lots can be classified with great accuracy and precision through artificial intelligence and machine learning technique. industry moments postcleaning post cleaning ready marketing. marketing . marketing) preprocessing pre 18 attributes 15 rejected 3 J Forest Regression Bayes Perceptron kfold k fold training folds Accuracy Precision Recall Fmeasure, Fmeasure F measure, measure F-measure algorithms machinelearning algorithm J4 problem 1
RESUMO A classificação de lotes de sementes é um processo fundamental para todas as empresas do setor sementeiro. O objetivo do trabalho é demonstrar os métodos de mineração de dados de ranqueamento de lotes de sementes de sorgo durante o processo de beneficiamento, através de análises de dados do controle de qualidade. Os testes realizados foram germinação e teste de frio, com o objetivo de verificar a qualidade fisiológica dos lotes. As amostras de sementes de cada lote foram avaliadas em dois momentos: póslimpeza e produto acabado (pronto para comercialização). Os dados gerados, após o pré-processamento, totalizaram 188 linhas com seis atributos, contabilizando 150 lotes aceitos para comercialização, seis rejeitados e 32 denominados intermediários. Os classificadores utilizados foram J48, Random Forest, Classification Via Regression, Naive Bayes, Multilayer Perceptron e IBk. Utilizou-se o filtro Resample para ajustamento dos dados. A técnica empregada para treinamento foi a k-fold, com 10 folds. Para verificar a precisão dos algoritmos foram utilizadas as métricas de Acurácia, Precisão, Recall, F-measure e Área ROC. Com os resultados obtidos determinou-se o melhor algoritmo de aprendizagem de máquina. Verificou-se que o IBk e o J48 obtiveram maior acurácia nos dados, sendo que a técnica de IBk obteve o melhor resultado. O filtro Resample foi importante para resolver o problema do desequilíbrio dos dados. Concluímos ser possível classificar lotes de sementes de sorgo com grande acurácia e precisão através de inteligência artificial e sua técnica de aprendizado de máquina. sementeiro beneficiamento frio momentos pronto comercialização. comercialização . comercialização) gerados préprocessamento, préprocessamento pré processamento, processamento pré-processamento 18 atributos 15 3 intermediários J Forest Regression Bayes Utilizouse Utilizou se kfold, kfold k fold, fold k-fold 1 folds Acurácia Precisão Recall Fmeasure F measure ROC determinouse determinou máquina Verificouse Verificou J4 resultado