Resumo: A crescente demanda por sistemas automatizados de classificação de produtos em plataformas de e-commerce impulsionou a busca por soluções eficientes para a categorização de produtos, especialmente em português. Este estudo investiga a adaptação de técnicas clássicas de recuperação da informação, como bag-of-words, TF e TF-IDF, para a tarefa de classificar descrições curtas de produtos. A pesquisa avalia diferentes estratégias de pré-processamento e tokenização, incluindo a análise do impacto da normalização. Os resultados demonstraram que métodos simples de recuperação da informação, quando combinados com pré-processamento adequado e otimização de parâmetros, podem alcançar desempenho significativamente superior. Resumo ecommerce commerce português informação bagofwords, bagofwords bag of words, words bag-of-words TFIDF, TFIDF IDF, IDF TF-IDF préprocessamento pré processamento tokenização normalização parâmetros superior
Abstract: The growing demand for automated product classification systems in e-commerce platforms has fueled the search for efficient solutions for product categorization, particularly in Portuguese. This study investigates the adaptation of classical information retrieval techniques, such as bag-of-words, TF, and TF-IDF, for the task of classifying short product descriptions. The research evaluates different preprocessing and tokenization strategies, including analyzing normalization impact. The results show that simple information retrieval methods, when combined with appropriate preprocessing and parameter optimization, can achieve significantly superior performance. Abstract ecommerce e commerce categorization Portuguese techniques bagofwords, bagofwords bag words, words bag-of-words TF TFIDF, TFIDF IDF, IDF TF-IDF descriptions strategies impact methods optimization performance