ABSTRACT Outliers and inliers often arise during sample data acquisition. While outliers represent anomalous observations, inliers are erroneous data points within the main body of the dataset. It was aimed to conduct a systematic literature study (SLS) to survey methods and software employed for outlier and inlier removal, particularly within exploratory data analysis. The study was conducted in three phases: (i) systematic literature mapping (SLM), (ii) snowballing (SB), and (iii) SLR. Initially, 772 scientific studies were identified, subsequently narrowed down to 86 after applying selection criteria. Backward (BSB) and forward (FSB) snowballing further yielded 16 studies, resulting in a final pool of 102 studies for analysis. It was identified three outlier removal techniques (Chebyshev’s inequality, boxplot, and principal component analysis), one inlier removal technique (local Moran’s index), and thirteen commonly used software. acquisition observations dataset SLS (SLS analysis phases i (i SLM, SLM , (SLM) ii (ii SB, SB (SB) iii (iii SLR Initially 77 8 criteria BSB (BSB FSB (FSB 1 10 Chebyshevs Chebyshev s inequality boxplot analysis, analysis) local Morans Moran index, index index) (SLM (SB 7
RESUMO Outliers e inliers aparecem frequentemente na aquisição de dados amostrais. Outliers são observações anômalas e inliers são dados errôneos no interior do conjunto de dados. Esta pesquisa teve como objetivo realizar um estudo sistemático da literatura (SLS) para levantar os métodos utilizados para remoção de outliers e inliers e os softwares utilizados na análise exploratória dos dados. Este estudo sistemático da literatura foi realizado em três etapas: (i) mapeamento sistemático da literatura (SLM), (ii) bola de neve (SB) e (iii) revisão sistemática da literatura (SLR). Setecentos e setenta e dois estudos científicos foram obtidos e reduzidos para 86 após seleção. Foram acrescentados mais dezessete estudos selecionados por bola de neve (bola de neve para trás (BSB) e bola de neve para frente (FSB)), o que resultou em 102 estudos utilizados nesta pesquisa. Foram observadas três técnicas de remoção de outliers (desigualdade de Chebyshev, boxplot e análise de componentes principais), uma única técnica de remoção de inliers (índice de Moran local) e treze softwares. amostrais SLS (SLS etapas i (i SLM, SLM , (SLM) ii (ii SB (SB iii (iii SLR. SLR . (SLR) 8 seleção BSB (BSB FSB, FSB (FSB)) 10 desigualdade Chebyshev principais, principais principais) índice local (SLM (SLR (FSB) 1 (FSB