RESUMO Galáxias podem possuir diferentes morfologias, as quais são importantes fontes de informação para o entendimento da evolução do universo. O Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) é um levantamento de milhares de imagens de galáxias distantes da Terra. Por não ser possível classificar todas essas imagens manualmente para descobrir suas respectivas morfologias, o desenvolvimento de classificadores automáticos precisos para tal tarefa é de extrema importância. Infelizmente, técnicas de predição tradicionais possuem baixo poder preditivo quando o conjunto de dados possui um forte desbalanceamento, ou seja, quando uma das classes da variável resposta é demasiadamente mais frequente do que as demais. Assim, este trabalho tem por objetivo estudar três abordagens que levam em conta a falta de balanceamento dos dados para o levantamento CANDELS e compará-los com os métodos usuais no problema de classificação de galáxias regulares e galáxias merger. Para comparar os diferentes métodos, diversas medidas de qualidade de métodos preditivos foram utilizadas. Mostramos que, para o caso de classificação de galáxias merger, as melhores predições foram provenientes das abordagens de sobreamostragem e mudança de corte. Para o caso de galáxias regulares, a importância de considerar o desbalanceamento foi menor, pois essa classe não possui um desbalanceamento tão forte quando comparada com a classe de galáxias merger. Além disso, mostramos que os classificadores obtidos via diferentes métodos de classificação (árvores de classificação, florestas aleatórias e regressão logística penalizada) levam a predições muito parecidas, o que indica que melhores predições só podem ser obtidas por meio da inclusão de novas estatísticas-resumo com base nas imagens ou por meio de bancos de dados maiores.
ABSTRACT Galaxies can have various morphologies, which are an important source of information for cosmology. The Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) is a survey of thousands of galaxy images far from the Earth. Unfortunately, it is not possible to manually classify all of these galaxies. Hence, it is important to develop automatic classifiers that are able to accurately predict morphologies using such images. Unfortunately, standard prediction techniques have low predictive power on unbalanced datasets such as CANDELS. Hence, this work aims at studying three classification approaches developed to improve classification on unbalanced data using CANDELS. We deal with the problem of classifying galaxies as regulars and as mergers. We show that oversampling and changing the cutoff were effective approaches to improve merger classification, while they were not so effective in classifying regular galaxies. We also show that all classification methods used (classification trees, random forests and penalized logistic regression) yielded similar predictions, which indicates that better predictions could only be obtained by including new summary statistics of the images or by acquiring larger data sets.