Abstract The current paper seeks to approach, using a workflow, basics subjects of the bioinformatic field and also useful informations to consider during the development of in silico researches. Installation and general usage of multiple softwares related to different sections of the genome annotation process were also presented. At last, an model organism, Staphylococcus aureus, was sequenced in two different softwares, SPAdes and IDBA-UD, seeking further comparison and evaluation of the process as a whole. The quality evaluation of the assemble was established by tests on QUAST, BUSCO and Augustus, supported by BLASTP. Results: QUAST evaluation returned genome coverage values above 98% in both test cases, pointing towards a trustworthy assemble for this organism. Via SPAdes were needed less computational resources, but, using IDBA-UD the sequences found were more contiguous. Results deriving from BUSCO showed only one expected gene difference. Some proteins and genes predicted by Augustus led to hits, sequences already studied in that organism, using the BLASTP program.
Resumen El presente trabajo trata sobre un enfoque en formato de flujo de trabajo de cuestiones básicas del área, así como información a tener en cuenta durante la elaboración de investigaciones in silico. Se centró en algunos programas de diferentes partes del proceso de ensamblaje genómico, proporcionando orientación sobre su instalación y uso. Finalmente, se secuenció un organismo modelo, Staphylococcus aureus, en dos softwares, SPAdes e IDBA-UD, para la comparación y evaluación cualitativa del resultado. La evaluación de la calidad de la secuenciación se estableció mediante pruebas en los programas QUAST, BUSCO y Augustus, con el apoyo de BLASTP. La evaluación a través de QUAST arrojó valores de integridad en relación con el genoma de referencia superiores al 98% para ambas pruebas, lo que indica un ensamblaje confiable para el organismo en cuestión. La herramienta SPAdes logró secuenciar con menor capacidad computacional, pero a través de IDBA-UD se obtuvieron secuencias más contiguas. Los resultados de BUSCO mostraron solo una diferencia genética esperada. Las proteínas y genes esperados obtenidos por Augustus provocaron aciertos a través de BLASTP, es decir, secuencias de proteínas ya estudiadas y descritas para el organismo.
Resumo O presente trabalho trata-se de uma abordagem em formato de workflow de questões base da área de bioinformática, assim como informações para se levar em consideração durante a elaboração de pesquisas in silico. Focou-se em alguns programas de diferentes partes do processo de montagem genômica, fornecendo orientações acerca de sua instalação e uso. Por fim, sequenciou-se um organismo modelo, Staphylococcus aureus, em dois softwares, SPAdes e IDBA-UD, para fins de comparação e avaliação qualitativa do resultado. A avaliação da qualidade do sequenciamento foi estabelecida por testes nos programas QUAST, BUSCO e pelo Augustus, apoiado pelo BLASTP. a avaliação via QUAST retornou valores de completude em relação ao genoma referência acima de 98% para ambos testes, indicando uma montagem confiável para o organismo em questão. Via SPAdes foi-se capaz de sequenciar com menor capacidade computacional, porém por intermédio do IDBA-UD obteve-se sequências mais contíguas. Os resultados advindos do BUSCO apresentaram apenas um gene esperado de diferença. As proteínas e genes esperados obtidos pelo Augustus suscitaram hits via BLASTP, ou seja, sequências proteicas já estudadas e descritas para o organismo.