从零开始生信分析 - 1. 认识文件

前言

生物信息学是一门涉及生物学、数学、计算机科学等领域的交叉学科,研究人员需要以计算机为主要工具进行大量数据的处理与分析。在这过程中会涉及到大量数据的编码、压缩与存储,本文作为第一篇生信学习笔记,将简单介绍生物信息学中一些常用文件格式的编码、压缩规则以及读取方法。

序列文件

序列文件是用于储存生物序列数据,包括核苷酸及氨基酸序列等。常见的序列文件例如测序仪输出的源数据,包含大量的测序信息,不同测序仪的输出格式略有不同,但包含的信息都大同小异。

FASTA

常见扩展名:.fasta .fa

FASTA格式本质是文本格式,仅包含了序列本身及其元数据。

FASTQ

常见扩展名:.fastq .fq

FASTQ格式也是文本格式,存储了核苷酸序列及其相应的的质量分数。序列的碱基和质量分数都使用了一个ASCII字符表示并一一对应。

1
2
3
4
@<seqence-uuid> <metadata>
CTGTTGAGATCCAGTTCGATGTAACCCACTCGT
+
GJGSJSILMSLIKJHSIJMJISLHJMSNLJINS