bcftools를 이용해서 BAM파일로부터 공통염기배열(consensus sequence) 생성하기

2022. 12. 6. 16:23리눅스

728x90
반응형

NGS분석을 진행하면 mapping결과 BAM파일이 생성된다. BAM파일은 SAM파일을 binary형태로 바꾼 파일로, reference genome과 위치 정보를 불러와서, NGS로 sequencing한 조각들이 각각 어디에 위치하게 되는 것인지, reference genome과 sequence차이(SNP, InDel 등)이 어떻게 나타나는지 등을 확인 가능하다.

IGV로 열어서 본 BAM파일

BAM파일은 여러 가지 조각들을 reference genome에 맞춰서 배열한 것이기 때문에 용량도 크고, 단일 염기서열의 파일인 fa나 fasta파일과는 차이가 있다. BAM파일을 분석한 결과, 해당 분석이 잘 진행되어서 BAM을 통해서 reference genome이 아닌 분석된 샘플의 유전체에 대한 예상되는 염기서열을 추출하고 싶을 때는 다음 과정을 거친다.

bcftools mpileup -Ou -f ref.fa input.bam | bcftools call -Ou -mv | bcftools norm -f ref.fa -Oz -o output.vcf.gz
tabix output.vcf.gz
bcftools consensus -f ref.fa output.vcf.gz > out.fa

위의 3단계를 거치면 최종적으로 샘플의 예상 염기서열을 얻어서, NCBI와 같은 데이터베이스에 등록되어 있는 염기서열 등과 비교하는데 사용할 수 있다.

출처: https://www.biostars.org/p/367960/

 

Generating consensus sequence from bam file

Tutorial:Generating consensus sequence from bam file 0 One of the recurring questions on biostars is "How can I create a consensus sequence from my bam file?" A variation of these question is "How to get fasta out of bam file?". The rational behind this qu

www.biostars.org

 

728x90
반응형