2022. 12. 6. 16:23ㆍ리눅스
NGS분석을 진행하면 mapping결과 BAM파일이 생성된다. BAM파일은 SAM파일을 binary형태로 바꾼 파일로, reference genome과 위치 정보를 불러와서, NGS로 sequencing한 조각들이 각각 어디에 위치하게 되는 것인지, reference genome과 sequence차이(SNP, InDel 등)이 어떻게 나타나는지 등을 확인 가능하다.

BAM파일은 여러 가지 조각들을 reference genome에 맞춰서 배열한 것이기 때문에 용량도 크고, 단일 염기서열의 파일인 fa나 fasta파일과는 차이가 있다. BAM파일을 분석한 결과, 해당 분석이 잘 진행되어서 BAM을 통해서 reference genome이 아닌 분석된 샘플의 유전체에 대한 예상되는 염기서열을 추출하고 싶을 때는 다음 과정을 거친다.
bcftools mpileup -Ou -f ref.fa input.bam | bcftools call -Ou -mv | bcftools norm -f ref.fa -Oz -o output.vcf.gz
tabix output.vcf.gz
bcftools consensus -f ref.fa output.vcf.gz > out.fa
위의 3단계를 거치면 최종적으로 샘플의 예상 염기서열을 얻어서, NCBI와 같은 데이터베이스에 등록되어 있는 염기서열 등과 비교하는데 사용할 수 있다.
출처: https://www.biostars.org/p/367960/
Generating consensus sequence from bam file
Tutorial:Generating consensus sequence from bam file 0 One of the recurring questions on biostars is "How can I create a consensus sequence from my bam file?" A variation of these question is "How to get fasta out of bam file?". The rational behind this qu
www.biostars.org
'리눅스' 카테고리의 다른 글
clustalw로 여러 염기서열을 alignment하기 (0) | 2023.01.11 |
---|---|
rpm으로 설치할 때, `XZ_5.1.2alpha' not found 오류 (0) | 2022.11.30 |
CentOS에서 yum 명령어를 사용하지 않고 프로그램 설치 (0) | 2022.11.30 |
Hisat2-build에서 /usr/bin/env: python: Permission denied 오류 (0) | 2022.11.30 |
우분투 구글 크롬 원격 데스크톱 블랙스크린 해결 방법 (0) | 2022.11.12 |