파일 다루기 실습 문제 답지

1. 품질 점수가 낮은 read 필터링

awk 'NR%4==0 && ($0 ~ /[!*'\''"]/)' data/ex01.fastq

출력된 라인에 해당하는 read 1개(총 4줄)를 제거하는 스크립트로 확장 가능

2. 특정 시퀀스 motif 찾기

awk 'NR%4==2 && /GATTACA/' data/ex02.fastq

3. 특정 변이 위치 추출

awk '$1=="chr1" && $2==123456' data/ex03.vcf

4. QUAL 점수가 높은 변이만 추출

awk '!/^#/ && $6 > 30' data/ex04.vcf

5. feature가 “gene”인 라인 추출

awk '$3 == "gene"' data/ex05.gtf

6. 특정 유전자 ID만 추출

awk '$9 ~ /gene_id "GENE1"/' data/ex06.gtf

7. 압축된 FASTQ 읽기

zcat data/ex07.fastq.gz | head -n 8

8. chromosome별 변이 개수 세기

awk '!/^#/ {print $1}' data/ex08.vcf | sort | uniq -c

9. strand별 feature 수 세기

awk '{print $7}' data/ex09.gtf | sort | uniq -c

10. INFO 필드 파싱하여 DP 값 추출

awk -F"\t" '!/^#/ { split($8,a,";"); for(i in a) if(a[i] ~ /^DP=/) print a[i] }' data/ex10.vcf | cut -d"=" -f2