[릴리즈] QIAGEN CLC Genomics Workbench v.24 새로운 업데이트
조회 757
2024. 02. 29 -
CLC Genomics Workbench Latest release
CLC Genomics Workbench 24.0이 출시 되었습니다.
Long Read Support Plug in 24.0 New features and improvements
New tool: Structural Variant Caller for Long Reads
Sniffles2 v2.2 기반의 Long Reads 데이터를 위한 Structural Variant Caller 길이가 35 bp 이상인 구조적 변이를 감지할 수 있습니다.
De Novo Assemble Long Reads improvements:
10,000 bp보다 짧은 contigs의 Assembly를 지원합니다.
De Novo Assemble Long Reads 도구가 업데이트되어 PacBio HiFi Read 까지 활용이 가능합니다.
PacBio HiFi Read 는 Correct Long Reads 도구에서는 현재까지는 사용이 불가합니다.
Map Long Reads to Reference / RNA-Seq Analysis for Long Reads:
Read alignment 옵션(Automatic / Manual)이 추가되었으며 Automatic을 선택한다면 input된 reads의 적합하게 값이 설정됩니다. 이 옵션은 PacBio HiFi 데이터의 Mapping 과정을 개선시킵니다.
Other improvements:
Long read Assembly 도구의 기반이 되는 Minimap2의 버전이 v2.26으로 업그레이드됨에 따라, Map Long Reads to Reference, Correct Long Reads 및 RNA-Seq Analysis for Long Reads에서 생성되는 Output의 사소한 부분이 개선되었습니다.
Report Content
품질이 낮은 샘플에 대한 개요를 제공합니다.
Trim Reads와 QC 작업에 대한 세부 내용을 포함하는 추가 섹션을 제공합니다.
Homology Based Cloning 도구의 보고서를 지원하며, 레이아웃이 개선되었습니다.
Configuration
Contents customizing 가능합니다.
Traffic light colors를 사용하여 평가 기준을 할당할 수 있습니다. Combine Reports 도구에서는 이 방법을 활용하여 샘플 품질을 빠르게 평가합니다.
Create Sample Report tool에서는 Sequencing Reads, Read Mapping, Targeted Sequencing 및 RNA-seq Analysis에 의해 생성된 보고서에 대한 추가 QC 요약 항목을 지원합니다.
Modify Report Type은 보고서 유형을 변경하는 도구로, 해당 보고서의 내용에 영향을 줍니다.
Sample report에서 사용할 샘플 이름을 설정할 수 있습니다.
Changes
Create Sample Report 및 Combine Reports에서 지원되지 않는 보고서가 input 될 경우 실패할 수 있습니다.
Sample report 및 Combine Reports 내에서의 이름 변경:
Methylation Levels -> Call Methylation Levels
Duplicated Mapped Reads -> Remove Duplicate Mapped Reads
Variants -> Create Variant Track Statistics Report
QC Summary -> Quality Control(Combine Report만 해당)
Workflow
QIAseq Panel Analysis Assistant는 QIAseq Panels 등을 통한 데이터를 분석하기 위한 workflow에 접근하고, reference 데이터 다운로드 및 workflow의 customized 복사본 생성과 같은 기능을 제공합니다.
두 개의 새로운 Control Flow element가 추가되었습니다:
Branch on Sequence Count: 해당 목록의 Sequence 수에 따라 Sequence 목록의 downstream processing을 제어하는 데 사용됩니다.
Branch on Sample Quality: 샘플 보고서에서 제공되는 Quality Criteria를 기반으로 어떤 데이터 요소의 downstream processing을 제어하는 데 사용됩니다.
workflow build ID는 설치된 workflow를 사용하여 생성된 데이터 element에 대한 History View의 workflow details section에 포함되어 있습니다. 이전에는 workflow 이름과 버전만 표시되었습니다.
element 간 연결의 source 또는 destination에서 workflow element로 이동하는 옵션이 추가되었습니다.
Import and export
New import and export functionality
Element Bio는 Element Biosciences에서 생성된 fastq 파일을 가져옵니다.
PacBio Onso는 PacBio Onso에서 생성된 fastq 파일을 가져옵니다.
Singular는 Singular Genomics에서 생성된 fastq 파일을 가져옵니다.
Ultima는 Ultima Genomics에서 생성된 CRAM 파일을 가져옵니다.
SAM/BAM/CRAM Mapping Files에는 CRAM 가져오기 기능이 있습니다.
Read Mappings는 CRAM 형식으로 내보낼 수 있습니다.
Public AWS S3 buckets의 데이터에 접근할 수 있습니다.
Other import and export improvements
모든 fastq 파일의 importers는 이제 UMI(Unique Molecular Identifier) 정보가 read 헤더에서 감지되면 시퀀스에 UMI를 주석으로 추가합니다.
Illumina Importer는 20억 개 이상의 read를 포함하는 fastq 형식 파일을 지원하며, 이러한 파일은 여러 개의 작은 sequence 목록으로 가져옵니다.
MGI/BGI Importer는 paired reads를 가져올 때 파일을 매핑하는 유연성이 높아졌으며 joining lanes를 지원합니다.
SAM 및 BAM 파일은 AWS S3 bucket에서 import 할 수 있습니다.
Drag-and-drop은 import tool에서 파일을 선택하는 데 사용할 수 있습니다.
VCF로 heterozygous Insertion 또는 deletion을 symbolic alleles로 내보낼 때, Export VCF는 reference allele에 대한 non-symbolic VCF line을 생성하지 않습니다.
CLC 형식이 아닌 파일은 Navigation area에서 "Save-To-Disk" 옵션을 이용하거나, 우클릭 메뉴에서 사용할 수 있는 "Drag-and-drop"을 통해 직접 디스크에 저장할 수 있습니다.
CLC 형식이 아닌 파일이 CLC 파일 위치에 있을 때, 해당 파일은 Navigation area에서 프로그램 아이콘 또는 유사한 도구 모음에서 프로그램 아이콘으로 드래그하여 해당 프로그램에서 열 수 있습니다.
Usability
"Save View"는 이제 Side Panels 하단에 있는 "View Settings" 메뉴로 대체되었습니다.
Navigation Area, Toolbox 탭 및 Favorites 탭의 글꼴 크기를 증가 또는 감소시킬 수 있습니다.
Navigation Area에서 track element를 선택하고 해당 요소를 Track view에서 열린 호환 가능한 reference 유전체를 기반으로 Track을 끌어오면 새로운 Track List가 생성됩니다.
Reference Data Manager에서 검색 기능을 사용할 수 있습니다.
Table related
Column order는 이제 Side Panel에서 해당 열 이름을 위 또는 아래로 이동하여 조절할 수 있습니다.
테이블 유형의 열 순서는 View Setting으로 저장하고 적용할 수 있습니다.
테이블을 필터링하는 데 사용된 세트는 Filter Sets로 저장할 수 있습니다.
내용이 없는 항목을 Excel 형식(.xlsx, .xls)으로 내보낼 때, 생성된 시트에는 Column header가 포함됩니다.
BLAST
NCBI의 BLAST의 데이터베이스 목록이 확장되었으며, 'Eukaroyta nt (nt_euk)', 'Prokaryota (bacteria and archaea) nt (nt_prok)', 'Viruses nt (nt_viruses)'가 추가되었습니다.
BLAST 데이터베이스 위치 및 경로 설정 시, 폴더 이름에 공백 포함 가능합니다.
Reference data related
"Download Genomes"에서, (Homo sapiens) hg19 및 hg38의 dbSNP는 버전 151에서 156으로 업데이트 되었습니다.
Under the QIAGEN Sets tab에 아래의 data가 추가되었습니다.
refseq_GRCh38.p14_no_alt_analysis_set
Clinvar을 위한 20231112_hg38_no_alt_analysis_set Version
Gene Ontology를 위한 20231009_hg38_no_alt_analysis_set Version
dbsnp_common_v151_ucsc_hg38_no_alt_analysis_set.
dbsnp_common_v151_ucsc_hg19 Version
Multimodal reference data set에 포함된 RNA trim 어댑터 목록이 업데이트 되었습니다.
Other new features and improvements
사용자 정의 색상 및 그라데이션을 정의할 수 있습니다. 이는 그라데이션의 유형과 경계의 수, 그리고 해당 경계에서 사용할 색상을 지정할 수 있는 기능을 포함합니다.
통계 비교 테이블 및 트랙의 Volcano plot view에서는 p-값과 fold 변화에 따라 특징의 색상을 결정하여 도표를 생성하는 데 지원합니다.
Extract Reads, Create Reads Track from Selection 및 Extract from Selection을 사용하여 Mapping 데이터에서 방향에 따라 reads를 추출할 수 있습니다.
Extract 기준에 맞는 한 쌍의 reads 중 하나만 일치할 때 Mapping 데이터에서 끊어진 쌍으로 reads를 추출할 수 있습니다. 이는 Extract Reads 및 Create Reads Track from Selection에서 사용 가능한 옵션과 일치하도록 이 도구의 옵션을 업데이트했습니다.
Filter on Custom Criteria의 wizard layout과 옵션이 개선되었습니다.
Filter on Custom Criteria에서 구성된 filter criteria의 future run에서 재사용될 수 있습니다.
Annotate with Nearby information은 annotation을 위해 어떤 트랙이든 사용할 수 있습니다.
"Detect with novel exon boundaries" 옵션이 활성화되고 reference sequence에 수천 개의 염색체가 포함되어 있는 경우 Detect and Refine Fusion Genes에서 상당한 속도 향상이 있습니다.
Variant 트랙에서 조합된 deletion 및 SNV로 구성된 replacement의 SNV가 오른쪽에 정렬되고 deletion이 왼쪽에 정렬되도록 표시됩니다. 이전에는 변이 트랙에서 이러한 replacement의 SNV가 왼쪽에 정렬되고 deletion이 오른쪽에 정렬되도록 표시되었습니다.
Homology Based Cloning의 ouput명에는 각 서열의 이름이 포함됩니다.
Amino Acid Changes에 의해 생성된 Amino Acid track의 아미노산 배치가 개선되었습니다.
Oxford Nanopore 또는 PacBio long reads를 포함하는 Mapping 데이터가 Fixed Ploidy Variant Detection, Low Frequency Variant Detection 또는 Basic Variant Detection에 input 될 때 경고가 표시됩니다.
Long reads (>10kbp)를 포함하는 Read mapping track이 더 반응적이고 빨리 로드됩니다.
대량의 염색체를 reference로 사용하는 경우 (예: 수십만 개), Convert to Tracks, Create Mapping Graph, Identify Graph Threshold Areas와 같은 tool에서 속도가 개선되었습니다.
Combine Reports의 이상치 계산이 반올림에 둔감하도록 개선되었습니다.
큰 보고서의 호환성이 증가하였습니다.
CLC Server에 연결된 경우, CLC Server File System Locations의 하위 폴더가 액세스 권한에 따라 Workbench Navigation area에 정렬됩니다.
외부 응용 프로그램을 사용하여 생성된 element의 history에는 사용된 외부 응용 프로그램의 버전이 포함됩니다.
CLC File Locations는 Viewing Mode에서 Workbench를 실행 중일 때 제거 및 다시 re-index 할 수 있습니다.
Navigation Area의 drag-drop 작업 중에 오류 대화 상자가 표시되는 드문 문제가 수정되었습니다.
New policy property: 'run_on_workbench_when_server_is_available'이 추가되었습니다. 'deny'로 설정하면 CLC Genomics Workbench가 CLC Genomics Server에 연결된 상태에서 로컬에서 실행되지 않습니다.
기타 여러 개선 사항이 있습니다.
Bug fixes
'Annotate with Repeat and Homopolymer Information'이 염색체 끝에서 두 번째 위치에 있는 변이를 주석으로 처리하는 데 실패하는 문제를 수정했습니다.
'Annotate with Repeat and Homopolymer Information'이 homopolymer나 repeat이 Circular Reference Sequence의 원점을 통과할 때 변이를 주석으로 처리하지 않는 문제를 수정했습니다.
'QC for Targeted Sequencing' 보고서의 "Target Region Low Coverage" 섹션에서 Coverage가 임계값과 동일하거나 임계값보다 큰 위치도 포함됩니다.
'Fixed Ploidy Variant Detection' 및 'Low Frequency Variant Detection'이 특정 상황에서 heterozygous로 할당해야 하는 변이를 실수로 homozygous으로 할당하는 문제가 수정되었습니다.
"SAM 또는 BAM 매핑 파일을 가져올 때 이름에 * 및/또는 =이 포함된 reference가 건너뛰어지던 문제가 수정되었습니다.
MGI/BGI Importer에서 "Create subfolders per batch unit" 옵션을 확인해도 효과가 없는 문제가 수정되었습니다.
VCF export 시 PASS로 주석이 달려있지 않은 fusion track을 export 할 때 실패하는 문제가 수정되었습니다.
Insertion 부분의 양 끝이 정렬되지 않은 paired reads가 Side Panel 뷰 설정에서 strand를 표시하는 옵션을 선택한 후에도 forward 및 reverse reads에 대해 서로 다른 색상으로 표시되지 않던 문제가 수정되었습니다.
PDF 형식으로 내보낸 보고서의 plot의 축 scale 범위가 때때로 CLC Workbench에서 해당 plot을 보는 범위와 다른 문제가 수정되었습니다.
Combined Report에서 box plot을 export PDF 할 때 보고서에 포함되지 않던 문제가 수정되었습니다.
PDF 형식으로 보고서를 export 할 때 무한한 값이 plot에 포함되는 문제가 수정되었습니다.
Iterate 요소를 포함하는 workflow를 시작할 때 메타데이터가 불완전하게(예: 열 이름 누락) 제공될 경우 fail 대신 분석이 멈추는 현상을 개선하였습니다.
Local Search 결과를 크기별로 정렬할 때 이전에 알파벳 순으로 정렬했던 것을 숫자 순서로 정렬되도록 수정되었습니다.
Download BLAST Databases에서 일부 설명이 launch wizard에서 보이지 않던 문제가 수정되었습니다.
Illumina 및 MGI/BGI Importers에서 제공된 모든 리드 파일이 zip으로 압축된 경우 "paired reads" 옵션이 비활성화되던 문제가 수정되었습니다.
Workflow Manager에서 여러 workflow installer 파일(.cpw)을 동시에 선택할 수 있었던 문제가 수정되었습니다.
"Reference Data Manager"의 "QIAGEN Sets" 탭에서 이미 제거된 데이터가 다운로드할 수 없음에도 불구하고 목록에 표시되는 문제가 수정되었습니다.
기타 여러 버그가 수정되었습니다.
Changes
아래와 같은 Tool 이름이 더 명확하게 업데이트 되었습니다:
"SAM/BAM Mapping Files"는 이제 "SAM/BAM/CRAM Mapping Files"로 명칭이 변경되었습니다.
"PacBio Importer"는 이제 "PacBio Long Reads"로 명칭이 변경되었습니다.
"Annotate with Nearby Gene Information"는 "Annotate with Nearby Information"으로 명칭이 변경되었습니다.
Toolbox에서 다음과 같은 Tool들이 이동되었습니다.:
이전에는 "Quality Control" 하위에 있던 "Create Sample Report"는 이제 "Utility Tools | Reports" 하위에 있습니다.
이전에는 "Quality Control" 하위에 있던 "Combine Reports"는 이제 "Utility Tools | Reports" 하위에 있습니다.
이전에는 "Epigenomics Analysis" 하위에 있던 "Annotate with Nearby Information"은 이제 "Utility Tools | Annotate and Filter" 하위에 있습니다.
"De Novo Assembly"는 이제 PacBio 및 PacBio HIFI등 long reads 를 더 이상 지원하지 않습니다. Long read의 De Novo Assembly가 필요한 경우 "Long Read Support" 플러그인에서 제공하는 도구를 사용해야 합니다.
"Map Reads to Reference"는 이제 PacBio 리드를 Mapping할 때 특화된 Mapping 알고리즘을 더 이상 사용하지 않습니다. 이 데이터 유형에 대해서는 "Long Read Support" 플러그인에서 제공하는 "Map Long Reads to Reference"를 사용하는 것을 권장합니다.
SRA(Sequence Read Archive) blast 데이터베이스는 이제 NCBI에서 제공하는 BLAST에서 사용할 수 없습니다. NCBI는 더 이상 해당 데이터베이스에 대한 BLAST를 API를 통해 지원하지 않기 때문입니다.
BLAST가 BLAST+ 2.14.0으로 업그레이드. BLAST+의 변경 사항은 http://www.ncbi.nlm.nih.gov/books/NBK131777.에서 확인할 수 있습니다.
SRA Toolkit이 3.0.2 버전으로 업데이트 되었습니다.
CLC Genomics Workbench 24.0에 번들로 제공된 Java 버전은 Azul OpenJDK 빌드의 Java 17.0.8.1을 사용합니다.
Intel 및 ARM 기반 Mac 시스템을 위한 전용 설치 프로그램이 제공됩니다.
Functionality retirement
RNA-Seq Analysis에서 "Minimum read count fusion gene table" 및 "Create fusion gene table" 옵션이 제거되었습니다. Fusion detection을 위해 Detect and Refine Fusion Genes Tool 사용을 권장합니다.
QIAGEN GeneReader importer (Legacy) tool이 삭제되었습니다.
Plugin notes
Long read를 분석하는 tool은 Long Read Support 플러그인에서 사용할 수 있습니다.
Vector NTI import 플러그인에 의해 제공되는 도구는 이제 legacy 상태입니다.