개요

생명정보 연구성과물 등록시스템이란?

국가생명연구자원정보센터(KOBIC)는 국내에서 산출되는 생명정보 연구성과물의 등록을 받는 전담기관으로써,
연구과제 정보는 국가과학기술지식정보서비스(NTIS) 공통검색 API를 통해 제공 받으며,
등록받은 연구성과물(생명정보)는 국가과학기술지식정보서비스(NTIS)와 연계하고 있습니다.

등록 의뢰자의 요청에 따라서 KOBIC 에서는 다음과 같은 서비스를 제공하고 있습니다.

  • 1) 대량의 데이터 (EST, GSS, Microarray, Whole Genome, RNA-Seq 등)를 국제적으로 공인된 데이터 등록기관 (NCBI, EBI, DDBJ 등)에 등록 대행
  • 2) 등록된 데이터에 대하여 KOBIC 자체 시스템을 활용한 분석 서비스 제공
  • 3) 연구성과물(생명정보)의 국가과학기술지식정보서비스(NTIS)와 연계서비스

관련 법률 및 제도

등록 모식도

등록절차

  1. 01. 등록접수
    1. 1. 회원가입 후에 로그인 (Log-in)
    2. 2. 등록할 생명정보 연구성과물을 산출한 연구과제 (NTIS 연계) 정보 입력
    3. 3. 등록 의뢰자의 대한 정보 입력
    4. 4. 데이터 등록 버튼 클릭
    5. 5. 등록한 연구과제고유번호로 생명정보 데이터 업로드 ( 고속 전송 시스템 KoDS 3.0 애플리케이션 설치 필요 )
  2. 02. 데이터 검증
    1. 1. 국가생명연구자원정보센터의 내부 규정에 따라 데이터관리자가 등록 받은 생명정보 연구성과물 (생명정보) 검증 (생명정보 양식, 연구과제정보 등)
    2. 2. NTIS 연계에 필요한 추가 정보 입력
    3. 3. 최종적으로 데이터 관리자 승인
  3. 03. 등록확인서 발행
    1. 1. KOBIC 내부규정에 따라서 승인된 생명정보 연구성과물 에 대한 등록 필증번호 부여
    2. 2. 등록의뢰자가 입력한 연구기관으로 생명정보 연구성과물 등록 확인서를 전송
  4. 04. 데이터 공개
    1. 1. 등록받은 생명정보 연구성과물은 아래의 경우에 한해서 공개
      • - 등록의뢰자가 공개 요청을 하였을 경우
      • - 등록의뢰자가 등록시 지정한 공개 예정날짜가 도래 했을 경우
    2. 2. 공개된 데이터는 NTIS 연계시스템으로 전송되어서 국가과학기술지식정보서비스 (NTIS)에서 검색 가능

대분류/중분류/소분류 설명

대분류 중분류 소분류 Type Description
Simple Sequencing Small size gDNAs Bacteria, Virus, Archaea, Fungal, Animal, Plant, Insect Nucleotide sequence genomic DNA 단편 (Sanger sequencing)
Single nucleotide submission Bacteria, Virus, Archaea, Fungal, Animal, Plant, Insect gDNA/cDNA gDNA 또는 cDNA로 부터 획득한 단일 유전자 염기서열
Several nucleotide sequences Bacteria, Virus, Archaea, Fungal, Animal, Plant, Insect Same locus/Random loci nucleotide sequences Same locus나 Random loci 염기서열들
Group of nucleotide sequences for the same gene or locus Bacteria, Virus, Archaea, Fungal, Animal, Plant, Insect Nucleotide sequences 집단 연구 (Population studies), 계통 연구 (Phylogenetic studies)
Batches of Sequences Bacteria, Virus, Archaea, Fungal, Animal, Plant, Insect Short length nucleotide sequences GSSs (Genome Survey Sequences), STS (Short DNA sequences; 200~ 500 bp)
BAC/cosmid/fosmid sequence Bacteria, Virus, Archaea, Fungal, Animal, Plant, Insect Full length nucleotide sequence BAC/Cosmid/Fosmid의 Full length sequence를 등록
Genome (Assembled Genome Sequence) Raw data Bacteria, Virus, Archaea, Fungal, Animal, Plant, Insect Short DNA sequncing resds Sequencing 기계로 생산된 동일한 sequence length를 가진 short DNA nucleotdie sequence
Virus Genome None Complete/Draft NGS 기술을 이용하여 생성 된 short read를 이용하여 생성 된 genome sequence (genome assembly) 및 유전자 정보 (genome annotation).
Prokaryotic genome의 경우, 단일 유전체의 서열 정보만을 대상으로 함. Metagenome의 경우, 별도의 등록 탭을 이용하여 등록.
Archaea Genome None Complete/Draft
Bacterial Genome None Complete/Draft
Fungal Genome Mitochondira/Nuclear Genome Complete/Draft/BAC end
Animal Genome Mitochondira/Nuclear Genome Complete/Draft/BAC end
Plant Genome Mitochondira/Nuclear Genome Complete/Draft/BAC end
Insect Genome Mitochondira/Nuclear Genome Complete/Draft/BAC end
Metagenome None Complete/Draft/BAC end
Resequencing Genome Mitochondira/Nuclear Genome 5X coverage Genome/Single nucleotide 참조표준 유전체를 바탕으로 염기서열을 결정하는 방법
Transcriptome RNA-seq Assembly (NGS 기반) Rawdata Short DNA sequncing resds 자체적인 DEG 분석 및 Data 재 가공을 위해서 필요.
Transcriptome Assembly Annotation or not NGS 기술을 이용하여 생성 된 short read를 이용하여 생성 된 transcript의 정보
EST Validate/Non-validate Expressed Sequence Tag
EST (Sanger Type) Bacteria, Virus, Archaea, Fungal, Animal, Plant, Insect Short length nucleotide sequences Expressed Sequence Tag
Different Expression Gene Gene Expression None 유전자의 발현량에 대한 분석 데이터.
Microarray DATA Bacteria, Virus, Archaea, Fungal, Animal, Plant, Insect None NGS 기술 이전의 방법으로써, 유전자 전체 또는 일부의 유전자 발현을 측정할 수 있는 데이터이다. 이미지 혹은 텍스트 형태로 존재
Proteome Protein sequence None None 염기 서열이 없는, 단백질 서열 해독 결과로 나온 단백질 서열
Protein Structures Crystal/NMR Full/Partial 단백질의 4차 구조에 대한 정보
Quantitative Protein None None 조직별 단백질 발현량에 관한 data
Modification Protein None None 단백질이 가지고 있던 아미노산 서열 중 일부가 다른 아미노산으로 치환된 서열정보를 의미
Protein-protein interaction None None 상호 작용을 하는 단백질에 대한 정보
Molecular Marker Barcode of Life sequences None None 유전자 염기서열을 이용하여 종 정보를 검색할수 있는 생물분류정보 기술
Genetic Marker None RFLP/AFLP/VNTR/STR/SSR RFLP(Restriction fragment length polymorphism), SSLP(Simple sequence length polymorphism), AFLP(Amplified fragment length polymorphism), VNTR(Variable number tandem repet), STR(Short tandem repeat), SSR (Simple Sequence Repeat)
SNPs None None DNA 염기서열에서 하나의 염기서열의 차이를 보이는 유전적 변이
In/Del None Insertion/Deletion 50bp 미만의 insertion, deletions등을 말함
Other Type Primer None None DNA 합성의 시작점이 되는 짧은 유전자 서열
siRNAs None None Target orgnism에서 유전자의 발현을 감소시키기 위해서 쓰이는 siRNA 서열 등
DNA probe None None Southern, Northern 등의 분석에 쓰이는 DNA fragment (500 ~ 2000 bp)
Metabolome information Bacteria, Virus, Archaea, Fungal, Animal, Plant, Insect None 현재 시점에서 등록 예상 숫자가 적으므로 당분간 이 체제로 가며, 추후 등록 상황에 맞춰 별도의 category 체제로 재편 가능
Degradome information Bacteria, Virus, Archaea, Fungal, Animal, Plant, Insect None
Methylome information Bacteria, Virus, Archaea, Fungal, Animal, Plant, Insect None

등록형태

파일 포맷 설명
FASTQ NGS 기술로 생산된 파일 형식. 4개의 line으로 구성. 첫번째 line은 "@"로 시작 Read의 설명정보, 두번째 line은 read의 염기서열정보, 세번째 line은 "+"로 시작, 네번째 line은 read염기서열에 대한 quality 정보로 표현됨
SAM/BAM NGS 기술로 생산된 Read 서열이 Reference genome에 alingment된 텍스트 파일 및 Binary 파일을 의미함
VCF VCF(Variant Call Format)은 meta 정보 라인이 포함되어 있으며, 각 genome의 위치마다 변위정보가 Tab 구분자로 표시됨
FASTA 첫번째 line 시작은 ">"구분자 표시 후 서열에 대한 설명이 표기되며, 두번째 line은 서열 정보(염기서열 및 아미노산 서열)를 표시됨
ASN ASN(Abstract Syntax Notation)은 NCBI에서 사용되는 초록 표기법 
EMBL, Swiss Prot EMBL, Swissprot에서 사용되는 파일 형식. 하나의 서열에 하나의 ID가 부여되며, line별로 서열에 대한 특징이 있으며, 서열의 시작은 "SQ"로 시작 끝은  "//" 로 구분, 여러 개의 서열이 올수가 있음
GCG 하나의 서열에 대한 ID가 부여되며, 서열의 시작은 ".."로 시작, 서열에 대한 길이 정보가 포함되어 있고 Checksum값이 포함되어 있음
GenBank/GenPept GenBank/GenPet에서 사용되는 파일 형식. 하나의 서열에  하나의 ID가 부여되며, line별로 서열에 대한 특징이 있으며, 서열의 시작은 "ORIGIN"로 시작 끝은 "//"로 구분, 여러 개의 서열이 올수가 있음
기타 생명정보 등록 파일 외의 형식 (csv, jpg, png…)