Bioinformatics (»ý¹°Á¤º¸ÇÐ)


BLAST ¼Ò°³


1. BLAST

BLAST(Basic Local Search Alignment Tool)´Â ¼¼°èÀûÀ¸·Î °¡Àå Àß ¾Ë·ÁÁ® ÀÖ´Â ´ëÇ¥ÀûÀÎ ¼­¿­°Ë»ö ÇÁ·Î±×·¥ÀÌ´Ù. ¾Ë°í¸®µëÀº 1990³â Altchul, Gish, Miller, Myer ±×¸®°í Lipmanµî¿¡ ÀÇÇؼ­ ¸¸µé¾îÁ³°í FASTA º¸´Ù ºü¸£¸ç ³ôÀº Á¤È®¼ºÀ» °¡Áö´Â ÇÁ·Î±×·¥À» °³¹ßÀ» ¸ñÇ¥·Î ¸¸µé¾î Á³´Ù. NCBI-BLAST °Ë»ö ÆäÀÌÁö¿¡ °¡¸é ´ÙÀ½°ú °°À½ ´Ù¾çÇÑ ÇÁ·Î±×·¥°ú µ¥ÀÌÅͺ£À̽º¸¦ ¼±ÅÃÇÒ ¼ö ÀÖÀ¸¸ç °¢°¢ÀÇ ±â´ÉµéÀº ´ÙÀ½°ú °°´Ù.

(1) program
  • blastp: ´Ü¹éÁú¼­¿­°£ÀÇ ºñ±³
  • blastn: ¿°±â¼­¿­°£ÀÇ ºñ±³
  • blastx: ÀÔ·ÂÇÑ ¿°±â¼­¿­À» 6°³ÀÇ frameÀ¸·Î º¯È¯ÈÄ ´Ü¹éÁú¼­¿­ DB¿Í ºñ±³
  • tblastn: ÀÔ·ÂÇÑ ´Ü¹éÁú ¼­¿­À» ¿°±â¼­¿­ DB¸¦ 6 frameÀ¸·Î º¯È¯ ÈÄ ºñ±³
  • tblastx: ÀÔ·ÂÇÑ ¿°±â¼­¿­ °ú ¿°±â¼­¿­ DB¸¦ ¸ðµÎ 6 frameÀ¸·Î º¯È¯ ÈÄ ºñ±³

(2) database
  • nr: All non-redundant GenBank CDS translations+PDB+SwissProt+PIR

  • month: All new or revised GenBank CDS translation+PDB+SwissProt+PIR released in the last 30 days

  • swissprot: the last major release of the SWISS-PROT protein sequence database (no updates)

  • yeast : Yeast (Saccharomyces cerevisiae) protein sequences

  • E. coli : E. coli genomic CDS translations

  • pdb: Sequences derived from the 3-dimensional structure Brookhaven Protein Data Bank

  • kabat [kabatpro]: Kabat's database of sequences of immunological interest

  • alu: Translations of select Alu repeats from REPBASE, suitable for masking Alu repeats from query sequences.



(3) ±×¿ÜÀÇ ¿É¼Çµé
  • Expect: BLAST¿¡¼­ °á°úÀÇ Åë°èÀû Àǹ̸¦ ³ªÅ¸³»´Â °ªÀ¸·Î Expect °ªÀÌ ÀÛÀ¸¸é ÀÛÀ»¼ö·Ï °á°ú¿¡¼­ ³ª¿Â ¼­¿­ÀÌ ÀÔ·ÂÇÑ ¼­¿­°ú ´õ À¯»çÇÔÀ» ³ªÅ¸³¿. ±âº»°ªÀº 10À̸ç ÀÌ´Â expect °ªÀÌ 10º¸´Ù Å« ¼­¿­Àº °á°ú·Î Ãâ·ÂÇÏÁö ¾Ê´Â´Ù´Â °ÍÀ» ÀǹÌÇÔ. ½ÇÁ¦ °á°úÀÇ Ãâ·ÂÀº high-scoring segment pairs (HSPs)ÀÇ ¼ø¼­´ë·Î Ãâ·ÂµÇÁö¸¸ HSP °ª¿¡´Â ¼­¿­ÀÇ ±æÀÌ¿¡ ´ëÇÑ º¸Á¤ÀÌ µÇ¾îÀÖÁö ¾ÊÀ¸¹Ç·Î Åë°èÇÐÀû ÀÇ¹Ì ¾øÀ½.

  • CUTOFF: HSPÀÇ cutoff °ª. ±âº»°ªÀº À§ÀÇ expect value·ÎºÎÅÍ °è»êÀÌ µÇÁö¸¸(default) »ç¿ëÀÚ°¡ ÀÓÀ¸·Î cutoff °ªÀ» Á¤ÇØ ÁÙ ¼ö ÀÖÀ½. ³ôÀº cutoff °ªÀ» ÀÓÀÇ·Î ÁÖ¸é À¯»ç¼ºÀÌ ³ôÀº ¼­¿­µé¸¸ Ç¥½ÃµÊ.

  • Matrix: ¼­¿­ ºñ±³½Ã »ç¿ëµÇ´Â scoring matrix¸¦ Á¤ÇÏ´Â ¿É¼Ç. ÀÌ°ÍÀº ¼­¿­ »óÈ£°£ÀÇ Ä¡È¯ È®·üÀ» °áÁ¤ÇÏ´Â °ªÀ̹ǷΠ°á°ú¿¡ Áß¿äÇÑ ¿µÇâÀ» ¹ÌĨ´Ï´Ù. ±âº»°ªÀº BLOSUM62.

  • Strand: ¼­¿­ÀÇ °Ë»ö ¹æÇâÀ» °áÁ¤.

  • Filter: BLAST´Â gapÀ» Çã¿ëÇÏÁö ¾Ê´Â ¹üÀ§¿¡¼­ ÀÛÀº ºÎºÐ °Ë»öÀ» ¼öÇàÇϹǷΠrepeat sequence³ª proline-rich sequence°°ÀÌ »ý¹°ÇÐÀûÀ¸·Î Àǹ̴ ¾øÀ¸³ª ºÎºÐ¿¡¼­ ³ôÀº À¯»ç¼ºÀ» °¡Áö°í ÀÖ´Â ¼­¿­µéÀ» Á¦°ÅÇÏÁö ¸øÇÔ. ±×·¡¼­ Filter ¿É¼Ç¿¡ ÀÇÇØ Åë°èÀûÀ¸·Î´Â Áß¿äÇÑ °ªÀ» °¡ÁöÁö¸¸ »ý¹°ÇÐ ÀûÀ¸·Î´Â Àǹ̰¡ ¾ø´Â ¼­¿­µéÀ» Á¦°ÅÇÔ.
    -Low compositional complexity¸¦ °¡Áø ¼­¿­µéÀº Wootton°ú Federhen¿¡ ÀÇÇØ °³¹ßµÈ SEG program
    -internal repeatµéÀº Claverie¿Í States¿¡ ÀÇÇØ °³¹ßµÈ XNU program
    -BLASTNÀÇ °æ¿ì¿¡´Â Tatusov¿Í Lipman¿¡ ÀÇÇØ °³¹ßµÈ DUST°¡ ÀÌ¿ëµÊ.
    ÀÔ·ÂÇÑ ¼­¿­Áß ÀϺΰ¡ low complexity sequence·Î ÀνÄÀÌ µÇ¸é blast´Â ¿°±âÀÇ °æ¿ì "N"À¸·Î ´Ü¹éÁúÀÇ °æ¿ì "X"·Î Ç¥½ÃµÊ. ±×·¡¼­ ½ÇÁ¦ ÀÔ·ÂÀ» Á¤È®È÷ ÇßÀ½¿¡µµ ºÒ±¸ÇÏ°í °á°ú¿Í ÇÔ²² Ãâ·ÂµÇ´Â ÀÔ·Â ¼­¿­¿¡´Â "NNNNNNN"ȤÀº "XXXXXXX"°¡ Æ÷ÇԵǾî ÀÖ´Â °ÍÀ» °¡²û º¼ ¼ö ÀÖÀ½. ±âº»°ªÀº filteringÀ» ÇÏ´Â programµéÀ» ÀÌ¿ëÇÏ°Ô µÇ¾îÀÖ°í »ç¿ëÀÚ°¡ ¿øÇÏ´Â °æ¿ì filter¸¦ ¾²Áö ¾ÊÀ» ¼ö ÀÖ°í FilterÀÇ ±â´ÉÀº ¿ÀÁ÷ ÀÔ·ÂÇÑ ¼­¿­¿¡ ÇÑÇؼ­¸¸ Àû¿ëµÊ.

  • Histogram: °á°ú¿¡¼­ histogramÀ» º¸¿©ÁÖ´Â ¿É¼Ç.

  • NCBI-gi: °á°úÀÇ Ãâ·Â¿¡¼­ accession number ¿Í locus name»Ó ¾Æ´Ï¶ó gi identifier¿¡ °üÇÑ Á¤º¸µµ °°ÀÌ Ãâ·Â.

  • Description: ¸î °³ÀÇ ¼­¿­µé¿¡ ´ëÇÑ Á¤º¸¸¦ °á°ú¿¡¼­ º¸¿© ÁÙ °ÍÀΰ¡¸¦ °áÁ¤. ±âº»°ª 100.

  • Alignment: Ãâ·Â¿¡¼­ HSP°¡ ¾î´ÀÁ¤µµ ÀÌ»óÀÏ ¶§¸¸ alignment¸¦ ¼öÇàÇ϶ó´Â ¿É¼Ç. ±âº»°ª 100.



2. BLAST 2.0

BLAST 2.0Àº ±âÁ¸ÀÇ blast¿¡ gapÀ» µµÀÔÇÏ´Â ±â´ÉÀÌ Ãß°¡µÇ¾ú½À´Ï´Ù. ÀϹÝÀûÀ¸·Î blast °Ë»öÀ» ¼öÇàÇÏ¸é °á°ú°¡ ²÷¾îÁø ¸î °³ÀÇ Á¶°¢µé·Î Ãâ·ÂÀÌ µÇ´Âµ¥, blast 2.0¿¡¼­´Â gapÀ» µµÀÔÇÏ¿© FASTA¿Í °°ÀÌ insertion°ú deletionÀ» µµÀÔÇÏ¿© »óµ¿¼ºÀÌ ÀÖ´Â Á¶°¢µéÀ» ¿¬°áÇÏ¿© °á°ú¸¦ º¸¿©ÁÝ´Ï´Ù. ±×ÀÌ¿ÜÀÇ ¿É¼ÇÀº ±âº»ÀûÀÎ blastÀÇ ¿É¼Ç°ú µ¿ÀÏÇÏ°í ´Ù¸¥ ºÎºÐÀº ´ÙÀ½°ú °°½À´Ï´Ù. Graphical Overview: °á°ú¿¡¼­ ÀÔ·ÂÇÑ ¼­¿­°ú À¯»çÇÑ ºÎºÐÀ» ±×¸²À¸·Î Ç¥½ÃÇØ ÁÖ´Â ¿É¼ÇÀÔ´Ï´Ù. Query Genetic Codes (blastx only): blastx¿¡¼­ translationÀ» ÇÒ ¶§ ¾î¶² genetic code¸¦ »ç¿ëÇÏ´Â °¡¸¦ ¼±ÅÃÇÒ ¼ö ÀÖ´Â ¿É¼ÇÀÔ´Ï´Ù.


3. PSI-BLAST

¶ÇÇÑ NCBI¿¡¼­´Â PSI (Position-Specific Iterated) BLAST¸¦ ÃÖ±Ù °³¹ßÇÏ¿© ¼­ºñ½º ÇÏ°í ÀÖ½À´Ï´Ù. PSI-BLAST´Â ÀÏ¹Ý BLASTÀÇ ±â´É¿¡ motifÀ̳ª profileÀÇ ºñ±³ ±â´ÉÀ» Ãß°¡ÇÑ ÇÁ·Î±×·¥ÀÔ´Ï´Ù. Áï PSI-BLAST´Â ±âº»ÀûÀÎ BLAST°Ë»öÀ» ¼öÇàÇÑ ÈÄ ±× °á°ú¸¦ ÀÌ¿ëÇÏ¿© multiple alignment¸¦ ¼öÇàÇÕ´Ï´Ù. Multiple alignment¸¦ ÅëÇØ position-specific score matrix¸¦ Á¦ÀÛÇÏ°í ÀÌ matrix¸¦ ÀÌ¿ëÇÏ¿© ´Ù½Ã BLAST °Ë»öÀ» ¼öÇàÇÕ´Ï´Ù. Áï ÀÏ¹Ý °Ë»ö°ú motif, profile°Ë»öÀ» µ¿½Ã¿¡ ¼öÇàÇÏ°Ô µÇ´Â °ÍÀÔ´Ï´Ù. ÁøÈ­ÀûÀ¸·Î ¸Ö¸® ¶³¾îÁ® ÀÖ´Â homolog ¼­¿­À» ã´Âµ¥ À¯¸®ÇÏ°Ô »ç¿ëµÉ ¼ö ÀÖ½À´Ï´Ù.


°ú ¸ñ: »ý¹°Á¤º¸ÇÐ (°æ»ó´ëÇб³ »ýÈ­Çаú)
´ã´ç±³¼ö: À̱ٿì (kwlee@bio.gsnu.ac.kr)


»ý¹°Á¤º¸ÇРȨÆäÀÌÁö ¹Ù·Î°¡±â