成果報告書詳細
管理番号20090000000393
タイトル平成20年度成果報告書 「完全長cDNA構造解析プロジェクト成果普及事業(機能等不明な配列情報を対象としたアノテーション情報の付加」調査報告
公開日2009/12/21
報告書年度2008 - 2008
委託先名独立行政法人産業技術総合研究所
プロジェクト番号Q05013
部署名バイオテクノロジー・医療技術開発部 健康グループ
和文要約ヒト完全長cDNAクローンの利用価値を明確にするため、現時点で機能が不明なタンパク質をコードするcDNAクローンの配列に対して進化的保存性の評価、発現頻度の評価、ゲノム多型による影響の評価を合わせて行うことにより、総合的な機能推定の成果をヒト遺伝子と転写産物の統合データベースH-Invitational Database(H-InvDB)等から公開することを目標とした。まず、本事業で解析対象としたヒトcDNAクローン配列は、NEDO「完全長cDNA構造解析」プロジェクトで解析されて日本DNAデータバンクより公開されている28,268件である。このうちH-InvDBリリース6.0で「機能未知」とされているcDNAは件10,734件(38%)である。このほか、H-InvDBリリース6.0で公開されているヒト遺伝子クラスターの代表配列43,159件も比較のために解析の対象とした。まず、チンパンジー、オランウータン、アカゲザルの3種の霊長類全ゲノム配列に対する比較ゲノムマッピングを実施した。産業技術総合研究所バイオメディシナル情報研究センターにて開発した統合解析システムSuperTACTを、ヒトcDNAと異種ゲノムの間でのマッピング解析が高精度かつ高速に実施できるように改良し、PCクラスタを用いて解析を実施した結果、90%以上のヒトcDNAが一定の基準で霊長類ゲノムにマッピングできた。次に、この結果を用いてヒトcDNAのコーディングポテンシャルの推定を行った。ここでは、ORFの20残基ごとのウインドウ解析により同義置換率に対する非同義置換率の比率が有意に低いことを尺度として用い、タンパク質のアミノ酸配列に対する進化的保存性が認められるかどうかを判定した。これにより、比較解析が可能であった26,262件のうち9,126件(35%)のヒトcDNAについて、ヒトと3種の霊長類いずれかの間で少なくとも配列の一部に高い保存性が認められた。一方、完全長cDNAに対応するヒト遺伝子の発現頻度情報を整備した。ゲノムネットワークプロジェクトの成果であるCAGEタグクラスターと国際塩基配列データベースのEST配列を集め、cDNAから予測されたヒト遺伝子との対応付けを行い、各遺伝子の発現頻度を高発現、中程度発現、低発現の3段階に分類した。その結果、機能未知のヒト遺伝子の中にも高発現のものが見受けられるなど、機能推定の手がかりとなる発現情報を整備した。さらに、cDNAのアノテーションの精度向上を目的に個人全ゲノム配列に対するマッピングを行った。これにより、一塩基置換(SNP)を考慮した配列解析を行い、ORFの予測精度が向上し、その結果遺伝子の機能予測の精度が向上したと考えられる。以上の解析結果をまとめ、H-InvDBリリース6.2のアノテーション・トピックスのページ、ゲノムブラウザG-integraの霊長類ゲノムのページ、Evola CSMのページにて2009年3月30日より一般に公開した。
英文要約Title: Research Project for Advanced Annotation of Human Full-length cDNAs of Unknown Function (FY2008) Final report
To judge the real value of human full-length cDNA clones, we analyzed cDNA sequences of unknown function with regard to the evolutionary conservation, expression levels, and genomic polymorphisms. The aim of this project is to conduct advanced functional annotation of the cDNA sequences and publish the results through an integrated database of human genes and transcripts, H-Invitational Database (H-InvDB). Human cDNA sequences that were analyzed in this project are 28,268 clones obtained in the NEDO "full-length cDNA" project and have been made public through DNA Data Bank of Japan. Among them, there are 10,734 clones (38%) that are of unknown function and are classified as hypothetical proteins in H-InvDB release 6.0. Additionally, we included 43,159 representative human transcripts of H-InvDB for the purpose of comparisons in this project. We first conducted comparative genome mapping of these cDNA sequences onto the genome sequences of three primate species: chimpanzees, orangutans, and rhesus monkeys. We modified the SuperTACT system that were made in Biomedicinal Information Research Center of National Institute of Advanced Industrial Science and Technology, and utilized this system on PC clusters to precisely and quickly compare human cDNA sequences with primate genome sequences. As a result, we could map more than 90% of human cDNA sequences on these primate genome sequences. Next, we used the mapping results to predict the coding-potential of human cDNA sequences. Here, we conducted the sliding window analysis of ORFs in every 20 amino acids using the synonymous to nonsynonymous substitution rates as a measure of evolutional conservation. Among 26,262 sequences that could be examined, 9,126 (35%) human cDNA sequences appeared to be significantly conserved in at least one of the three primate species genomes. On the other hand, we collected the information of gene expression levels of human genes that correspond to full-length cDNAs. We collected human CAGE-tag clusters collected by the Genome-Network Project and human EST sequences of the International Nucleotide Sequence Databases, and matched them with all human genes. Then, we classified all the genes into three groups of expression levels: high, medium, and low. As a result, we found many human genes with unknown function that are highly expressed, suggesting that the expression levels will be a useful measure for predicting gene function. Furthermore, cDNA sequences were mapped on human individual genome sequences in order to evaluate and improve the quality of gene annotation. By mapping cDNA sequences on individual genome sequences, we detected single nucleotide polymorphisms (SNPs) on cDNA sequences, which lead to improve the quality of ORF prediction as well as the quality of functional prediction. All these results were made public through the topics annotation pages of H-InvDB release 6.2, G-integra primate genome pages, and Evola CSM viewer on March 30, 2009.
ダウンロード成果報告書データベース(ユーザ登録必須)から、ダウンロードしてください。

▲トップに戻る