Research

Genome Information Analysis

Genome sequences are not merely simple strings, but hidden behind them are real molecules with real structures that hold information about complicated biological mechanisms. ‘Meanings’ are hidden behind the ‘visible’ sequences. Recent research has revealed that genomes are dynamically controlled – for instance there are relations between cell differentiation and the structural change of genome.

 We have been developing software for genome sequence analysis, especially for large amount of data from high-throughput sequencers, in order to extract information based on stochastic framework.

ゲノム塩基配列は、単なる文字列ではなく、その背後には物質としての構造があり、複雑な生命現象のメカニズムが隠れています。「見る」ことができる文字列の背後に、「意味」が隠されているのです。ゲノム配列は、我々が手にすることができる生命情報の中で最も精度の高いデータですから、ゲノム配列に隠された「意味」を見出す研究は極めて重要なのです。浅井研では、新型の高速シークエンサーの巨大配列データから、確率的な基盤に基づいた信頼できる情報を効率的に抽出するための手法を研究しています。

RNA Informatics

Since the discovery of RNA interference and micro RNAs, a number of functional non-coding RNAs have been found. They are transcribed but not translated to proteins, play various roles in cells, not limited to repression of translation.

 We have developed theories and leading software in the field of RNA informatics, such as CentroidFold, one of the most accurate tools for the secondary structures prediction of RNAs(http://www.ncrna.org). The probability of a specific RNA secondary structure, even if it is the most stable structure, is astronomically small, because RNA structures undergo thermodynamic fluctuation. We are developing various methods to extract useful information from the probability distribution of the RNA secondary structures.

 Recently, it has been shown that the modification of genomic DNA is essential to the regulation of processes such as cell differentiation. The modification plays important role also in RNA. In order to predict the structures of RNAs which include modified bases, we are trying to identify the energy parameters of modified bases by combining MD simulations and melting temperature scaling experiments. The results will be implemented to various analysis tools of RNA secondary structures.

RNA干渉やマイクロRNAによる翻訳抑制の発見以降、ゲノムから転写されるがタンパク質には翻訳されず、RNAとして機能を発揮する非コードRNAが、様々な細胞内の現象に重要な役割を担っていることが明らかとなりました。細胞内のRNAの機能は、RNAが形成する2次構造と密接な関わりがあるため、塩基配列からRNA2次構造を高精度に予測することが重要です。我々は、信頼性の高いRNA2次構造予測ソフトウェアCentroidFoldをはじめ、RNA配列・構造の情報解析で世界をリードする理論・ソフトウェアを数多く生み出してしてきました(http://www.ncrna.org)。RNAの構造は室温でも熱揺らぎにより変化しており、最も安定な2次構造ですら存在確率は極めて小さいので、RNA2次構造の確率分布を様々な角度から解析する手法を研究しています。

近年、ゲノムDNAの修飾が細胞分化などに重要な役割を果たすことが明らかになりましたが、RNAでも転写後の修飾が構造や機能に大きな役割を果たしています。現状では困難な、修飾を受けたRNAの構造予測を可能とするため、分子動力学計算と実験を組合せ、修飾塩基を含むRNAの構造予測用パラメータの決定に取り組んでいます。その結果は、RNA情報解析のツール群に組み込んでRNA修飾の役割の解明に役立てたいと考えています。

RNA情報解析は近年に進歩したため、大規模なゲノム情報解析には、最新のRNA情報解析技術を駆使することによって解決しそうな研究テーマが数多く残されています。

Biological Sequence Design

We are studying the design of genome sequences for efficient production of target materials by micro-organisms. We have designed clusters of genes of anti-body in the AMED project. In the NEDO project, we are trying to optimize the DNA sequence for efficient production by machine learning, based on a large number of combinations of DNA sequences experimentally produced. In such a design, the efficiency of the translation of mRNA as well as that of transcription, should be optimized to improve productivity. This area has an abundance of wide-ranging research subjects, such as the relationship between the efficiency of translation and the structure of mRNAs.

微生物に目的物質を効率的に産させることを目的として、人工的なゲノム配列を設計する研究も行っています。NEDOプロジェクト(終了)ではDNA配列の膨大な組み合わせを実験で生成し、機械学習などの人工知能技術と組み合わせて、有用物質の生産に最適なDNA配列を探索する技術に取り組みましたAMEDプロジェクトでは、抗体を微生物に生産させるためのDNA配列設計技術の研究を行っています。これらのDNA配列設計では、遺伝子群のmRNAへの転写効率とともに、mRNAの翻訳効率も目的とする物質の生産が向上するように最適化しなければなりません。配列情報解析技術、RNA情報解析技術をさらに発展させるだけでなく、翻訳効率とRNAの構造の関係など、研究課題も豊富です。

Privacy Preserving Calculations

From large amount of data, including DNA sequences of personal genomes, we expect that valuable information can be extracted using AI technologies such as machine learning. Recently privacy data mining technologies, which safely process sensitive data in the encrypted form, have become important. In CREST project, we develop a general framework of delegate calculation that enables easy implementation of various privacy preserving services.

個人ゲノムの塩基配列情報など膨大なデータからは、機械学習など最先端の人工知能技術を駆使して、価値のある情報を得ることが期待できます。そこで、個人情報や知財情報などの秘匿すべき情報を漏えいすることなく、安全に解析する技術として、データを暗号化したまま処理する秘匿化計算技術が注目されています。多様なアプリケーションを秘匿化情報処理として社会実装することを可能とする「汎用秘匿化依頼計算技術」の研究を行っています。