浅井研究室では、情報学の立場から生命を理解するための研究をおこなっています。その基盤として、確率的な枠組みを中心とした数理的な理論を重視しており、新しいアルゴリズム・ソフトウェアの開発とその応用に取り組んでいます。我々は、単に他の人の作ったソフトウェアを使って生物データを解析する人たちではありません。我々は、ソフトウェアをブラックボックスとして解析をしたくないのです。
中心的な研究テーマは、ゲノム情報解析とRNAインフォマティクスですが、学生は自由に研究テーマを選ぶことを研究室の方針にしています。

 

Genome sequence analysis

Genome sequences are not merely simple strings, but hidden behind them are real molecules with real structures that hold information about complicated biological mechanisms. ‘Meanings’are hidden behind the ‘visible’ sequences. Recent research has revealed that genomes are dynamically controlled – for instance there are relations between cell differentiation and the structural change of genome.
 We have been developing software for genome sequence analysis, especially for large amount of data from high-throughput sequencers, in order to extract information based on stochastic framework.

ゲノム塩基配列は、単なる文字列ではなく、その背後には物質としての構造があり、複雑な生命現象のメカニズムが隠れています。「見る」ことができる文字列の背後に、「意味」が隠されているのです。ゲノム配列は、我々が手にすることができる生命情報の中で最も精度の高いデータですから、ゲノム配列に隠された「意味」を見出す研究は極めて重要なのです。浅井研では、新型の高速シークエンサーの巨大配列データから、確率的な基盤に基づいた信頼できる情報を効率的に抽出するための手法を研究しています。

 

RNA informatics

 Since the discovery of RNA interference and micro RNAs, a number of functional non-coding RNAs have been found. They are transcribed but not translated to proteins, play various roles in cells, not limited to repression of translation.
 We have developed theories and leading software in the field of RNA informatics, such as CentroidFold, one of the most accurate tools for the secondary structures prediction of RNAs(http://www.ncrna.org). The probability of a specific RNA secondary structure, even if it is the most stable structure, is astronomically small, because RNA structures undergo thermodynamic fluctuation. We are developing various methods to extract useful information from the probability distribution of the RNA secondary structures.
 Recently, it has been shown that the modification of genomic DNA is essential to the regulation of processes such as cell differentiation. The modification plays important role also in RNA. In order to predict the structures of RNAs which include modified bases, we are trying to identify the energy parameters of modified bases by combining MD simulations and melting temperature scaling experiments. The results will be implemented to various analysis tools of RNA secondary structures.

ヒトゲノムでは、タンパク質をコードしている部分は2%以下で、他の大部分の「意味」は良く解っていません。近年の研究で、「他の大部分」の多くが、ゲノムから転写されるがタンパク質には翻訳されない非コードRNA(ncRNA)であり、様々な細胞内の現象に重要な役割を担っていることが明らかとなりました。RNA干渉やマイクロRNAによる翻訳抑制をはじめ、非コードRNAの細胞内でのRNAの機能には、RNAが形成する2次構造と密接な関わりがあるため、塩基配列からRNA2次構造を高精度に予測することが重要です。我々は、信頼性の高いRNA2次構造予測ソフトウェアCentroidFoldをはじめ、RNA配列・構造の情報解析で世界をリードする理論・ソフトウェアを数多く生み出してしてきました。RNAの構造は室温でも熱揺らぎにより変化しており、最も安定な2次構造ですら存在確率は極めて小さいので、RNA2次構造の確率分布を様々な角度から解析する手法を研究しています。
近年、ゲノムDNAの修飾が細胞分化などに重要な役割を果たすことが明らかになりましたが、RNAでも転写後の修飾が構造や機能に大きな役割を果たしています。現状では困難な、修飾を受けたRNAの構造予測を可能とするため、分子動力学計算と実験を組合せ、修飾塩基を含むRNAの構造予測用パラメータの決定に取り組んでいます。その結果は、RNA情報解析のツール群に組み込んでRNA修飾の役割の解明に役立てたいと考えています。
RNA情報解析は近年に進歩したため、大規模なゲノム情報解析には、最新のRNA情報解析技術を駆使することによって解決しそうな研究テーマが数多く残されています。

 

Genome sequence design

 We are studying the design of genome sequences for efficient production of target materials by micro-organisms. We have designed clusters of genes of anti-body in the AMED project. In the NEDO project, we are trying to optimize the DNA sequence for efficient production by machine learning, based on a large number of combinations of DNA sequences experimentally produced. In such a design, the efficiency of the translation of mRNA as well as that of transcription, should be optimized to improve productivity. This area has an abundance of wide-ranging research subjects, such as the relationship between the efficiency of translation and the structure of mRNAs.

微生物に目的物質を効率的に産させることを目的として、人工的なゲノム配列を設計する研究も行っています。AMEDプロジェクトでは、抗体を微生物に生産させるためのDNA配列設計技術の研究を行ってきました。NEDOプロジェクトではDNA配列の膨大な組み合わせを実験で生成し、機械学習などの人工知能技術と組み合わせて、有用物質の生産に最適なDNA配列を探索する技術に取り組んでいます。これらのDNA配列設計では、遺伝子群のmRNAへの転写効率とともに、mRNAの翻訳効率も目的とする物質の生産が向上するように最適化しなければなりません。配列情報解析技術、RNA情報解析技術をさらに発展させるだけでなく、翻訳効率とRNAの構造の関係など、研究課題も豊富です。

 

Privacy preserving data mining

From large amount of data, including DNA sequences of personal genomes, we expect that valuable information can be extracted using AI technologies such as machine learning. Recently privacy data mining technologies, which safely process sensitive data in the encrypted form, have become important. In CREST project, we develop a general framework of delegate calculation that enables easy implementation of various privacy preserving services.

個人ゲノムの塩基配列情報など膨大なデータからは、機械学習など最先端の人工知能技術を駆使して、価値のある情報を得ることが期待できます。そこで、個人情報や知財情報などの秘匿すべき情報を漏えいすることなく、安全に解析する技術として、データを暗号化したまま処理する秘匿化計算技術が注目されています。CRESTのプロジェクトでは、多様なアプリケーションを秘匿化情報処理として社会実装することを可能とする「汎用秘匿化依頼計算技術」の研究を行っています。

 

Software Development

We are not the people who simply analyze biological data using software tools which someone else developed. We don’t want to use software black boxes for the analyses. Here is a list of software tools which the current and past members of Asai lab. contributed some part.

我々は、単に誰か他の人の作ったソフトウェアを使って生物データを解析する人たちではありません。我々は、ソフトウェアをブラックボックスとして解析をしたくありません。以下は、現在および過去の研究室メンバーが何らかの貢献をしたソフトウェアのリストです。

浅井研が研究・開発に参加した主なソフトウェア
・CentroidFold(RNA2次構造予測)[Hamada+2008]
・CentroidHomfold(相同配列を用いたRNA2次構造予測)[Hamada+2009b][Hamada+2011c]
・CentroidAlign(RNA構造アラインメント)[Hamada+2009c]
・CentroidAlifold(RNA共通2次構造予測)[Hamada+2011a]
・miRRim, miRRim2(miRNA予測)[Terai+2007][Terai+2012]
・SCARNA, MXACARNA(RNA構造アラインメント)[Tabei+2006][Tabei+2008]
・IPknot(pseudo-knotを含むRNA2次構造予測)[Sato+2011]
・RactIP(RNA間相互作用予測)[KatoY+2010]

GeLATo

Genomic Landscape Alignment Tool

ncRNA.org

機能性RNAと非コードRNAのポータルサイト.

CentroidFold

RNAの2次構造予測

BIOJs.org

Ajaxを使った生命科学のネットワークや遺伝子オントロジーのアプリケーション.

kemba-svm.exe

雑音に強いカーネル partial distance kernel を使用できるサポートベクトルマシン.