テープとDNAで、爆発的に増えるデジタルデータに対応する

研究、産業、個人はますます多くのデジタルデータを蓄積しています。そのため、ハードディスクなどのレコーダーはすぐにオーバーフローしてしまうほどです。DNAを利用した最新技術を待ちながら、その不足分を補うために、磁気カセットという古のモノが常に進化を続けているのです。

Instagramの写真、ドライブに保存された動画、電子メール…一人ひとりが蓄積するデジタルデータは相当な量に上り、4K動画やNetflixのストリーミングなど、私たちが自由に使える新しい技術によって常に増加しています。これらすべてはハードディスクではなく、時には数百キロメートルも離れた「クラウド」に保存されているのです。しかし、このデータは非常に身近なものではありますが、ビッグデータの最大の貢献者ではありません。

研究の方がよっぽど貢献度が高い。ジュネーブ近郊にある欧州原子核研究機構(CERN)は、その創設以来、100ペタバイト(Po)以上の画像、生データ、情報を蓄積し、後世の研究者のために保存しています。100PBは、個人向けに販売されている1テラバイト(TB)のハードディスク約102,400台分に相当します…。

M87*ブラックホールの初画像には、膨大な量のデータが必要でした。イベントホライゾンテレスコープ(EHT)/米国科学財団/ハンドウ
M87*ブラックホールの初画像には、膨大な量のデータが必要でした。イベントホライゾンテレスコープ(EHT)/米国科学財団/ハンドウ

最初のブラックホールの写真には、ほぼ5PB(1TBのハードディスク5,000台分)が必要でした。ビッグデータの貢献者は、TwitterやEDF、あるいは何らかの形でデジタル化された企業などの業界である。

物理的限界

2010年から2020年にかけて、巨大データに含まれる情報量は、2ゼタバイト(200万PB)から60ゼタバイトへと30倍以上に増加した。そして、そのペースは加速しています。2025年には、人類は175ゼタバイトのデータを生成すると予測されています。

2018年から2021年にかけて、デジタルデータストレージに関する予見ワーキンググループを担当した細胞生物学者のフランソワ・ケペスは、「2018年には、地球の陸地の100万分の1がデータセンターに占拠された」と説明する。この指数関数的なペースでいくと、2060年には世界中の国土がデータセンターで覆われることになります。

メールマガジン購読
2021年10月5日、ユタ州イーグルマウンテンに建設されたFacebookのデータセンター。ゲッティ イメージズ via AFP - GEORGE FREY
2021年10月5日、ユタ州イーグルマウンテンに建設されたFacebookのデータセンター。ゲッティ イメージズ via AFP – GEORGE FREY

しかし、この70年間、研究者たちはフロッピーディスクからハードディスクに移行し、ストレージシステムの小型化、大容量化を続けてきた。しかし、2020年に発表されたワーキンググループの報告書は、その結論において、半導体のムーアの法則が電子・磁気記憶装置にも適用されることを想起させるものであった。”小型化 “と “最適化 “は無限にできるわけではありません。数十年にわたり、2年ごとに生産能力を倍増させ、価格を半減させてきたが、この最適化のスピードが落ちてきているのだ。物理的な限界に達しつつあり、まだ期待できる最適化は比較的少ない」とFrançois Képèsは言う。

バックアップソリューションであるカセット

電子記憶装置が限界を迎えつつある中、カセットは記録を更新し続けている。そう、昔のビデオカメラやカセットプレーヤーに入れていた、巻き戻しを間違えるとテープがあちこちに飛び出してしまうカセットのことです。しかし、現在の開発済みテープは、昨日までのものとは全く違う。富士フイルムとIBMの最新記録は580TBで、これは1990年代のオーディオカセット7600万本分(60MB/カセット)に相当する。こちらは2017年に330TBを記録した時の映像です。

IBM Achieves the World’s Highest Areal Recording Density for Magnetic Tape Storage

髪の毛の20分の1の薄さで、1キロメートル以上の長さのテープが、手のひらに収まるカセットは、あと数年で、その姿を現す。IBMのテープ研究者であるマーク・ランツ氏は、「これは、少なくとも今後10年間は、基本的に2年ごとにカートリッジ容量を2倍にするという過去のレートで、テープ技術の拡張を続けられる可能性を如実に示している」と述べている。

次の10年…そしてその先?この時間軸を強調することで、マーク・ランツもストレージに携わる多くのエンジニアと同様に、電子ストレージや磁気ストレージの限界を十分認識していることがわかる。どちらもエネルギーやスペースの面で莫大な資源を消費する。

IBMの科学者マーク・ランツ氏が手に持っているのは、数百TBのテープである。写真提供:IBMリサーチ
IBMの科学者マーク・ランツ氏が手に持っているのは、数百TBのテープである。写真提供:IBMリサーチ

しかし、磁気カセットは1台のプレーヤーで何本ものカセットを読み取ることができるのに対し、ハードディスクは1台ごとに読み取りシステムがあるため、電子的な負荷が少ないという利点がある。また、カセットはハードディスクと違って何十年も使えるし、エネルギー効率も良い。

しかし、カセットはいくら高性能とはいえ、物理的なスペースを取りすぎるし、これからの大容量データのサイズには対応できない。だから、ギアを上げる必要があるんです。そして、これこそがFrançois Képèsのワーキンググループが目指したものである。「ガラスや水晶への彫刻、DNAなどの高分子への保存など、論理的に検討しました。時間的に余裕があり、十分な改善要素を持つ技術としては、高分子への保存しかないと思われました」と研究者は総括する。

DNAを待ち望む

DNA?慌てないでください。生き物の中に情報を保存したり、誰かの中に直接手を加えたりすることは問題ないのです。たしかに、これまで細菌や芽胞でできるのではないかと想像されてきましたが、もはやこれはメインのアプローチではありません。

DNAは、生物の生殖や発達のための指令が書かれた大きな分子の鎖である。ここで気になるのは、「インストラクション」という言葉だ。DNAは、A、C、G、Tの4つのモノマー(2つのらせんをつなぐ “棒”)からなる鎖である。このモノマーの配列(例えばAAGTTCCGAT)が情報を与える。ちょうど、すべてのコンピュータシステムの原点である1と0を基本とした二進法のようなものだ。

DNAの塩基配列は4種類のモノマーで構成されています。A, C, T, G. Getty Images - alanphillips
DNAの塩基配列は4種類のモノマーで構成されています。A, C, T, G. Getty Images – alanphillips

まず、デジタルファイルをエンコードするために、どのモノマー配列をアライメントするのかを決定する必要があります。ここで、Aを0 0、Cを0 1、Gを1 1、Tを1 0と想像してみる。完全にダミーの例で考えてみましょう。01 11という符号化された写真を保存したい場合、コンピュータは01 11をCGに「翻訳」しなければならないことになる。これがエンコードで、ファイルはエンコードされています。そこで、DNAにCGを「化学的に」書き込んで、必要なときに取り出せるように保存しておく必要があります。

それを読み取ると、ソフトウェアが文字の並びをバイナリコードに変換し、画面上の写真を再構成してくれる。要約すると、エンコード、ライティング、ストレージ、リーディング、デコーディングの5つのステージがあります。

しかし、なぜ私たちの情報をDNAに保存するのでしょうか?符号化できる情報量(情報密度)、エネルギー効率、耐久性に優れているからです。データセンターとは異なり、DNAは冷却する必要がない。フランスのイマジーン社が開発したカプセル化技術により、室温で最長5万2000年まで保存することができる。

Comment utiliser les produits Imagene (DNAshell, RNAshell)

1つのカプセルに最大0.8gのDNA、または1.4エクサバイトのデータを格納することができます。1エクサバイトとは、1TBのハードディスク100万台分に相当し、0.8gのDNAは、150トンのハードディスクに匹敵する情報量を持つことになります。2025年に175ゼタバイトのビッグデータを保存するためには、わずか175キロのDNAが必要になります。アメリカのDARPAは、DNAによってデータのエネルギー消費を1000分の1にすることができると考えている。

開発ポテンシャル?

DNAの最大の利点は、それを熟知していることだ。フランソワ・ケペス氏は、「生物医学の研究により、DNAの技術はすでに非常に高度なものになっている」と語る。つまり、デジタルデータを保存・保管する作業に必要な方法はすでにすべてできているわけですが、だからといって商業的に準備ができているかというと、まったくそうではありません。

とはいえ、技術の進歩は非常に早い。「ヒトのゲノム解読のコストは劇的に下がっている。2003年に30億円だったのが、今は500円になっている」と研究者は意気込む。しかし、まだ限界はあります。2022年の速度でDNAを読むのに500ドルは、ハードディスクと比べると、まだ1000倍のコストと1000倍の速度が必要なのです。書き込みの場合は、さらに1億倍も遅いし、高すぎる。

“世紀末に戻ってきて語れ “という声もある。そんなことないですよー。DNA関連技術は半年に2回程度の割合で進歩しており、1976年から2011年の間にエレクトロニクスの4倍の速さで進歩している。このままでは、5年後の2025年頃には、読書用の係数1000が飲み込まれてしまう。そして、執筆のための1億円は、2035年頃!?

すでに、DNAについては、2035年まで、いくつかの応用が可能です。すべてのデータが、定期的に読んだり書き留めたりする必要があるわけではありません。例えば、オーディオビジュアル作品のアーカイブを担当するフランスの組織INAは、毎年さらに20ポアのデータを蓄積しています。このようなデータはすぐに取り出す必要がないため、DNAにコード化することが注目されているのです。同様に、顧客の銀行データを時には何十年も保管しなければならない銀行部門も、この新しいストレージ技術を利用することができます。

アメリカの国防高等研究計画局(DARPA)は、DNA技術に数億ユーロを投資しています。フランスでは、特にFrançois Képès氏のワーキンググループのおかげで、政府がDNA保存の研究に2000万ユーロを投資し、関わり始めている。

https://www.rfi.fr/fr/science/20220821-des-cassettes-et-de-l-adn-pour-faire-face-à-l-explosion-de-nos-données-numériques

Radio France International
Radio France International

本サイトに利用されているrfiの記事や番組は、AntenneFranceとrfiが結ぶ契約に基づいています。

Articles: 826
Enable Notifications OK No thanks