膨大なビッグデータを前にした調査報道の戦略

多くの戦略データがウェブ上に公開され、その膨大さに溺れています。パンドラ文書のような数百万のファイルのリークは、この底なし沼に拍車をかける。この急激なデータの流入に対処するため、調査ジャーナリストたちは世界中で協力し、新しい戦略を立て、強力なITツールに頼っています。

元従業員のフランシス・ハウゲンが主導したFacebookからのデータ流出事件「Facebookファイル」とは?数万枚のドキュメント、PDF、写真、スキャン、メールファイル。その大きさがイメージしにくい数字。ウィキリークスが2010年から2011年にかけて公開したアメリカ政府の外交電報が25万ファイルを超えているのに比べれば、些細なことだ。昨年10月、国際調査報道ジャーナリスト連合(ICIJ)は、パンドラ文書に含まれるPDF文書、Excelファイル、スクリーンショット、スキャンなどのコンピュータファイルの数を1,190万件以上と発表しました。

そのために、ICIJは巨大なデジタルストライクフォースを提供することで、国際的な捜査部隊をコーディネートしています。ワシントンに本拠地を置くこのNGOは、40人のスタッフを擁するメディア組織であると同時に、世界各地に数百人の調査ジャーナリストを擁するネットワークでもあります。このコンソーシアムは、パンドラ文書だけでなく、パナマ文書、パラダイス文書の背後にあるものです。コンソーシアムのテクノロジーディレクターであるピエール・ロメラは、これらの成功がある戦略に結びついていると考えています。「テクノロジーをジャーナリズムに役立てたいという思いがあります。だからこそ、ICIJの規模の小ささにもかかわらず、データや文書を処理する能力は、何百人ものジャーナリストを抱えるメディアよりもはるかに強いのです。

コンピュータのコードを整理する

近年の技術開発により、何百万ものファイルを整理する時間を短縮することが可能になりました。「2010年のウィキリークスの電報を覚えています。同僚は、これらの文書の一部だけに直面し、データが高度に構造化されているにもかかわらず、キーワードで検索するのに世界中で苦労しました。今日では、スマートフォンでこのような検索がすぐにできます」と語るのは、スイスのメディア企業Tamedia社の調査ジャーナリストであり、イノベーションプロジェクトマネージャーでもあるタイタス・プラットナー。特にICIJは、オープンソースのソフトウェア上でアルゴリズムを開発し、何千もの文書を分類して共有するのに役立てています。

パンドラペーパーの抽出にかかった費用は1万5千ドルから2万ドルだった。

内部告発者がコンソーシアムに連絡してパナマ文書などのデータを提供すると、ピエール・ロメラは手作業または遠隔操作でデータを回収します。電子メールからPDFまで、Word、Excel、画像など、さまざまな形式のドキュメントからテキストを抽出できるツールを使用しています。この作業には長い時間とコストがかかり、パンドラペーパーの抽出には15,000~20,000ドルの費用がかかります。(現在、私たちは約60台のサーバーで、調査に役立つICIJのすべてのサービスを実行しています」。

コンソーシアムが開発した、数百万件の文書を様々な表現で検索できるソフトウェア「Datashare」のユーザーインターフェース。ピエール・ロメラ

ICIJが開発したソフトウェア「Datashare」は、何百万もの文書からテキストを抽出する役割を担っています。部分的に機械学習、非常に複雑なアルゴリズムを使用しています。人名、地名、団体名、請求書などのファイル形式を認識するアルゴリズムである “抽出パイプライン “をベースにしています」とPierre Romera氏は説明します。これらの名前や形状は、スプレッドシートで参照され、対応するファイルへのリンクが貼られます。

世界で活躍する

整理されたデータは、ICIJネットワークのメンバーに公開されます。というのも、Datashareはデータを抽出するだけでなく、共有や研究のためのツールでもあるからです。Delphine Reuter氏は、コンソーシアムのデータジャーナリストです。”最初にファイルの特定の編成があった場合、Datashareではその編成を見ることができます。そのため、ジャーナリストがあるドキュメントに特定の名前があって興味を持った場合、同じファイルに含まれるすべてのドキュメントも見ることができます。

ICIJの技術チームは、調査報道ジャーナリストのためのソーシャルネットワークのようなものも開発しました。最初の監禁事件でテレワークが普及するずっと前から、ネットワークはクラウド型プラットフォーム「Global iHub」で運用されていました。「ジャーナリストのコンピュータからアクセスできる安全なプラットフォームで、ジャーナリストは自分の研究を共有しています。興味のあることに応じてグループを作り、お互いにコミュニケーションをとることができます」とデルフィーヌ・ロイターは説明します。ファイルから発見された名前はすべて、その地域に対応するグループに掲載されます。ジャーナリストは、Datashareに保存されている文書を調べ、アルゴリズムによって特定された名前を確認したり、確認しなかったりして、調査を始めることができます。

コンソーシアムに参加しているジャーナリストが情報交換するネットワーク「iHub」のホームページです。ピエール・ロメラ

独自のソフトウェアを開発したり、オープンソースに頼ったりすることは、ニュースルームにとって戦略的な独立性の問題です。でも、高いんですよね。トム・ルブランは、デジタルおよびインテリジェントなソフトウェアを専門とする弁護士です。潤沢な資金を持たないメディアは、自社でシステムを開発することができますが、時間を節約できる一方で、そのコードを所有する会社が好きな時にアクセスを遮断できるようなプライベートコードに取り組まないように注意しなければなりません」と述べています。

お金は常に重要です。ICIJは、財団(90%)と個人からの寄付により、2019年の年間予算は600万ユーロでした。そのソフトウェアは、すべてのメディアが自由に利用できます。禁断の物語コンソーシアムがイスラエルのスパイウェアを調査した「ペガサス・プロジェクト」は、調査ジャーナリスト同士のコラボレーションの一例です。

複数のアプリケーション

このコンソーシアムでは、アルゴリズムを使って税金の最適化に関連するファイルを分析するだけではありません。また、ICIJは各国のジャーナリストの要請に応じて、特定のプロジェクトにも取り組んでいます。デルフィーヌ・ロイターは、カンボジアの古美術品の流通経路を追跡する調査に参加しました。記者からの具体的な質問には、「美術館で誰かに盗まれたと思われる古美術品を追跡できるか」というものがありました。カタログや美術館のウェブサイトを参考に、表計算ソフトを使って情報を凝縮し、全体の数値を把握しました。これらの方法では、スクラッピングと呼ばれる、ウェブサイトからデータを吸い上げるアルゴリズムを用いて、回収した情報をテーブルに格納します。

データアナリストでありジャーナリストでもあるMaëlle Fouquenet氏にとって、アルゴリズムの進歩は、調査ジャーナリストに新しい道を開くものです。一方では、データの流出に直面していますが、情報が溢れているウェブを調査することもできます。「私が非常に面白いと思うのは、時間や資源がないためにアクセスできない分野のテーマを調査することができることです」と彼女は意気込んでいます。

例えば、ドイツの公共ラジオ局では、違法な出版物が流通している個人のFacebookグループを調査しました。”機械学習 “を用いて、画像の検出やテキストの解析を行った。彼らの調査分野はFacebookで、機械学習のツールはcodeです。彼らは、Facebookがヘイトスピーチを十分に規制していないことを示す調査結果を出しました。このアルゴリズムは、1万件以上の問題のある出版物を自動的に検出しました」とジャーナリストは語る。衛星画像を解析して野生の琥珀の鉱山を探したり、汚職のスキャンダルを明らかにしたり、違法な広告を糾弾したり……その用途は多岐にわたります。

ジャーナリストの育成

ジャーナリストにはまだトレーニングや同行が必要です。テレビのように、編集者には撮影する記者がついているように、調査報道記者には優秀な開発者がついていてもいい。また、調査ジャーナリストのタイタス・プラットナー氏は、アルゴリズムや情報技術の仕組みに関する教育を提唱しています。「計算論的思考は、私たちの生活の中でますます重要になってきているので、幼い頃から教える必要があると思いますし、ジャーナリストもこうした問題を説明する必要があります。

ICIJのピエール・ロメラ氏は、ジャーナリストにコンピューターコードを教える訓練がいまだに弱いことを残念に思っています。「今日、学校ではこの種のジャーナリズムについて少し訓練していますが、開発者とジャーナリストを同じ部屋に入れたときにできることに匹敵する技術レベルの訓練はほとんどありません。

トム・ルブランは、自律的なアルゴリズムの開発に慎重になるよう、ジャーナリストに呼びかけています。弁護士は、「定期的なアップデートにより、常にアルゴリズムを各捜査に適応させなければならないし、何よりも機械を信用してはいけない」と主張する。バイアスは常に存在するので、ジャーナリストは警戒心を持って情報を一つ一つ確認しなければならない。例えば、書類に人為的なミスがあったことで、選考がスムーズに進まなかった可能性があります。もう一つのバイアスは、アルゴリズムは統計学に基づいており、十分に訓練されていなかったり、選択の根拠となる十分なデータを持っていなかったりすると、その有効性が低下する可能性があります。

このようなデリケートなテーマでは、ジャーナリストに代わって後者が活躍することはない、と誰もが思っている。これは強力なツールであり、うまく使えば、ジャーナリストはパナマ文書と同じタイプの暴露を何度も行うことができ、その結果、現実に具体的な影響を与えることができるはずです。

 

https://www.rfi.fr/fr/technologies/20211107-face-à-l-immensité-du-big-data-les-stratégies-des-journalistes-d-investigation

Radio France International
Radio France International

本サイトに利用されているrfiの記事や番組は、AntenneFranceとrfiが結ぶ契約に基づいています。

記事本文: 1847
Enable Notifications OK No thanks