AntenneFrance

西側と中国に直面し、AIレースの忘れ去られた何千もの文化
サイエンス

西側と中国に直面し、AIレースの忘れ去られた何千もの文化

2026/2/19

人工知能の主要なモデルは、西側諸国、あるいは中国によって設計されています。彼らは主にデザイナーの文化を反映しており、実際にはグローバルサウスの多くのコミュニティを無視しています。これらのAIにおいて、特にアフリカ諸語を含む多くの言語の表現が欠如していることは、これらの新技術へのアクセスにおける北南非対称性の最も顕著な例のように聞こえます。

作成者:ジャン=バティスト・ブリーン

AIの世界では、北の国々は王です。今年は、ニューデリーで、人工知能に関する第4回サミットの機会に、業界のグラティンが2月20日まで開催されます。開発途上国がこれらの技術へのアクセス拡大を条件に掲げられた本会議は、インドのAI市場における比重の高まりを反映しています。北京やワシントンと競争できないまま、世界で最も人口が多い国は、最も強力なモデルを巡る無制限の競争の中で忘れ去られたグローバル・サウスの代表として浮上しています。

実際、多くの国はAI革命列車が前を通過するのを、乗車を招かれることなく見守っています。特定の国の物流上の問題や資源・インフラの不足に加えて、特定の言語を話すことができる大規模言語モデル(LLM)が欠如していることは、機械的に世界人口の非常に大きな部分を排除しています。

外国語

LLM のような人工知能は、感傷的ではありません。彼らは膨大なデータベースから訓練されています。最もよく知られているLLMであるChatGPT、Deepseek、Geminiは、この条件付けのおかげで膨大な情報を蓄積します。多言語条件付けですが、言語が大部分を占める傾向がある言語は英語です。

包括的なAIは、話す言語に依存します。「今日の主要モデルは英語やその他の主要な言語を大いに支持しています」と、Global Center on AI Governanceの創設者であるレイチェル・アダムス氏は『The Conversation』で説明しています。LLMは、利用できる知識だけに頼って、依頼された有名なプロンプトに対応することができます。未知の言語、あるいはデジタルニューロンにほとんど記載されていない言語は、したがってほとんどエコーを見つけません。

インターネット全体はこの非対称性を完璧に反映しています。ウィキペディアはこれの最も明白な例です。有名なデジタル百科事典の各ページでは、「主要言語が最も豊かで重要な内容を持つだろう」と、フランス開発庁(AFD)のイノベーション部門長であるアレクシス・フレモー氏は述べています。彼は、これらの言語における資源の遍在が「増幅現象」を引き起こすと付け加えた。しかし、最も資源が多い場所は、AIが学習のために最も多くのコンテンツを引き出す場所でもあります。

アフリカの言語はデジタル領域では実質的に目に見えません。「これは既存の不平等や害を助長するだけでなく、AIベースのサービスへのアクセスが数百万人から排除される危険性もあります」とレイチェル・アダムスは述べています。何千もの言語や方言が豊富に存在するアフリカ諸国、特にサハラ以南のアフリカ諸国は、様々な要因により、チャットボットの応答においてしばしば姿が見えなくなっています。これらのAIのデータベースに言語がない人々が、西側と中国が成長に賭けている新しいツールの潜在能力を最大限に引き出すことは不可能です。

2025年に発表された研究は、アフリカ諸語の主要な言語モデルの質に疑問を呈しています。研究対象となったLLMはすべて最適化された参照モデルに劣っていること、そして英語と比較して有意な性能差が際立っていることを示しています。本研究論文は64言語のみを対象としています。ユネスコによると、アフリカは1,500から3,000の間です。

「アフリカは世界人口の約20%を占めていますが、AIトレーニングデータの1%未満です」とヤスミン・アブディラヒは2026年1月に『ル・モンド』のコラムで嘆いた。言語だけにとどまらず、観察が広がる。しばしばデザイナーの文化的論理に考えられ、影響を受けるAIは、支配的でない文化に関する知識が極めて限られています。

覇権的文化

誤解なきように、これらの人工知能はすべての国を地図に配置でき、その歴史を大まかなアウトラインで把握できるようになります。一方で、彼らはデータベースにおける代表性の低い国々の文化を十分に理解していることを示すことができません。

問題の所在は、言語を話す能力とそれに伴う文化的文脈に関する知識との違いにあります。「フランス語で吹き替えられたアメリカ映画を観るようなものです」とアレクシス・フレモーは要約します。どんなに才能のある翻訳者であっても、言語の暗黙の構成要素をすべて再現することはできません。彼がこれらの参照を習得しなければ、作業はさらに複雑になります。

「AIに関しては、私たちは全く同じ状況になるでしょう」とアレクシス・フレモーは続けた。言語を話すAIは確保できますが、米国や欧州、あるいは少なくとも西洋の文化資源だけに依存する場合、すべての文化的多様性と豊かさが失われます。グローバルサウスの国々の利用者は、日常の現実や伝統、文化的特異性を無視するこれらの知性の限界に迅速に直面できるようになります。

アフリカの具体的なケースでは、既存の遺産であるアーカイブ、商業登記簿、失われた口承伝統をデジタル化する必要がある、とヤスミン・アブディヤヒ氏は述べています。この信頼できるデータは、真にアフリカ系AIを訓練するための唯一のコーパスです――ケニアの公共交通ミニバスであるマタツ運転手が採用するAIであり、シェン(ケニアの俗語)やナイロビの非公式ルートを含むためです。

この特定かつ真にグローバルなAIツールのトレーニングが欠如している状況下で、研究は、いくつかのLLMや生成AIモデルが誤っている、あるいはステレオタイプを永続させた可能性があることを示しています。シーズン数について尋ねられた際、Gemini と ChatGPT は、2025 年に発表された研究によれば、どちらも4つあると示しました。多くの国が共有しない現実です。

本日、これらのチャットボットは、雨季と乾季だけが続く地域の詳細を追加します。もし修正できるのであれば、この例はこれらのLLMの多くの文化的盲点を証明しています。「生成AIシステムは、北部諸国の認識論と社会技術的インフラを引き続き支持している」と研究は結論付けています。2023年のJournal d'études culturellesに掲載された記事と同様の観察で、ChatGPTによる「文化的差異の平坦化とアメリカ文化への指向」について指摘されています。

どのような解決策ですか?

勢力バランスをある程度調整しようとする試みとして、グローバル・サウス諸国は、サービスを提供する相手のために、そして彼らによって設計されたツールを備えたローカルAI市場の開発を開始しています。チリはラテンアメリカ向けのLLMであるLatam‐GPTを設立し、2月10日に正式に開始しました。後者は「以前はオンライン上に存在せず、既存のモデルにも含まれていなかったラテンアメリカのデータの一部で訓練されている」と、同国の人工知能国立センター局長ロドリゴ・デュランは報告しています。

いくつかのアフリカ諸国でも、地域のイニシアチブが出てきています。Masakhane African Languages Hubは、AIが支配する未来においてアフリカの言語と文化が完全に表現されることを確実にすることを目的とした、汎アフリカ的なプロジェクトです。セネガルで、AWAは「Wolofを話す人工知能」も2024年に作成されました。

しかしながら、活気は、アフリカのAI専門家であるセイディナ・ンディアエ氏など、一部の人々によって和らげられています。セディナ・ンディアエ氏は、2025年8月に私たちのマイクに対し、「多くのコミュニティがAIを使用し始めているが、政府の支援がない」と説明しました。演説では皆がAIについて語りますが、実際には構造的に見て、この分野で前進するための具体的な行動はほとんど見当たります。

アレクシス・フレモー氏は、現在のほとんどのプロジェクトは、既存のAIモデルを「ローカルデータコーパスに適応させることによって」に基づいていると述べています。彼の言うと、特定のニーズに対応するこれらの地域イニシアチブは励みになるものです。ユーザーが多いほど、コンテンツはより多く充実し、AIに新しいコンテンツをより多く供給できるようになります。

現在、独自のAIを開発するために必要な資源を持たない国家に対するデータ主権の問題が依然として残っています。自国の体制が欠如している状況において、これらの国々は偉大な覇権モデルに致命的に依存することになります。

https://www.rfi.fr/fr/technologies/20260218-face-occident-chine-milliers-cultures-oubliées-course-ia

 

関連記事

フランスメディアの関連記事