|
過去2年間、AI技術は驚くべき速さで一般人の生活に浸透してきました。 2023年にChatGPTが全国的な議論の渦を巻き起こし、2024年には小学生でも漫画を描けるAI描画ツールが登場するなど、テクノロジーはもはやオタクだけのおもちゃではなく、水道や電気、ガスと同じように日常生活に溶け込んでいます。 AIは、社会的な次元における世代間統合を、いくつかの微妙なシナリオで推進しています。典型的な例としては、Z世代がAIを活用して独創的な新年の挨拶を送ったり、リアルタイムAI美化・背景置換技術を用いて祝福動画を生成したりできるだけでなく、高齢者でさえも簡素化されたインターフェースを通じて「デジタル年越し」を実現できる点が挙げられます。 2025年の春節、AIがきっかけとなった「デジタル正月習慣」が中国全土に広がりました。「世界中でスクエアダンスのおばさんが踊った」「兵馬俑が陝西省の方言で祝福の言葉を送った」「小学生がAIを活用した独自の文化観光マップを作成し、クラスのスターになった」といった話題が春節のソーシャルメディアで話題になりましたが、この魔法のようなカーニバルの裏には、中国におけるAI技術の応用に関する全国規模の実験がありました。 百度は、マルチモーダルAIテクノロジーで伝統的な新年の雰囲気を再構築しました。デジタルヒューマンの新年の挨拶ビデオから超リアルな文化観光マップ、方言検索からインテリジェントな観光ガイドまで、北京、上海、広州から各県の町や村まで、スクエアダンスをするおばあちゃん、2010年以降の小学生、方言を話す高齢者まで、すべてがAI時代の第一人者になることができ、テクノロジーと日常生活が衝突することで、これまでにない活気のある雰囲気が作り出されました。 これはおそらく、2025年のAIにとって重要な課題を浮き彫りにしている。最先端技術が最も基本的なシナリオに真に統合されるようになると、スーパーアプリケーションの爆発的な増加の転換点はそう遠くない。この競争において、テクノロジーを身近なものにし、日常生活に関連性を持たせることができる者が、AI時代の真のゲームのルールを掌握することになるだろう。 01 最もAIが牽引した年 3つの現象が人気を集めています。 現象 1: 世界中のスクエアダンスのおばさんがランドマークを「占拠」し、AI が新年の挨拶を魔法のカーニバルに変える。 「見て、お姉ちゃんたち!凱旋門の前で『最も眩い民族風』に合わせて踊ってるよ!」春節初日、山東省済南市のおばさん、王さんは家族のグループチャットに動画を投稿した。赤いコートを着て、デジタルクローンの集団を率いてフランスの凱旋門を「占拠」し、シャルル・ド・ゴール広場にBGMが響き渡るという動画だった。 これは百度が「瞬時に世界にテレポートして新年の挨拶を送る」という探求の傑作であり、ユーザーは動画をアップロードし、エッフェル塔や自由の女神像などのランドマークを選択するだけで、AIが世界のあらゆる場所の超リアルな動画を自動的に生成し、その動きの範囲までもが人気のスクエアダンスの曲のリズムにぴったりと一致する。 王おばさんの操作は実に簡単で、「WeChatモーメンツに投稿するよりも簡単」だ。百度(バイドゥ)を開いて「瞬時に世界へテレポートして新年の挨拶を送る」と検索し、イベント会場に入り、そのエントリーをクリックして「新年の挨拶動画作成ページ」を開き、指示に従って新年の挨拶動画を撮影し、BGMと背景を選択すると、数十秒後には動画が自動的に生成される。 このゼロ閾値の夢実現アプローチは急速に人気となり、若者の中には、今年の春節にスクエアダンスを踊るおばさんたちこそが本当の「メタバースの元祖」だと冗談交じりに言う者もいた。 現象 2: AI が生成したパーソナライズされたグリーティング カードが人気となり、想像力豊かなデザインが伝統的な祝福を凌駕しています。 北京のインターネット企業で働くシャオ・リーさんは、今年は帰省する予定はないものの、親戚や友人に新年の挨拶をどう送るかが悩みの種になっている。しかし、百度の「カスタマイズフォトグリーティングカード」機能を使えば、月面に自分の姿をフォトショップで合成して春聯を掲げたり、ホワイトハウス前に紅包を撒いたりできることをすぐに発見した。 百度アプリで「AI年賀状」を検索し、カスタマイズページに入り、「遊びたい」写真をアップロードし、「火星で爆竹を鳴らす」や「故宮の屋根の上で龍の舞を踊る」などのコマンドを入力し、祝福の言葉を加えるだけで、AIが自動的にシーンを合成し、2分以内にユニークな年賀状を生成します。 さらに、AIに祝福してもらいたい場合は、「百度智能雲西玲デジタルヒューマン」ミニプログラムを開き、自分の鮮明な写真をアップロードするだけで、AIがデジタルアバターを素早く複製し、親戚や友人にあなたの幸運を願う言葉を滑らかに伝える祝福の音声動画を生成してくれます。 さらに驚くべきは、この「クロスオーバー」の組み合わせです。春聯を持つモナ・リザと、イタリア訛りの中国語で新年の挨拶をするレオナルド・ダ・ヴィンチ。歴史上の人物が新年の挨拶を送るこの動画は、インターネット上で100万件以上の「いいね!」を獲得し、「笑いすぎて脚が割れた」「AIが私の欠けているユーモアを補ってくれた」といったコメントが寄せられています。 現象3:方言ベースのAIエージェントが「サイバーパートナー」となり、2010年以降の小学生が文化・観光の専門家に変身する。 「秦小勇にならって、3日間で西安を食べ歩き、同じ料理を一つも食べずに済ませよう」。陝西省出身の2010年以降生まれの小学生、レレさんは、百度の文化観光AI「秦小勇」に陝西語で、どの肉汁が一番ジューシーな肉家址(中華風ハンバーガー)を尋ねた。AIはイスラム地区の老舗を勧めてくれただけでなく、「観光客のピークシーズンを避ける秘訣」も教えてくれた。 この春節期間中、34省のサイバーツアーガイドが爆発的な人気を博しました。天津の「百百」は古都文化の街並みをクロストークで解説し、湖南の「傅小蘭」は辛くて涙が出るほど美味しい臭豆腐の屋台をおすすめし、福建の「粤花花」は土楼(客家建築の土造建築)のベストショットを撮影するガイド役をしてくれます。ユーザーは百度で「AI観光」と検索するだけで、それぞれの省のAIエージェントを呼び出し、方言でルート検索やチケット予約ができるだけでなく、バーチャルツアーガイドに「ワンクリック通話」することも可能です。 遼寧省のある小学生は、百度のインテリジェント文化観光プラットフォームを使って「中国文化観光マップ」を作成し、オンラインで数百万件もの議論を巻き起こしました。中国語を話せない高齢者も解決策を見つけました。河南省の陳さんは、息子の指導のもと、百度アプリで地元の方言で「ガス料金の支払い方法は?」と尋ねると、すぐに動画チュートリアルがスマートフォンに表示されました。陳さんは「息子が動画で教えてくれるのを待つよりずっと簡単だ!」と感嘆しました。 スクエアダンスを楽しむおばあちゃんから小学生まで、ホワイトカラーから地方都市の高齢者まで、百度AIは3つの現象を通して、テクノロジーが想像力豊かでありながら現実的なものであることを証明しました。この祝賀行事で最も感動的なのは、テクノロジーがもはや手の届かないものではなく、誰もが伝統的な新年の習慣を創造するための身近なツールになったことです。 02 これら 3 つの現象の背後には、Baidu AI が存在します。 ノーベル賞受賞経済学者サイモン・ジョンソンは著書『権力と進歩』の中で、社会経済のあらゆる分野における真の進歩は自動的に起こるものではなく、綿密な努力によってもたらされると述べています。重要なのは、より包括的な新しい技術の未来を創造するためには、技術開発の方向性が大多数の人々の利益と一致しなければならないということです。 同様に、春節期間中の3つの主要なクリエイティブ活動は、表面的には活気あふれるAI年賀動画、魔法のグリーティングカード、そして方言ガイドでした。しかし、その核心は、AIの活用における重要な問いに対する百度の答えでした。テクノロジーを少数の人々のおもちゃから、大多数の人々の道具へとどのように変えることができるのか?あるいは、地理的な隔たりや年齢の隔たりをいかに埋め、すべての人のためのテクノロジーを実現するのか? 「スクエアダンスのおばさんが世界のランドマークを占拠する」という現象を例に挙げてみましょう。これはデジタルヒューマン技術とモーションドリブンアルゴリズムが関わっています。ユーザーが写真をアップロードすると、AIが大規模なモデル画像認識アルゴリズムを用いて顔の特徴を抽出し、百度の膨大なヒューマンモーションデータベースと組み合わせることで、音楽のリズムに合わせたダンス動画を生成します。 百度希玲デジタルヒューマンは、写真から動画への合成技術も採用しています。自撮り写真でも歴史上の人物の肖像画でも、大規模モデルアルゴリズムが写真から顔の構造と特徴を抽出し、初期モデルを構築します。 デジタルヒューマンをよりリアルにするために、技術チームはさらに2つのことを行いました。まず、「モーションライブラリ」を作成し、大量の頭の動きと顔のデータを収集して、アクションドリブンアルゴリズムモデルをトレーニングし、顔の変化のパターンを学習させました。次に、照明や肌の質感など、さまざまな要素の影響を考慮し、アルゴリズムを用いてリアルタイムでレンダリングと調整を行い、顔の動きをより自然にしました。 第二に、「リップシンク」とは、AIが音声内容に応じてデジタルヒューマンの唇の形を自動調整し、音声と完全に同期した唇の動きを素早く生成することを意味します。これにより、デジタルヒューマンの唇の形と音声が乖離したり硬直したりすることが多々あった従来の状況が一変し、動画のパフォーマンスはよりリアルでスムーズになります。 AIが生成したパーソナライズされたグリーティングカードが話題になっている背景には、「AIイリュージョン」を狙った精密な操作があります。例えば、ユーザーが「メッシがホワイトハウスで赤い封筒を撒いている」と入力すると、従来のテキストベースの画像モデルでは顔の特徴や建築構造を誤認してしまう可能性があります。これは実は、従来のRAG(Retrieval Augmentation)技術の限界です。大規模な言語モデルのみに基づいたテキストベースの画像システムは、明らかに偽物、あるいは非論理的な画像を生成することがよくあります。 百度は今年初め、画像生成の錯覚問題を解決するために、AIが生成した画像が間違ってしまうのを防ぐガイドを提供する独自のiRAG(画像ベースRAG)技術を開発しました。 比喩的に言えば、iRAGの画期的な点は「ファクトチェック」の仕組みを導入した点にあります。例えば、「メッシがホワイトハウスで赤い封筒を撒いている」といった画像を生成する際、システムは画像を作成する前にまずデータを調査します。まず百度(バイドゥ)検索から数億もの画像リソースを呼び出し、「ホワイトハウスのポーチの構造」や「メッシの顔の特徴」といった重要な情報を探し出し、そこからモデルが空想ではなく、実際のデータに基づいて画像を生成させます。 ユーザーエクスペリエンスの観点から見ると、iRAGを用いて特定のオブジェクトに基づいて生成される画像エフェクトは、高いリアリティを実現し、錯覚を排除し、画像を即座に利用できる一方で、高いコストパフォーマンスを実現しています。CEOのロビン・リー氏は、「AIはスタイルを模倣するだけでなく、事実を尊重することを学ばなければならない」と考えています。彼はかつて、Wenxinモデルによって生成された、あるブランドの車が万里の長城の上を飛行する画像をデモンストレーションしました。車のモデル、ロゴ、そして万里の長城の背景が非常に高いレベルで融合されていました。 今春節におけるAIのもう一つの大きなハイライトは、百度の音声技術における画期的な進歩です。北京、上海、広州のホワイトカラー労働者はすでにAIを使ってPowerPointプレゼンテーションを作成している一方で、地方都市の高齢者は未だに「バスの路線図の入力方法」に苦労しています。百度の方言音声技術における画期的なロジックは単純明快です。AIが人間の言葉を話せるようにすること、そしてさらに重要なのは「人間の言葉」を理解できるようにすることです。 34 省の方言に対応するインテリジェント エージェントの実現には、音声ビッグデータ マイニングと音色転送という 2 つのコア テクノロジーが活用されています。 技術チームは膨大な方言会話を収録し、「ハイブリッド中国語」と「混合アクセント」を認識できるモデルを訓練しました。このモデルは「中不中」や「徳人」といったフレーズも正確に分析できます。AIが方言を理解するだけでなく、話すことも可能にするため、百度はビッグデータを活用し、中国語と様々な方言を統一されたモデリングフレームワークに組み込みました。様々な音色と方言の転移学習により、複数の方言を合成できる汎用モデルが訓練され、東北地方のニュースキャスターでさえ閩南語と広東語を簡単に話せるようになりました。 この「テクノロジー主導」戦略は、ある程度、下位層の市場の悩みに直接的に対処しています。あるユーザーはソーシャルメディアで次のように述べています。「今年の春節で私が最も感動したのは、AIの強力さではなく、AIがついに孤立無援の態度をやめ、私たちのような一般の人々にとって万能のパートナーになったことです。」 ロビン・リー氏によると、AI普及の鍵は、テクノロジーの活用と人々の悩みへの対応の間に支点を見つけることにある。百度の春節キャンペーンの成功は、この概念を具体的に体現している。テクノロジー包括性の本質は、「農民にコーディングを教える」ことや「万能性」を追求することではなく、「遍在性」にある。これは、AIの実用化に対する百度独自の理解でもある。 03 巳年の旧正月から今後25年間のAIの動向を考察する 2025年の巳年春節(みねいしゅう)には、AI主導の「デジタル年越し風俗革命」が全国を席巻しました。AIが制作したグローバルブラインドボックスの年越し動画が、一般人を30秒で国際的なスターに変身させ、インテリジェントな観光ガイドが様々な地方のアクセントで古都の文化街を解説する時、その舞台裏では百度のマルチモーダル技術が集中的に展開されていました。テキスト生成から音声インタラクション、画像合成から動画駆動まで、AIはもはや単調な表現に満足せず、テキスト、画像、音声、そしてアクションを融合させ、調和のとれた交響曲を奏でます。 このマルチモーダル機能の爆発的な増加は、コンテンツ制作分野のゲームのルールを書き換え、コンテンツ作成の敷居とコストを下げただけでなく、業界データによると、2025年にはAIマルチモーダルモデルのトレーニングデータにおける非テキストコンテンツの割合が2023年と比較して大幅に増加しています。画像、動画、音声の「データトライアングル」は、メーカーにとって新たな戦場になりつつあります。 技術革新よりもさらに破壊的なのは、ユーザー層の「下方革命」である。AIツールのユーザー層は、「高学歴のオタク」から「地方の若者」「高齢者」、さらには「小学生」へと拡大している。百度の方言音声検索への1日平均通話件数では、河南省や四川省などのユーザーの割合がますます高まっており、県級観光地の文化観光インテリジェント施設の利用率も上昇している。 都市部から農村部へのユーザーの移行は、AI業界の究極のパラドックスを浮き彫りにしている。「最先端技術は、しばしば下位市場の最も基本的なシナリオの中に隠れている」のだ。百度は春節の祝賀行事を利用して、AI革命に勝つための鍵は、研究室での計算能力競争ではなく、一般の人々のクリック一つ一つにあることを証明した。 ロビン・リーは2025年の全社員向けレターの中で、大規模モデルを活用したAIネイティブアプリケーションが様々な業界やシーンで急速に普及していると述べました。スーパーアプリケーションはまだ登場していませんが、AIの実際の普及率は既にかなり高くなっています。 春節期間中のAIの祭典は、いわば「スーパーアプリ」のプレビューのようなものです。百度の文心AIによってユーザーがワンクリックで方言ガイドを作成できるようになり、iRAGテクノロジーによってブランドポスターのコストがほぼゼロになり、方言検索の1日平均サービスが継続的に増加していることから、AIは「特定のシーンのためのツール」から「普遍的なパートナー」へと進化しました。 AI応用の深度とシナリオが継続的に拡大するにつれ、スーパーアプリケーションが消費者側で初めて普及するのは2025年になるだろうという大胆な予測が出ている。その時、今年は「AI民主化元年」として記憶されるかもしれないが、百度はすでにその潮流の最前線に立っている。 |
大規模モデルが新たな分野に進出しており、今年の春節は AI 色が強く感じられました。
関連するおすすめ記事
-
米国政府は、GlobalFoundries の米国における生産能力の増強を支援するため、同社に対して 15 億ドルの CHIPS 助成金を支給することを決定した。
-
ノキアの世界規模の人員削減計画は継続中。通信市場の低迷の中での戦略的調整として、中国では約2,000人の従業員が解雇された。
-
マスク対OpenAI訴訟の新たな展開:アルトマン氏は同社が競争を抑制しているという主張を否定。
-
元Google CEOのエリック・シュミット氏は、AGIは自己改善していく中で開発を一時停止する必要があるかもしれないと警告し、イーロン・マスク氏もAIにはリスクが伴うと述べた。
-
ジェンセン・フアン氏は、Nvidia の Blackwell チップには設計上の欠陥があり、TSMC がそれを解決したと述べた。
-
Horizon Robotics の創設者 Yu Kai 氏は次のように予測しています。「3 年以内に、自動運転は完全にハンズフリーになり、10 年以内に、ドライバーは運転中に眠ることができるようになります。」