AIセキュリティ: 機械学習モデルを保護する方法

タレス | セキュリティを考えるうえで最も重要なこと More About This Author >

寄稿者:
Dr.ヴェルナー・ドンドル、マイケル・ツンケ

はじめに

コンピュータ技術において、人工知能（AI）と機械学習（ML）ほど注目を集めている領域はほとんどありません。コンピュータサイエンスとデータ分析の交差点に位置するこの分野は、モバイルアプリケーション、音声アシスタント、不正取引の検知、画像認識、自動運転、さらには医療診断に至るまで、不可欠な存在となっています。

機械学習モデルには多大な時間と資金の投資が必要である一方、多くの産業に普及しつつあるため、AIモデルをハッキング攻撃や知的財産の盗難から保護することが極めて重要となります。ソフトウェアコードの一部としてMLモデルを利用しているベンダーであれば、AIモデルのセキュリティについて特に慎重に計画する必要があります。

では、どこに脆弱性が存在し、どのように対処できるのかを見ていきましょう。

AIモデルのセキュリティ: 脆弱性の概要

モデル窃取

MLモデルを使用するアプリケーションが、顧客側で制御可能な環境にデプロイされている場合、MLモデルが盗まれたり、正規のライセンスなしで使用されたりする可能性が複数存在します。その一つが、古典的なソフトウェアコピー攻撃です。この場合、真のリスクは単にコピーされることではなく、ライセンスなしでソフトウェアを実行できてしまうことにあります。無許可使用に対する保護策がなければ、攻撃者がアプリケーションを不正にコピーすることを阻止する手段はありません。

2つ目は、さらに検知が難しい攻撃で、アプリケーションからMLモデルを抽出し、攻撃者自身のアプリケーションで使用するというものです。もしそれが直接の競合企業のアプリケーションである場合、多大な収益損失につながる可能性があります。機械学習を利用するモバイルアプリの大規模な分析によると、MLモデルの再利用率が高いことが示されており、MLモデルの抽出に対する保護が不十分であることが明らかになっています。

解決策:
これを防ぐには、モデル抽出から保護し、自社と顧客双方に十分な柔軟性を提供できる強力なライセンシングプラットフォームを利用することが推奨されます。

2021年、中国でトレンドとなったアプリケーションの約3分の2が機械学習を利用しており、コピー防止対策が施されていました(Mind Your Weight(s): A Large-scale Study on Insufficient Machine Learning Model Protection in Mobile Apps | USENIX)。

Open Web Application Security Project（OWASP）は、機械学習モデルに対する攻撃トップ10にモデル窃盗を挙げています（Open Web Application Security Project (OWASP), 2023）。

ユースケース: 産業オートメーション
コンピュータビジョンは、綿密にキュレーションされた膨大なデータセットをMLモデルに供給することが不可欠な代表例です。コンピュータビジョンは、工場内を移動するロボットに障害物を認識させたり、PCB（プリント基板）組立時にピックアンドプレース機が誤配置された部品を識別したりするために組み込まれています。モデルおよびそのチューニングへのアクセスを厳密に管理できない場合、競合他社にモデルを抽出され複製されるリスクが生じます。競合他社は抽出したモデルを自社の用途に合わせて微調整し、自社アプリケーションにシームレスに統合できてしまいます。リバースエンジニアリングによってモデルの構造をより正確に把握できるほど、その出所を隠蔽しやすくなります。その結果、本来のモデルが持つ認識精度に追いつくだけでなく、知的財産の流用を立証することも極めて困難になります。

モデル改ざん

MLモデルが意図したとおりに動作することは極めて重要です。適切なAIモデルセキュリティがなければ、悪意のある攻撃者によってモデルの完全性が損なわれるリスクがあります。これは、アプリケーションの提供時、モデルの更新時、あるいはインストール後など、あらゆる導入段階で発生する可能性があります。OWASPトップ10攻撃にはモデルポイズニングや転移学習攻撃が含まれており、いずれも正規のモデルを改ざん版や全く別のモデルに置き換える手法です。

この種の攻撃には、MLモデルとアプリケーション間のインターフェースに関する知識が必要ですが、これはリバースエンジニアリングによって取得可能です。構造を理解することで、攻撃者は元のモデルと置き換え可能な、インターフェースだけ正しく見える偽モデルを作成できます。攻撃者が転移学習攻撃を目的とする場合、自分に都合のよい特定の状況でのみ悪意のある動作を引き起こすようモデルを調整することも可能です。

解決策:
AIモデルセキュリティに対するこれらの侵害を防ぐための一般的な対策として、モデルを暗号化し、正規のアプリケーションのみが復号して利用できるようにする方法があります。AIモデルの暗号化により、正しい復号鍵がなければコードはほぼ無意味なものとなります。復号ロジックと秘密の復号鍵により、モデルの解析を阻止できるうえ、暗号が一致しないため別のモデルに置き換えられる心配もありません。その結果、モデルの差し替えを防ぐだけでなく、攻撃者はモデルの内部構造を把握することが一層困難になります。

AIモデルの暗号化とライセンシングシステムの組み合わせは、より高い柔軟性と保護を実現できます。これは、ライセンスごとに固有の暗号処理を発行するライセンシングシステムが、ライセンスと保護機能を強固に結びつけるからです。

ユースケース: 自動運転
自動車の機械学習モデルに対するモデルポイズニング攻撃は、特定の状況下でモデルを誤動作させ、深刻な結果を招く恐れがあります。たとえば、攻撃者がモデルを再学習させ、前方車両のバンパーステッカーを光学センサーが検知した場合に、赤信号でも加速するように動作を誘導することが可能です。

MLアプリケーションへの攻撃

MLモデルは、モデルへの直接的な「正面攻撃」ではなく、アプリケーションシステムの動作を攻撃することによっても影響を受ける可能性があります。すべてのMLモデルアプリケーションには、メインCPU上で実行されるコード部分が存在します。MLモデルに入力するためのデータの受け取りや前処理、あるいはMLモデルの出力結果の後処理は、入力操作攻撃や出力完全性攻撃（OWASPトップ10）の対象となるポイントです。リバースエンジニアリングや改ざんから保護されていないアプリケーションは、これらの脅威に対して脆弱です。

解決策:
高度なソフトウェア保護ツールを用いてアプリケーションを強化し、リバースエンジニアリングや改ざんを防ぐことで、AIモデルセキュリティに対するこれらの脅威を抑止できます。こうしたツールは、高度なコピー防止機能やライセンシングシステムに組み込まれています。

ユースケース: ネットワークセキュリティ
機械学習モデルがネットワーク侵入やデータ漏えいを正確に検知するためには、入力データが改ざんされず、アラートフラグのメカニズムが正しく機能することが不可欠です。入力（例：入力操作の改ざん）や出力ロジック（例：アラートフラグの改ざん）が操作されると、悪意のある活動が見逃されるリスクが生じます。攻撃者は、特定の日時に発生するアラートを隠すことで、検知を回避することが可能になります。

攻撃者によるモデル学習工程の「飛び越え」

モデルを学習させるには、多大な時間と費用がかかります。効率的な学習データセットを収集するだけでなく、サンプルに正しいラベルを付けるためのキュレーション作業も必要です。貴社のモデル開発の成果を飛び越えようとする攻撃者は、通常、自身の未ラベルの学習データセットに対して貴社のモデルを使ってラベル付けを行い、正しいラベル付けに必要な膨大な時間と労力を省こうとします。このようにして、競合他社は、大規模な学習データセットを短期間で整え、貴社のモデルに匹敵するモデルを迅速に構築することで、優位性を打ち消してしまう可能性があります。

解決策:
攻撃者は自身のデータセットを実行するためにアプリケーションを利用する必要があるため、アプリケーション提供側は前述の保護手法を組み合わせて利用制御（ライセンシング）を厳密に行うことができます。具体的には、一定時間ごとに実行可能な分類回数を定義し、分類総数を制限し、アプリケーションの同時実行インスタンス数を制限します。さらに、整合性保護と組み合わせて異常な使用を検知し制限するカスタム制御を追加することで、アプリケーション内部からこれらの制御が取り除かれることを防ぎ、アプリケーションのセキュリティをさらに強化できます。

ユースケース: 医療機器
貴社の医療用MRI装置は、特定の疾患に基づいて画像を分類するように学習されています。競合他社は、自社の学習データセットにラベルを付けるために、貴社のアプリケーションを利用したいと考えています。幸いなことに、貴社はアプリケーションを保護しているため、競合他社は一度にごく少数の画像しか処理できず、貴社の技術を利用して自社の利益のためにモデル学習工程を飛び越えることは不可能です。さらに、ライセンシングのプロパティを通じて検出パラメーターを制御することで、顧客固有のユースケースに合わせて、現場で安全にパラメーターを変更することも可能です。

AIモデルセキュリティの概要

現代において、AIとMLはさまざまな業界で極めて重要な役割を担っています。機械学習モデルを基盤とする製品を商用化する場合、モデルの完全性を確保し、投資と知的財産を保護し、競争優位性を維持するために、積極的な対策が不可欠です。

ここで概説した主要な脆弱性に対処するには、堅牢なライセンシング、暗号化、高度なソフトウェア保護ツールを組み合わせた、多面的なモデル保護アプローチが必要です。

タレスは30年にわたり、エンタープライズ企業がソフトウェアの保護と収益化を実現するためのパートナーおよびプラットフォームとして選ばれてきました。当社の専門知識とSentinelソリューションにより、セキュリティへの確かな信頼とともに、自由なイノベーションを実現できます。

専門家に問い合わせる

著者について

Dr. Werner Dondl（ヴェルナー・ドンドル）は、ドイツ・ミュンヘンのタレス社において、ソフトウェア・マネタイゼーション事業本部CTO（Chief Technology Office）のソフトウェアアーキテクト兼アドバイザリーエンジニアとして勤務しています。ヴェルナーは、ミュンヘン工科大学で半導体物理学の博士号を取得後、暗号ライブラリの専門家としてタレスに入社しました。この28年間、開発、チームリーダー、ソフトウェアアーキテクトなど、さまざまな役職を歴任してきました。現在のCTOオフィスでの職務では、ソフトウェアセキュリティおよびソフトウェア収益化に関連する最先端プロジェクトに注力しています。
Michael “MiZu” Zunke（マイケル・“ミズ”・ツンケ）は、ソフトウェアセキュリティおよびソフトウェア収益化の専門家です。現在はタレスのソフトウェア・マネタイゼーション事業本部の最高技術責任者（CTO）を務め、セキュリティとイノベーションの推進を担っています。近年は、機械学習における知的財産保護の課題への対処法に特に注力しています。ミュンヘン工科大学で物理学を専攻して卒業しており、ソフトウェア保護やリバースエンジニアリングの分野で複数の価値ある特許を保有しています。

ソフトウェア保護とライセンシングの技術研究で30年以上の経験を持つミズは、旧ジェムアルトの取締役会技術顧問を務めたほか、ロンドンで開催されたACM CCSのSPROワークショップではプログラム委員長を担当しました。