OpenAI、DOE研究所と提携し連邦許可時間を15%短縮
Tony Kim 2026/3/4 17:29
OpenAIとパシフィック・ノースウェスト国立研究所がDraftNEPABenchを立ち上げ、AIエージェントが連邦環境審査のサブセクションごとに1〜5時間を節約できることを示した。
OpenAIと米国エネルギー省のパシフィック・ノースウェスト国立研究所は、AIコーディングエージェントが連邦環境許可の草案作成を最大15%削減できることを示すベンチマークを開発した。2026年2月26日に発表されたこの共同研究は、18の連邦機関からの102の草案作成タスクにわたってAIのパフォーマンスを評価するテストフレームワークであるDraftNEPABenchを生み出した。
このベンチマークは、国家環境政策法のワークフローを特に対象としており、連邦機関が発電所、橋、製造施設などのインフラプロジェクトを承認する前に環境への影響を文書化することを義務付ける50年の歴史を持つプロセスである。これらの審査には数年かかることが多く、数百ページの技術報告書が含まれる。
テスト結果
19名のNEPA専門家が、構造、明確性、正確性、適切な参照の使用を測定する1〜5のスケールでAI生成の草案を評価した。OpenAIのCodex CLIとGPT-5で動作するエージェントは、文書のサブセクションごとに1〜5時間を節約できる可能性を示した。
規模を考慮するまでは、劇的には聞こえない。環境影響評価書には数十のサブセクションが含まれており、それぞれが技術報告書、規制要件、複数のデータソースの相互参照を必要とする。現在完了までに数か月から数年かかるプロジェクトにおいて、セクションごとに数時間節約されれば、すぐに積み重なる。
AIエージェントは、数百ページにわたる文書を読んで統合し、環境および規制ソースで事実を検証し、特定の法的基準を満たす構造化されたレポートを作成することが求められた。タスクは、連邦政府全体の機関からの文書セクションをカバーした。
注目すべき制限
PNNLとOpenAIは、このベンチマークが証明しないことについて率直だった。これは、関連するコンテキストが利用可能な、明確に指定された草案作成タスクのパフォーマンスを評価するものであり、実際の許可決定の複雑な曖昧さではない。
失敗事例を検討する際、研究者は一部の「エラー」がモデルのミスではなく、古い参照や弱い評価基準に起因することを発見した。実際の展開には、ベンチマーク結果を超えてパフォーマンスを向上させることが期待される専門家のフィードバックループが含まれる。
ソース資料が不完全または一貫性がない場合、モデルは明示的な指示なしに必ずしも問題にフラグを立てるとは限らない。人間の監視は不可欠である。
全体像
このパートナーシップは、エネルギー省政策局が資金提供するPNNLのより広範なPermitAIイニシアチブの中に位置する。目標は人間のレビュアーを置き換えることではなく、政府職員に時間のかかる文書作業を処理するAIチームを提供し、判断や複雑な決定に集中できるようにすることである。
OpenAIは、協力してPermitAIアプリケーションの改良を続けると述べている。両社は、連邦政府が審査するインフラプロジェクトの平均承認時間が最終的に数か月から数週間に短縮されることを期待しているが、その削減を達成するための具体的なタイムラインは提供されていない。
AI業界にとって、これは別の政府検証ユースケースを表しており、フロンティアモデルがチャットボットの会話だけでなく、実際の規制ワークフローを処理できることを実証している。それがより広範な連邦AIの採用につながるかどうかは、実際の許可条件下で後続のパイロットがどのように機能するかにかかっている。
画像ソース: Shutterstock- openai
- 人工知能
- 連邦許可
- nepa
- 政府技術
