About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 64件

ErgoChat: a Visual Query System for the Ergonomic Risk Assessment of Construction Workers

http://arxiv.org/abs/2412.19954v1

Chao Fan, Qipei Mei, Xiaonan Wang, Xinming Li

建設業界では、労働者が高強度の肉体労働や工具の長時間使用を強いられることが多く、その結果、主に姿勢に関するエルゴノミクスのリスクに関連した怪我や病気が生じます。これは長年にわたる主要な健康問題です。これらのリスクを軽減するために、研究者たちは建設労働者が直面するエルゴノミクスのリスクを特定するためのさまざまな技術的手法を適用してきました。しかし、従来のエルゴノミクスリスク評価（ERA）技術は、インタラクティブなフィードバックを提供しません。急速に発展している視覚-言語モデル（VLMs）は、画像入力に基づいてエルゴノミクスのリスクについてのテキスト記述を生成したり、質問に答えたりする能力を持っていますが、まだ広く注目されていません。この研究では、建設労働者の姿勢に関するエルゴノミクスリスクを評価するために特別に設計されたインタラクティブな視覚クエリシステムを紹介します。このシステムの機能には、労働者の姿勢に関するエルゴノミクスのリスクへの曝露に関する視覚的クエリに応答する視覚質問応答（VQA）と、画像からこれらのリスクのテキスト記述を生成する画像キャプショニング（IC）が含まれています。さらに、この研究では、これらの手法を訓練およびテストするために設計されたデータセットを提案します。系統的なテストの結果、VQA機能は96.5%の精度を達成しました。さらに、ICに対する9つの評価指標を用いた評価と人間の専門家からの評価において、提案されたアプローチは、一般的なデータセットのみで訓練された同じアーキテクチャを使用した手法のパフォーマンスを上回ることが示されました。この研究は、生成的人工知能（AI）技術を用いたインタラクティブなERAの今後の発展に新たな方向性を示します。

2024-12-27T23:25:51

Standard-Deviation-Inspired Regularization for Improving Adversarial Robustness

http://arxiv.org/abs/2412.19947v1

Olukorede Fakorede, Modeste Atsague, Jin Tian

Iowa State University, Mohamed bin Zayed University of Artificial Intelligence

敵対的訓練（AT）は、敵対的攻撃に対する深層ニューラルネットワーク（DNN）のロバスト性を向上させることが確認されています。ATは、敵対的な例を生成して、よりロバストなDNNを訓練するための最小-最大最適化手法です。ATの内部最大化ステップは、入力の実際のクラスに対する損失を増加させます。外部最小化では、内部最大化から得られた敵対的例に対する損失を最小化します。本研究では、敵対的ロバスト性と一般化を改善するための標準偏差に着想を得た（SDI）正則化項を提案します。我々は、ATにおける内部最大化がモデルの出力確率の修正版の標準偏差を最小化することに類似していると主張します。さらに、この修正版の標準偏差を最大化することで、ATフレームワークの外部最小化を補完できると提案します。我々の主張を支持するために、SDI測度が敵対的例を生成するために使用できることを実験的に示します。加えて、SDI正則化項を既存のATバリアントと組み合わせることで、CWやAuto-attackといったより強力な攻撃に対するDNNのロバスト性が向上し、一般化も改善されることを示します。

2024-12-27T22:59:21

Towards Strong AI: Transformational Beliefs and Scientific Creativity

http://arxiv.org/abs/2412.19938v1

Samuel J. Eschker, Chuanhai Liu

Purdue University

強い人工知能（AI）は、人間の知能に匹敵する一般的な認知能力と科学的創造性を備えるものとして想定されています。これには、知識の獲得と問題解決の両方が含まれます。弱いAIにおいては顕著な進展が見られていますが、強いAIの実現は依然として激しい議論と批判的な検討の対象となっています。本論文では、天文学と物理学の歴史における重要な革新を探求し、海王星の発見と、科学の哲学者によって理解される科学的革命の概念に焦点を当てています。これらの洞察に基づいて、科学的創造性のモデル化の基盤として設計された弱い信念の単純な理論的および統計的枠組み、トランスフォーメーショナルビリーフ（TB）枠組みを導入します。選択された統計学の例を通じて、TB枠組みが創造性を理解、分析、さらには促進するための有望な基盤となる可能性を示します。強いAIの開発に向けた道を切り開くものです。最後に、将来の研究の方向性と可能な進展についての考察を述べます。

2024-12-27T22:02:36

Hidformer: Transformer-Style Neural Network in Stock Price Forecasting

http://arxiv.org/abs/2412.19932v1

Kamil Ł. Szydłowski, Jarosław A. Chudziak

本論文では、トランスフォーマーベースのニューラルネットワークの株価予測への応用を調査し、特に機械学習技術と金融市場分析の交差点に焦点を当てています。トランスフォーマーモデルの進化について、その発展の初期段階から金融分野における時系列分析への適応までをレビューし、議論します。本研究の中心となるのは、現在、時系列予測において有望なパフォーマンスを発揮していると認識されているHidformerモデルの探求です。本論文の主な目的は、Hidformerが株価予測のタスクでも有効であるかどうかを判断することです。このわずかに修正されたモデルは、テクニカル分析の原則と高度な機械学習の概念を統合し、株価予測精度を向上させるための実験の枠組みを提供します。Hidformerモデルの性能評価を行い、その有効性を判断するための一連の基準を使用します。我々の発見は、金融時系列予測におけるトランスフォーマーアーキテクチャの実用的な応用についての追加の洞察を提供し、人間の意思決定を含むアルゴリズム取引戦略の改善の可能性を強調します。

2024-12-27T21:34:44

Pivoting B2B platform business models: From platform experimentation to multi-platform integration to ecosystem envelopment

http://arxiv.org/abs/2412.19931v1

Clara Filosa, Marin Jovanovic, Lara Agostini, Anna Nosella

製造業におけるデジタルサービス化の風景は進化しており、従来の製品中心のビジネスモデルからプラットフォームビジネスモデルへの戦略的な移行が特徴です。製造企業は、ビジネス間取引（B2B）プラットフォームを開発するために多様なアプローチを組み合わせることが多く、これによりビジネスモデルに大きな再構成がもたらされます。しかし、彼らはしばしばB2Bプラットフォーム開発の取り組みにおいて失敗に直面し、最初の努力を放棄し、代替のプラットフォーム戦略へとシフトすることになります。したがって、この研究では、エネルギーセクターの製造業者のケーススタディを通じて、B2Bプラットフォームビジネスモデルのための三段階のピボットフレームワークを提示します。これにはプラットフォーム開発とプラットフォーム戦略が含まれます。初期段階では、製造業者は資産ベースの製品販売を資産メンテナンスサービスで補完し、さまざまな機能に対応する複数の独立したB2Bプラットフォームの台頭によって特徴づけられる新たなプラットフォーム化戦略に従いました。次に、顧客の旅路戦略に焦点を当て、企業は人工知能（AI）によって支えられた包括的なプラットフォームへの戦略的なマルチプラットフォーム統合にシフトしました。これは、エネルギー性能に基づく契約に幅広いサービスを統合するプラットフォームビジネスモデルの成熟を示していました。最後に、企業のプラットフォームビジネスモデルの進化の最終段階は、外部のステークホルダーに対してオープンな意図的なプラットフォーム戦略を採用し、より広範なプラットフォームエコシステム内でデータ駆動型の提供を包み込みました。この記事は、B2Bプラットフォームビジネスモデルおよびデジタルサービス化に関する文献を前進させ、漸進的なアプローチと戦略的なピボットの有効性を強調します。

2024-12-27T21:34:05

http://arxiv.org/abs/2412.19927v1

Shengyu Chen, Peyman Givi, Can Zheng, Xiaowei Jia

University of Pittsburgh

乱流の正確なシミュレーションは、気候科学、淡水科学、エネルギー効率的製造など、さまざまな科学および工学分野において非常に重要です。乱流のシミュレーションの分野では、大規模渦シミュレーション（LES）が直接数値シミュレーション（DNS）に対する一般的な代替手段として登場し、計算効率を提供しています。しかし、LESは乱流の輸送スケールの全スペクトルを正確に捉えることができず、低い空間解像度でのみ存在します。低解像度のLESデータから高忠実度のDNSデータを再構築することは、多くの応用にとって不可欠ですが、主に乱流の複雑な時空間的特性により、既存の超解像技術に対して重大な課題をもたらします。本論文では、流れのダイナミクスをモデル化するために物理的知識を活用した新しい流れ再構築アプローチを提案します。従来の超解像技術とは異なり、提案されたアプローチは、物理的制約を強制し、時間の経過に伴う累積的な再構築誤差を緩和するために、テスト段階でのみLESデータを使用します。さらに、異なる解像度での流れデータ再構築を可能にするための特徴サンプリング戦略が開発されています。2つの異なる乱流データセットに関する結果は、高解像度のDNSデータを再構築する提案手法の有効性、流れ輸送の固有の物理的属性を保持し、異なる解像度でのDNS再構築を達成することを示しています。

2024-12-27T21:22:18

HADES: Hardware Accelerated Decoding for Efficient Speculation in Large Language Models

http://arxiv.org/abs/2412.19925v1

Ze Yang, Yihong Jin, Xinhe Xu

大規模言語モデル（LLM）は、人間のようなテキストを理解し生成することによって、自然言語処理に革命をもたらしました。しかし、より洗練されたLLMに対する需要の高まりは、その規模と複雑さに起因して、重要な計算上の課題を提示しています。本論文では、LLMの性能とエネルギー効率を向上させるための新しいアプローチであるハードウェア加速デコーディング（HADES）を紹介します。私たちは、既存の文献ではこれまで探求されてこなかった、ハードウェアレベルの投機的デコーディングサポートを備えたLLMアクセラレーターの設計について取り組みます。私たちの研究は、投機的デコーディングがLLM操作の効率を大幅に改善できる方法を示し、これらのモデルのより高度で実用的なアプリケーションへの道を切り開きます。

2024-12-27T21:19:01

Identifying Cocoa Pollinators: A Deep Learning Dataset

http://arxiv.org/abs/2412.19915v1

Wenxiu Xu, Saba Ghorbani Bazegar, Dong Sheng, Manuel Toledo-Hernandez, ZhenZhong Lan, Thomas Cherico Wanger

ココアは数十億ドル規模の産業ですが、受粉を通じて収量を改善するための研究は限られています。新しい埋め込みハードウェアとAIに基づくデータ分析は、ココアの花を訪れる生物、その同定、さらには収量に対する影響についての情報を進展させています。私たちは、Ceratopogonidae、Formicidae、Aphididae、Araneae、Encyrtidaeの5,792枚の画像と、1,082枚の背景ココア花画像を含む最初のココア花訪問者データセットを提示します。このデータセットは、中国海南省のココアプランテーションに埋め込まれたカメラによって収集された2年間にわたる2300万枚の画像からキュレーションされました。私たちは、異なるサイズのYOLOv8モデルを使用し、トレーニングセットの背景画像比率を徐々に増やすことで、最も性能の良いモデルを特定する方法を示します。中サイズのYOLOv8モデルは、8%の背景画像で最良の結果を達成しました（F1スコア0.71、mAP50 0.70）。全体として、このデータセットは、低コントラストの画像や困難な検出対象の画像に対する深層学習モデルアーキテクチャの性能を比較するのに役立ちます。このデータは、受粉モニタリングプロジェクトを通じて持続可能なココア生産を進展させる今後の取り組みを支援することができます。

2024-12-27T20:27:52

Leveraging Scene Geometry and Depth Information for Robust Image Deraining

http://arxiv.org/abs/2412.19913v1

Ningning Xu, Jidong J. Yang

University of Georgia, Smart Mobility and Infrastructure Lab

画像の雨除けは、雨天条件における自動運転車の視覚を向上させ、安全な運転に寄与する大きな可能性を持っています。これまでの研究は、主に単一のネットワークアーキテクチャを用いて雨除け画像を生成することに焦点を当ててきました。しかし、これらはしばしばシーンに埋め込まれた豊富な事前知識を十分に活用できていません。特に、ほとんどの手法は、シーンの形状に関する貴重な文脈を提供し、より堅牢な雨除けをガイドすることができる深度情報を見逃しています。本研究では、雨除けのためのオートエンコーダー、深度情報を取り入れる補助ネットワーク、および雨天と晴天のシーン間の特徴の一貫性を強化するための2つの監視ネットワークを統合した新しい学習フレームワークを提案します。このマルチネットワーク設計により、我々のモデルは基盤となるシーン構造を効果的に捉えることができ、より明瞭で正確な雨除け画像を生成し、自動運転車の物体検出を改善します。広く使用されている3つのデータセットに対して行った広範な実験は、我々の提案手法の有効性を示しました。

2024-12-27T20:18:46

Evaluate Summarization in Fine-Granularity: Auto Evaluation with LLM

http://arxiv.org/abs/2412.19906v1

Dong Yuan, Eti Rastogi, Fen Zhao, Sagar Goyal, Gautam Naik, Sree Prasanna Rajagopal

DeepScribe Inc.

情報の指数関数的成長と効率的な情報消費の必要性に伴い、要約の重要性が高まっています。要約を正確かつ客観的に評価することは、特に内容が豊富な長文や非構造化テキストを扱う際に、大きな課題となります。既存の手法であるROUGE（Lin, 2004）や埋め込み類似度は、しばしば人間の判断との相関が低く、直感的に理解しづらいため、要約の真の質を測るのが難しくなっています。大規模言語モデル（LLM）は主観的なレビューを模倣することができますが、主観的なスコアは解釈や正当化が難しいです。また、モデルやプロンプトのトーンを変更することで簡単に操作される可能性があります。本論文では、これらの課題に対処するために設計された新しい評価手法およびツールを紹介します。これにより、要約成果物のより包括的で正確、かつ解釈可能な評価が提供されます。我々の手法（SumAutoEval）は、異なる粒度レベルでメトリクスを提案・評価し、完全性、正確性、一貫性、可読性といった4つの重要な次元において客観的スコアを提供します。私たちは、SumAutoEvalが出力の質の理解を改善し、より良い人間相関を示すことを実証的に示します。

2024-12-27T19:42:25

Can AI Help with Your Personal Finances?

http://arxiv.org/abs/2412.19784v1

Oudom Hean, Utsha Saha, Binita Saha

近年、大規模言語モデル（LLM）は人工知能（AI）における革新的な発展として登場し、産業界や学界から大きな注目を集めています。膨大なデータセットで訓練されたこれらの高度なAIシステムは、印象的な自然言語処理およびコンテンツ生成能力を示します。本論文では、アメリカ合衆国における個人財務の主要な課題に対応するためのLLMの可能性を探求します。住宅ローン、税金、ローン、投資などのトピックに関して、正確な財務アドバイスを提供する能力を評価するために、OpenAIのChatGPT、GoogleのGemini、AnthropicのClaude、MetaのLlamaなど、いくつかの主要なLLMを評価します。我々の調査結果は、これらのモデルが平均的に約70%の正確性を達成する一方で、特定の分野で顕著な制約があることを示しています。具体的には、LLMは複雑な財務質問に対して正確な回答を提供するのに苦労しており、トピックごとにパフォーマンスが大きく異なることがわかりました。これらの制約にもかかわらず、分析結果はこれらのモデルの新しいバージョンにおける顕著な改善を明らかにしており、個人や財務アドバイザーにとっての有用性の向上を強調しています。これらのAIシステムが進化し続ける中、個人財務におけるAI主導のアプリケーションを推進する潜在能力はますます有望になってきています。

2024-12-27T18:25:27

Enhancing Cognitive Diagnosis by Modeling Learner Cognitive Structure State

http://arxiv.org/abs/2412.19759v1

Zhifu Chen, Hengnian Gu, Jin Peng Zhou, Dongdai Zhou

Northeast Normal University, Cornell University

認知診断は、知能教育の基本的な研究分野であり、個々の認知状態を測定することを目的としています。理論的には、個人の認知状態はその認知構造状態と本質的に同等です。認知構造状態は、知識状態（KS）と知識構造状態（KUS）の2つの重要な要素から構成されています。知識状態は、学習者が個々の概念をマスターしている程度を反映しており、認知診断の中で広く研究されている焦点です。対照的に、知識構造状態は、概念間の関係に対する学習者の理解を表しており、十分にモデル化されていません。学習者の認知構造は、意味のある学びを促進し、学業成績を形成するために不可欠です。さまざまな方法が提案されていますが、ほとんどはKSの評価に焦点を当てており、KUSの評価には失敗しています。このギャップを埋めるために、私たちは革新的で効果的なフレームワークCSCD（認知構造状態に基づく認知診断）を提案します。このフレームワークは、診断評価の中で学習者の認知構造をモデル化するための新しい枠組みを導入し、認知構造のモデル化に新たな洞察を提供します。具体的には、エッジ特徴に基づくグラフアテンションネットワークを用いて、学習者の認知構造状態を表現し、KSとKUSを効果的に統合します。実際のデータセットで実施した広範な実験は、診断の正確性と解釈可能性の観点から、このフレームワークの優れた性能を示しています。

2024-12-27T17:41:39

"Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)

http://arxiv.org/abs/2412.19755v1

Pritam Sil, Bhaskaran Raman, Pushpak Bhattacharyya

Indian Institute of Technology, Bombay

個別のフィードバックは、学生の学習プロセスにおいて非常に重要な役割を果たします。既存のシステムは多肢選択問題（MCQ）ベースの評価においてフィードバックを提供するのに優れていますが、こちらの研究は主観的でオープンエンドの質問により焦点を当てています。これは、自動短文回答評価（ASAG）とフィードバックの問題に似ています。さらに、学生の回答と参照回答に画像が含まれる場合のシナリオに対処するため、従来のASAGフィードバック問題に対するマルチモーダル短文回答評価フィードバック（MMSAF）問題を導入します。加えて、2197のデータポイントを持つMMSAFデータセットを紹介し、このようなデータセットを生成するための自動化フレームワークを提供します。このデータセットに対する既存のLLMに関する評価では、正確さレベルのラベルに対して55％、画像の関連性ラベルに対して75％の全体的な精度を達成し、専門家によって評価されたLLM生成フィードバックの正確さレベルは5点満点中4.27でした。専門家によると、Pixtralはすべての指標で4以上の評価を得ており、人間の判断により適合していることを示しており、学生を支援する最良のソリューションであるとされています。

2024-12-27T17:33:39

Complement or substitute? How AI increases the demand for human skills

http://arxiv.org/abs/2412.19754v1

Elina Mäkelä, Fabian Stephany

AIが人間の仕事を代替するのか補完するのかという問題は、仕事の未来に関する議論の中心となっています。本稿では、2018年から2023年までの12百万件のオンライン求人情報を分析し、AIがアメリカ経済に及ぼすスキル需要と報酬への影響を調査します。内部的な効果（職務内の代替と補完）と外部的な効果（職業、産業、地域間の影響）について検討します。私たちの調査結果は、デジタルリテラシー、チームワーク、レジリエンスなどのAI補完的スキルの需要が大幅に増加しており、データサイエンティストのようなAI関連の職業においてこれらのスキルに対する賃金プレミアムも上昇していることを明らかにしています。一方で、カスタマーサービスやテキストレビューを含む代替スキルは、AI関連の職位において需要と価値が共に減少しています。外部的な効果を検討したところ、特定の産業や地域におけるAI関連の職の成長に関連して、非AI職における補完的スキルの需要が著しく増加していることがわかりました。同時に、代替スキルを必要とする非AI職においては中程度の減少が見られます。全体的に、AIの補完的効果はその代替効果の最大50%増大し、スキルに対する正の需要をもたらしています。これらの結果は英国とオーストラリアでも再現されており、AIが労働力のスキル要件に与える変革的影響を強調しています。これにより、再スキル化の取り組みは、技術的なAIスキルだけでなく、倫理やデジタルリテラシーといった補完的スキルも優先すべきであることが示唆されています。

2024-12-27T17:26:30

IMAGINE: An 8-to-1b 22nm FD-SOI Compute-In-Memory CNN Accelerator With an End-to-End Analog Charge-Based 0.15-8POPS/W Macro Featuring Distribution-Aware Data Reshaping

http://arxiv.org/abs/2412.19750v1

Adrian Kneip, Martin Lefebvre, Pol Maistriaux, David Bol

Delft University of Technology, UCLouvain, Fonds National de la Recherche Scientifique

チャージドメインのメモリ内計算（CIM）SRAMは、エッジでのサブ8ビット畳み込みニューラルネットワーク（CNN）を処理するための計算効率と精度の魅力的な妥協案として最近注目を集めています。しかし、一般的に固定のドットプロダクト（DP）電圧スイングを使用しており、これがデータ依存のクリッピングや切り捨て効果による効果的なADCビットの損失を引き起こし、貴重な変換エネルギーや計算精度を浪費します。これを克服するために、我々はIMAGINEを提案します。これは、22nm FD-SOIに基づくワークロード適応型の1-to-8ビットCIM-CNNアクセラレータです。IMAGINEは、消費電力の大きいDACを回避する入力直列、重み並列の積算に基づいたマルチビットDPを使用した1152x256のエンドツーエンドのチャージベースマクロを導入しています。チャネルごとのDPアレイ分割とアナログバッチ正規化（ABN）の線形in-ADC実装を組み合わせることで適応スイングを実現し、分布に基づくデータ再形成を達成しています。重要な設計制約は、CIM対応のCNNトレーニングフレームワーク内でポストシリコン等価ノイズを含めることで緩和されています。計測結果は、0.3/0.6Vでのシステムレベルエネルギー効率が40TOPS/Wであることを示しており、MNISTとCIFAR-10で競争力のある精度を達成しています。さらに、187kB/mm2のマクロのピークエネルギー効率と面積効率は、それぞれ0.15-8POPS/Wおよび2.6-154TOPS/mm2に達し、8-to-1ビット計算精度にスケールしています。これらの結果は、従来のチャージベース設計を3倍から5倍上回り、メモリ内再スケーリングを線形に提供する初めての成果となっています。

2024-12-27T17:18:15

Enhancing Adversarial Robustness of Deep Neural Networks Through Supervised Contrastive Learning

http://arxiv.org/abs/2412.19747v1

Longwei Wang, Navid Nayyem, Abdullah Rakin

University of South Dakota

敵対的攻撃は、畳み込みニューラルネットワークの脆弱性を悪用し、認識できない摂動を導入することで誤分類を引き起こし、特徴表現や意思決定境界の弱点を露呈させます。本論文では、敵対的堅牢性を向上させるために、教師ありコントラスト学習とマージンベースのコントラスト損失を組み合わせた新しいフレームワークを提案します。教師ありコントラスト学習は、同じクラス内のサンプルの埋め込みをクラスタリングし、異なるクラスのものを分離することで特徴空間の構造を改善します。サポートベクターマシンに触発されたマージンベースのコントラスト損失は、明確なマージンを持つ堅牢な意思決定境界を作成するために明示的な制約を強制します。ResNet-18バックボーンを用いたCIFAR-100データセットでの実験は、Fast Gradient Sign Method攻撃下での敵対的精度における堅牢性の向上を示しています。

2024-12-27T17:14:52

Adaptive Context-Aware Multi-Path Transmission Control for VR/AR Content: A Deep Reinforcement Learning Approach

http://arxiv.org/abs/2412.19737v1

Shakil Ahmed, Saifur Rahman Sabuj, Ashfaq Khokhar

Iowa State University, BRAC University

この論文では、データ集約型アプリケーション（拡張現実（AR）や仮想現実（VR）ストリーミングなど）のパフォーマンスを最適化するために設計された適応型コンテキスト対応マルチパストランスミッションコントロールプロトコル（ACMPTCP）を紹介します。ACMPTCPは、深層強化学習（DRL）を活用して、俊敏なエンドツーエンドのパス管理と最適な帯域幅の割り当てを実現し、多様なネットワーク環境でのパス再調整を容易にすることで、従来のMPTCPの限界に対処します。

2024-12-27T16:56:12

Can Large Language Models Adapt to Other Agents In-Context?

http://arxiv.org/abs/2412.19726v1

Matthew Riemer, Zahra Ashktorab, Djallel Bouneffouf, Payel Das, Miao Liu, Justin D. Weisz, Murray Campbell

研究コミュニティは、多様な人々と対話するために、よりダイナミックでパーソナライズされたAIアシスタントを構築することを目指しており、大規模言語モデル（LLM）の心の理論能力を評価することへの関心が高まっています。実際、最近のいくつかの研究は、LLMの心の理論能力が非常に印象的であり、人間レベルのパフォーマンスに近いことを示唆しています。本論文は、この見解に反論し、過去の研究がエージェントのパフォーマンスを直接測定していなかった可能性があり、その結果、錯覚的な発見につながったと主張します。私たちは、他者の行動を予測するエージェントの能力を測定する「リテラルな心の理論」と、エージェントの行動予測に基づいて文脈内で適応する「機能的な心の理論」との間に強い区別を引きます。私たちは、トップパフォーマンスのオープンソースLLMがリテラルな心の理論において強力な能力を示すかもしれないが、機能的な心の理論では苦労しているように見えることを発見しました—これは、パートナーポリシーが非常に単純であっても同様です。この研究は、新しい状況に適応する際のLLMにおける帰納的バイアスの二面性を強調することを目的としています。このバイアスは限られた期間内での強力なパフォーマンスにつながる一方で、最適な長期的行動への収束を妨げることがよくあります。

2024-12-27T16:30:12

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

http://arxiv.org/abs/2412.19723v1

Qiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu

The University of Hong Kong, Johns Hopkins University, Shanghai Jiao Tong University, University of Oxford, Hong Kong University of Science and Technology, Shanghai AI Laboratory

グラフィカルユーザーインターフェイス（GUI）エージェントは、ビジョン・ランゲージモデル（VLM）によって人間のようなコンピューター制御能力を示しています。デジタル自動化の進展において有用であるにもかかわらず、高品質な軌道データを収集するという重大なボトルネックが存在します。このようなデータ収集の一般的な手法は、人間の監視に依存するか、事前に定義されたタスクを実行することで合成データを生成するものであり、いずれもリソースを多く消費するか、データの質を保証することができません。さらに、これらの手法は限られたデータの多様性を持ち、合成データと実世界の環境との間に значавадなギャップがあります。これらの課題に対処するために、OS-Genesisを提案します。これは、従来の軌道収集プロセスを逆転させた新しいGUIデータ合成パイプラインです。事前に定義されたタスクに依存するのではなく、OS-Genesisはエージェントがまず環境を認識し、段階的なインタラクションを行い、その後過去を振り返って高品質なタスクを導き出し、軌道レベルの探索を可能にします。次に、生成された軌道の質を確保するために、軌道報酬モデルが使用されます。OS-Genesisを用いてGUIエージェントを訓練すると、非常に挑戦的なオンラインベンチマークでのパフォーマンスが大幅に向上することを示します。詳細な分析により、OS-Genesisの効率性と、既存の合成手法と比較したその優れたデータ品質と多様性がさらに検証されます。私たちのコード、データ、チェックポイントは、\href{https://qiushisun.github.io/OS-Genesis-Home/}{OS-Genesisホームページ}で入手できます。

2024-12-27T16:21:58

Text2Insight: Transform natural language text into insights seamlessly using multi-model architecture

http://arxiv.org/abs/2412.19718v1

Pradeep Sain

ユーザー中心の動的データ分析と可視化の需要が、医療、金融、研究などの分野で高まっています。従来の可視化ツールは、その静的で事前定義された性質のために、個々のユーザーのニーズを満たすことができないことがよくあります。このギャップに対処するために、Text2Insightが導入されました。これは、ユーザーが定義した自然言語の要件に基づいてカスタマイズされたデータ分析と可視化を提供する革新的なソリューションです。

Text2Insightは、マルチモデルアーキテクチャを活用して、ユーザーの入力を実行可能なインサイトと動的な可視化に変換します。方法論は、入力データセットを分析して列や値などの構造的詳細を抽出することから始まります。事前トレーニングされたLlama3モデルがユーザーの自然言語クエリをSQLクエリに変換し、さらにNamed Entity Recognition（NER）モデルを使用して精度を改善します。チャート予測器は最適な可視化タイプを決定し、Llama3モデルはSQLクエリの結果に基づいてインサイトを生成します。出力は、ユーザーフレンドリーで視覚的に情報豊富なチャートです。分析能力を強化するために、システムはBERTフレームワークを使用した質疑応答モデルと予測モデルを統合しています。これらのモデルは、過去のデータに対するインサイトを提供し、未来のトレンドを予測します。

Text2Insightの性能評価は、その効果を示しており、高い精度（99%）、適合率（100%）、再現率（99%）、F1スコア（99%）を達成し、BLEUスコアは0.5です。質疑応答モデルは89%の精度を達成し、予測モデルは70%の精度を達成しました。これらの結果は、Text2Insightが自然言語テキストを動的なユーザー特有のデータ分析と可視化に変換するための堅牢で実行可能なソリューションであることを検証しています。

2024-12-27T16:17:22

Toward Adaptive Reasoning in Large Language Models with Thought Rollback

http://arxiv.org/abs/2412.19707v1

Sijia Chen, Baochun Li

大規模言語モデル（LLM）は、段階的な推論を用いてさまざまなタスクを解決するために日常的に使用されてきました。しかし、中間推論のステップ、または思考の構造は、鎖、木、または非循環有向グラフのように硬直しており、一方向性です。その結果、得られた柔軟性のない前向きな推論は、難しいタスクに対処できず、LLMが頻繁に誤った応答、すなわち「幻覚」を引き起こすと失敗してしまう可能性があります。本論文では、思考の構造を適応的に構築し、「幻覚」のもとで問題解決に向けた効果的な推論を維持するための新しい推論フレームワーク、「思考ロールバック（TR）」を提案します。TRのコアメカニズムは思考をロールバックすることで、これによりLLMは思考に対する誤り分析を行い、修正のために以前の誤った思考にロールバックできるようになります。次に、そのような試行錯誤をプロンプトに含めてLLMを誘導することで、各ロールバックはより信頼できる推論経路につながります。したがって、人間の注釈なしでシンプルなプロンプトから始めることで、TRを持つLLMは適応的に徐々に正しい解決策のための思考を探索します。数学問題やマルチタスク推論に関する包括的な実験は、問題解決率とインタラクションコストの面でTRの最先端のパフォーマンスを示しています。例えば、TRを用いたGPT-4の解決率は、MATHデータセットにおいて現在の最高のものを$9\%$上回っています。

2024-12-27T16:02:34

An Integrated Optimization and Deep Learning Pipeline for Predicting Live Birth Success in IVF Using Feature Optimization and Transformer-Based Models

http://arxiv.org/abs/2412.19696v1

Arezoo Borji, Hossam Haick, Birgit Pohn, Antonia Graf, Jana Zakall, S M Ragib Shahriar Islam, Gernot Kronreif, Daniel Kovatchki, Heinz Strohmer, Sepideh Hatamikia

体外受精（IVF）は広く利用されている補助生殖技術ですが、臨床的、人口統計的、手続き的要因の多面的な相互作用により、その成功を予測することは依然として難しい課題です。本研究では、IVF治療における生児出産結果を予測することを目的とした強力な人工知能（AI）パイプラインを開発しました。このパイプラインは、2010年から2018年までの人間の受精および胚学に関する権威機関（HFEA）から入手した匿名化されたデータを使用しています。生児出産の成功を二項結果（成功/失敗）としての予測性能を評価するために、主成分分析（PCA）や粒子群最適化（PSO）などのさまざまな特徴選択手法を、ランダムフォレスト（RF）や決定木などの伝統的な機械学習ベースの分類器、およびカスタムトランスフォーマーベースのモデルやアテンションメカニズムを備えたタブトランスフォーマーモデルなどの深層学習ベースの分類器と統合しました。我々の研究では、特徴選択にPSOを組み合わせてタブトランスフォーマーに基づく深層学習モデルを使用することで、99.50%の精度と99.96%のAUCを達成し、生児出産を予測するための優れた性能を示しました。この研究は、IVFにおける生児出産結果を予測するための高精度なAIパイプラインを確立し、個別化された生殖治療を強化する可能性を示しています。

2024-12-27T15:46:59

A Review on the Integration of Artificial Intelligence and Medical Imaging in IVF Ovarian Stimulation

http://arxiv.org/abs/2412.19688v1

Jana Zakall, Birgit Pohn, Antonia Graf, Daniel Kovatchki, Arezoo Borji, Ragib Shahriar Islam, Hossam Haick, Heinz Strohmer, Sepideh Hatamikia

人工知能（AI）は、体外受精（IVF）における意思決定の強化と治療プロトコルの最適化に向けた強力なツールとして浮上しています。特に、AIはIVFプロセスの卵巣刺激段階における意思決定のサポートにおいて重要な可能性を示しています。このレビューは、卵巣刺激における医療画像と組み合わせたAIの応用に焦点を当てた研究を評価し、方法論、結果、現在の制限について検討します。この分野に関する13の研究の分析から、AIアルゴリズムが最適なホルモン投与量、トリガータイミング、卵子回収結果の予測において顕著な可能性を示した一方で、使用された医療画像データは主に基本的な定量化（卵胞のサイズや数など）を含む2次元（2D）超音波からのものであり、直接的な特徴抽出や高度な画像分析技術の利用は限られていることが明らかになりました。これは、高度な画像分析手法（深層学習など）や、三次元（3D）超音波のようなより多様な画像モダリティの活用が、より深い洞察を解き放つことができる未開拓の機会が存在することを示しています。さらに、ほとんどの研究において説明可能なAI（XAI）が欠けていることは、AI主導の意思決定の透明性やトレーサビリティについての懸念を引き起こします。これは、臨床での採用および信頼にとって重要な要素です。さらに、多くの研究が単一拠点のデザインや小規模なデータセットに依存しており、結果の一般化可能性を制限しています。このレビューは、高度な画像分析技術を説明可能なAIの方法論と統合する必要性、及び多施設共同研究や大規模なデータセットを活用する重要性を強調しています。これらのギャップに取り組むことは、卵巣刺激管理を向上させ、IVFの結果を改善する効率的で個別化されたデータ駆動の治療経路を切り開く可能性があります。

2024-12-27T15:29:08

A Large-scale Interpretable Multi-modality Benchmark for Facial Image Forgery Localization

http://arxiv.org/abs/2412.19685v1

Jingchun Lian, Lingyu Liu, Yaxiong Wang, Yujiao Wu, Li Zhu, Zhedong Zheng

Xi’an Jiaotong University, Hefei University of Technology, CSIRO, University of Macau, Australia

画像改ざんの局所化は、画像内の改ざんされたピクセルを特定することに焦点を当てており、重要な進展を遂げています。従来のアプローチは、この課題を画像セグメンテーションの変種としてモデル化し、改ざんされた領域のバイナリセグメンテーションを最終成果物として扱うことが一般的です。しかし、基本的なバイナリ改ざんマスクは、モデルの予測を説明するには不十分であると論じます。それは、モデルが特定の領域を指摘する理由を明確にせず、すべての改ざんされたピクセルを同様に扱うため、最も偽のように見える部分を見つけるのが難しくなります。本研究では、改ざん画像に焦点を当てた顕著な領域解釈を生成することで、前述の制限を軽減します。そのために、ディープフェイク技術を用いて操作された顔画像を含み、手動で解釈可能なテキスト注釈とペアにしたMulti-Modal Trampe Tracing (MMTT)データセットを作成します。高品質な注釈を収集するために、アノテーターには改ざんされた画像を注意深く観察し、改ざん領域の典型的な特徴を詳述するよう指示します。その結果、128,303の画像-テキストペアのデータセットを収集しました。MMTTデータセットを活用して、同時に改ざんの局所化と解釈を行うために設計されたアーキテクチャ「ForgeryTalker」を開発します。ForgeryTalkerはまず、説明テキスト内の重要な手がかりを特定するために改ざんプロンプターネットワークを訓練します。次に、領域プロンプターを多モーダル大規模言語モデルに組み込み、局所化と解釈の二つの目標を達成するためにファインチューニングを行います。MMTTデータセットに対して実施した広範な実験により、提案したモデルの優れた性能を確認しました。データセット、コード、および事前訓練済みのチェックポイントは、さらなる研究を促進し、結果の再現性を確保するために公開される予定です。

2024-12-27T15:23:39

Boosting Private Domain Understanding of Efficient MLLMs: A Tuning-free, Adaptive, Universal Prompt Optimization Framework

http://arxiv.org/abs/2412.19684v1

Jiang Liu, Bolin Li, Haoyuan Li, Tianwei Lin, Wenqiao Zhang, Tao Zhong, Zhelun Yu, Jinghao Wei, Hao Cheng, Hao Jiang, Zheqi Lv, Juncheng Li, Siliang Tang, Yueting Zhuang

Zhejiang University, Alibaba Group

効率的なマルチモーダル大規模言語モデル（EMLLMs）は、マルチモーダル大規模言語モデル（MLLMs）とは対照的に、モデルサイズと計算コストを削減し、リソース制約のあるデバイスにしばしば導入されます。ただし、データプライバシーの懸念から、既存のオープンソースEMLLMsは、事前学習プロセス中にプライベートなドメイン特有のデータにアクセスすることがほとんどないため、特定のビジネスシナリオのようなデバイス特有のドメインに直接適用するのが難しくなっています。この弱点に対処するために、本論文ではEMLLMsをプライベートドメインに効率的に適応させることに焦点を当て、具体的には次の2つの領域に取り組みます：1）データ要件を削減する方法、2）パラメータの微調整を回避する方法。具体的には、我々はチューニングフリーで適応的な普遍的プロンプト最適化フレームワーク（略して\textit{\textbf{\ourmethod{}}}）を提案します。これは2つの段階で構成されています：1）事前定義されたプロンプトが強化検索戦略に基づいて最適化戦略ツリーを生成し、最適化の事前知識を得る；2）プロンプト反射は最適化の事前知識に基づいてプロンプトを初期化し、その後自己反省によりプロンプトをさらに探索して洗練します。これにより、\ourmethod{}はプライベートなドメイン特有のデータを処理するための「理想的なプロンプト」を優雅に生成します。我々の方法はパラメータの微調整を必要とせず、プライベートデータのデータ分布に迅速に適応するためにわずかなデータしか必要としません。複数のタスクにおける広範な実験により、提案する\ourmethod{}はベースラインと比較して、効率性とパフォーマンスの両方を大幅に改善することが示されました。

2024-12-27T15:21:17

CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs

http://arxiv.org/abs/2412.19663v1

Siyu Wang, Cailian Chen, Xinyi Le, Qimin Xu, Lei Xu, Yanzhou Zhang, Jie Yang

コンピュータ支援設計（CAD）は、正確な2Dおよび3Dモデリング、広範な分析、最適化を可能にすることで、設計プロセスの効率、精度、革新性を大幅に向上させます。既存のCADモデルを作成する方法は、潜在ベクトルまたはポイントクラウドに依存しており、これらは取得が困難で保存コストが高くなります。最近のマルチモーダル大規模言語モデル（MLLM）の進展は、研究者が自然言語の指示や画像をCADモデルの構築に使用することを促しています。ただし、これらのモデルは、正確な3D空間位置と向きを推測するのに苦労しており、幾何学を構築するための空間3Dの出発点や押出し方向を決定する際に不正確さを生じています。本研究では、単一の画像またはテキスト記述を入力として受け取る空間推論を強化したMLLMを備えたCAD合成手法であるCAD-GPTを紹介します。正確な空間推論を実現するために、私たちのアプローチでは3Dモデリング空間メカニズムを導入しています。この方法は、特化した空間展開メカニズムを使用して、3D空間位置と3Dスケッチ平面回転角を1D言語特徴空間にマッピングし、2Dスケッチ座標を適切な平面空間に離散化して、空間の出発位置、スケッチの向き、および2Dスケッチ座標の変換を正確に決定できるようにします。広範な実験により、CAD-GPTはCADモデル合成において既存の最先端手法を定量的および定性的に一貫して上回ることが示されています。

2024-12-27T14:19:36

Chimera: A Block-Based Neural Architecture Search Framework for Event-Based Object Detection

http://arxiv.org/abs/2412.19646v1

Diego A. Silva, Ahmed Elsheikh, Kamilya Smagulova, Mohammed E. Fouda, Ahmed M. Eltawil

KAUST, Cairo University, Compumacy for AI Solutions

イベントベースカメラは、人間の目を模したセンサーであり、高速での頑健性と低消費電力などの利点を提供します。確立されたディープラーニング技術は、イベントデータの処理において効果を示しています。Chimeraは、イベントベースの物体検出のために特別に設計されたブロックベースのニューラルアーキテクチャ探索（NAS）フレームワークであり、RGB領域の処理方法をイベント領域に適応させるための体系的なアプローチを目指しています。Chimeraの設計空間は、注意ブロック、畳み込み、状態空間モデル、MLPミキサーに基づくアーキテクチャなど、さまざまなマクロブロックから構成されており、ローカルおよびグローバルな処理能力の間で価値のあるトレードオフを提供し、異なるレベルの複雑さを持っています。PErson Detection in Robotics（PEDRo）データセットでの結果は、最新の最先端モデルと比較して同等のパフォーマンスレベルを示し、平均パラメータ削減率は1.6倍となりました。

2024-12-27T13:50:44

Xmodel-2 Technical Report

http://arxiv.org/abs/2412.19638v1

Wang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling

Xmodel-2は、推論タスク専用に設計された12億パラメータを持つ大型言語モデルです。そのアーキテクチャにより、異なるモデルのスケールが統一されたハイパーパラメータのセットを共有でき、より小さなモデルでの広範な実験と、最適な設定を大きなモデルにシームレスに転送することが可能になります。トレーニングの効率と安定性を最大化するために、Xmodel-2はMiniCPMからのWSD学習率スケジューラを採用しています。多様なソースからの1.5兆トークンで事前トレーニングされたXmodel-2は、複雑な推論およびエージェントベースのタスクで最先端の性能を達成し、低コストのトレーニングを維持しています。この結果は、効率的なモデル設計とトレーニング戦略が推論能力を向上させる可能性を示しています。モデルのチェックポイントとコードは、GitHubのhttps://github.com/XiaoduoAILab/Xmodel-2 で公開されています。

2024-12-27T13:32:10

Gradient Weight-normalized Low-rank Projection for Efficient LLM Training

http://arxiv.org/abs/2412.19616v1

Jia-Hong Huang, Yixian Shen, Hongyi Zhu, Stevan Rudinac, Evangelos Kanoulas

大規模言語モデル（LLM）は、さまざまなタスクで優れたパフォーマンスを示していますが、計算リソースへの要求が増大することで、特にダウンストリームタスクのための完全なファインチューニングの広範な利用において重大な課題が生じています。この課題に対処するために、パラメーター効率の良いファインチューニング（PEFT）手法が開発されましたが、これらは完全なファインチューニングと比較してパフォーマンスが劣ることが多く、メモリ効率にも苦しんでいます。本研究では、パラメーターおよびメモリ効率を向上させながら、完全なファインチューニングと同等のパフォーマンスを維持する新しいアプローチである勾配重み正規化低ランクプロジェクション（GradNormLoRP）を紹介します。GradNormLoRPは、勾配の条件を改善するために重み行列を正規化し、最適化中の収束を促進します。さらに、重みと勾配行列に対して低ランク近似を適用し、トレーニング中のメモリ使用量を大幅に削減します。広範な実験により、私たちの8ビットGradNormLoRPは最適化メモリ使用量を最大89.5%削減し、NVIDIA RTX 4090のようなコンシューマーレベルのGPU上でLLaMA 7Bなどの大規模LLMの事前学習を追加の推論コストなしで可能にします。さらに、GradNormLoRPは既存の低ランク手法よりもファインチューニングタスクで優れた結果を出します。例えば、RoBERTaモデルをすべてのGLUEタスクでランク8でファインチューニングした場合、GradNormLoRPは平均スコア80.65を達成し、LoRAのスコア79.23を上回ります。これらの結果は、GradNormLoRPが効率的なLLMの事前学習とファインチューニングのための有望な代替手段であることを裏付けています。ソースコードと付録: https://github.com/Jhhuangkay/Gradient-Weight-normalized-Low-rank-Projection-for-Efficient-LLM-Training

2024-12-27T12:23:39

Bidding Games on Markov Decision Processes with Quantitative Reachability Objectives

http://arxiv.org/abs/2412.19609v1

Guy Avni, Martin Kurečka, Kaushik Mallik, Petr Novotný, Suman Sadhukhan

Haifa University, Masaryk University, IMDEA

グラフゲームはマルチエージェントシステムとその環境における戦略的推論の基本となるものです。我々は、確率的な環境の不確実性とエージェント間のオークションベースの相互作用を組み合わせた新しいタイプのグラフゲームを研究します。これは、（有限の）マルコフ決定過程（MDP）上の入札ゲームとして形式化されています。通常、MDPでは、単一の意思決定者が一連のアクションを選択し、無限の経路に対する確率分布を生成します。MDP上の入札ゲームでは、「到達可能性プレイヤー」と「安全性プレイヤー」と呼ばれる2人のプレイヤーが、各ステップで次のアクションを選ぶ権利を得るために入札を行います。到達可能性プレイヤーの目標はターゲット頂点に到達する確率を最大化することであり、安全性プレイヤーの目標はそれを最小化することです。これらのゲームは、従来のグラフ上の入札ゲームを一般化したものであり、既存の分析手法は拡張されません。例えば、従来の入札ゲームの中心的な特性は、到達可能性プレイヤーが勝つことを保証するために必要かつ十分な予算であるしきい値予算の存在です。MDPでは、しきい値は予算とターゲットに到達する確率との関係になります。我々は、一般的なMDPのしきい値と最適方針を近似する価値反復アルゴリズムを考案し、非循環的MDPの正確な解を計算し、しきい値を見つけることが単純な確率的ゲームを解くことと少なくとも同じくらい難しいことを示します。

2024-12-27T12:10:00

http://arxiv.org/abs/2412.19595v1

Shashank Rao Marpally, Pranav Goyal, Harold Soh

National University of Singapore, Smart Systems Institute, NUS, University of Michigan

現在の社会的ナビゲーション方法とベンチマークは、主にプロクセミクス（社会的距離）とタスク効率に焦点を当てています。これらの要素は重要ですが、ロボットの社会的能力に関する認識のような質的側面も、人間の環境への成功した採用と統合には同様に重要です。私たちは、特定の人間-ロボットインタラクションのシナリオを通じて、重要なロボットの行動を明らかにできるシナリオベースのテストを通じて、社会的ナビゲーションのより包括的な評価を提案します。しかし、このようなシナリオを作成することはしばしば労力を要し、複雑です。本研究では、コンテキストおよび場所に適した社会的ナビゲーションシナリオを自動生成するパイプラインを導入することで、この課題に取り組みます。このパイプラインは、シンプルなシナリオのメタデータを詳細なテキストシナリオに変換し、歩行者とロボットの軌跡を推定し、歩行者の行動をシミュレートすることで、よりコントロールされた評価を可能にします。私たちは、シナリオ生成と翻訳をスムーズに行うために、大規模言語モデル（LLMs）の社会的推論とコード生成の能力を活用します。実験の結果、私たちのパイプラインはリアルなシナリオを生成し、単純なLLMプロンプトによる翻訳に比べてシナリオの翻訳を大幅に改善することが示されました。さらに、社会的ナビゲーションの専門家とのユーザビリティスタディからの初期のフィードバックと、3つのナビゲーションアルゴリズムのシナリオベースの評価を示すケーススタディを紹介します。

2024-12-27T11:33:19

ViDTA: Enhanced Drug-Target Affinity Prediction via Virtual Graph Nodes and Attention-based Feature Fusion

http://arxiv.org/abs/2412.19589v1

Minghui Li, Zikang Guo, Yang Wu, Peijin Guo, Yao Shi, Shengshan Hu, Wei Wan, Shengqing Hu

Huazhong University of Science and Technology, Union Hospital, Tongji Medical College

薬と標的の相互作用は、薬が生物学的システムにどのように影響を与えるかを理解する上で基本的なものであり、薬-標的親和性（DTA）を正確に予測することは薬の発見にとって重要です。最近、ディープラーニング手法は、薬と標的タンパク質との間の結合強度を推定するための重要なアプローチとして浮上してきました。しかし、既存の手法は薬の局所的な情報のみを分子トポロジーから活用しており、全体的な情報は考慮されていません。さらに、薬とタンパク質の特徴は通常、単純な連結操作で融合されるため、その効果が制限されています。これらの課題に対処するために、私たちはViDTAという強化されたDTA予測フレームワークを提案します。私たちは、グラフニューラルネットワーク（GNN）に基づく薬の特徴抽出ネットワークにバーチャルノードを導入し、より効率的にメッセージを交換するためのグローバルメモリとして機能させます。バーチャルグラフノードを組み込むことで、薬の分子構造の局所的および全体的な特徴をシームレスに統合し、GNNの受容フィールドを拡大します。さらに、薬とタンパク質間の相互作用情報をより良く捉えるために、注意に基づいた線形特徴融合ネットワークを提案します。Davis、Metz、KIBAなどの様々なベンチマークで評価した実験結果は、私たちが提案したViDTAが最先端のベースラインを上回ることを示しています。

2024-12-27T11:19:10

A Comparative Study of Machine Unlearning Techniques for Image and Text Classification Models

http://arxiv.org/abs/2412.19583v1

Omar M. Safa, Mahmoud M. Abdelaziz, Mustafa Eltawy, Mohamed Mamdouh, Moamen Gharib, Salaheldin Eltenihy, Nagia M. Ghanem, Mohamed M. Ismail

Alexandria University

機械学習のアンラーニングは、データプライバシー規制に応じて機械学習モデルから学習したデータを選択的に削除する必要性に対応するため、人工知能の重要な分野として浮上しています。本論文では、画像およびテキスト分類タスクに適用される6つの最先端のアンラーニング技術の包括的な比較分析を提供します。それらのパフォーマンス、効率、および規制要件への適合性を評価し、実際のシナリオにおける強みと限界を明らかにします。これらの手法を体系的に分析することで、適用可能性、課題、およびトレードオフについての洞察を提供し、倫理的かつ適応可能な機械学習の分野での進展を促進することを目指します。

2024-12-27T10:58:55

Graph-attention-based Casual Discovery with Trust Region-navigated Clipping Policy Optimization

http://arxiv.org/abs/2412.19578v1

Shixuan Liu, Yanghe Feng, Keyu Wu, Guangquan Cheng, Jincai Huang, Zhong Liu

National University of Defense Technology, National Natural Science Foundation of China, Natural Science Foundation of Hunan Province, IEEE

多くの実証科学の分野において、変数間の因果構造を発見することは不可欠な課題です。最近、従来の方法が抱える無向エッジや潜在的仮定の違反に対処するために、研究者たちは因果発見のための強化学習（RL）手法を定式化し、REINFORCEアルゴリズムを用いて最適な報酬を得られる有向非巡回グラフを探索しました。この手法全体の性能において重要な二つの鍵は、RL手法の頑健性と変数の効率的なエンコーディングです。しかし一方では、REINFORCEは局所収束や訓練中の不安定な性能に陥りやすいです。計算コストが高いトラストリージョンポリシー最適化や、集約制約の逸脱に苦しむ近接ポリシー最適化（PPO）は、かなりの個々のサブアクションを有する組合せ最適化問題にとって適切な代替手段ではありません。私たちは、REINFORCE、PPO、そして私たちの優先サンプリングに基づいたREINFORCE実装と比較して、より優れた探索効率とポリシー最適化の安定性を保証する因果発見のためのトラストリージョンナビゲートクリッピングポリシー最適化手法を提案します。他方で、変数の効率的なエンコーディングを向上させるために、事前の隣接情報なしにより多くの特徴情報を把握できる洗練されたグラフ注意エンコーダSDGATを提案します。これらの改善により、提案手法は合成データセットおよびベンチマークデータセットの両方において、出力結果と最適化の頑健性の点で以前のRL手法を上回ります。

2024-12-27T10:50:43

Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following

http://arxiv.org/abs/2412.19562v1

Yuxiao Yang, Shenao Zhang, Zhihan Liu, Huaxiu Yao, Zhaoran Wang

Shanghai Jiao Tong University, Northwestern University, UNC-Chapel Hill

この研究は、大規模言語モデル（LLM）を使用した体現された指示追従（EIF）のためのタスクプランナーの構築に焦点を当てています。従来の研究では、プランナーを専門家の軌跡を模倣するように訓練し、これを教師ありタスクとして扱うことが一般的でした。これらの方法は競争力のある性能を達成していますが、しばしば十分なロバスト性に欠けています。最適でない行動が取られると、プランナーは分布外の状態に遭遇し、タスクの失敗につながる可能性があります。これに対して、我々はタスクを部分観測マルコフ決定過程（POMDP）として定義し、数ショットの仮定の下でロバストなプランナーを開発することを目指しています。そのため、適応モジュールと新しい後知恵法を備えたクローズドループプランナーを提案し、プランナーを支援するためにできるだけ多くの情報を活用することを目指しています。ALFREDデータセットでの実験では、我々のプランナーが数ショットの仮定の下で競争力のある性能を達成することが示されました。初めて、我々の数ショットエージェントの性能がフルショットの教師ありエージェントの性能に近づき、さらにはそれを上回ることが確認されました。

2024-12-27T10:05:45

Learning states enhanced knowledge tracing: Simulating the diversity in real-world learning process

http://arxiv.org/abs/2412.19550v1

Shanshan Wang, Xueying Zhang, Keyang Wang, Xun Yang, Xingyi Zhang

ナレッジトレーシング（KT）タスクは、過去のインタラクションに基づいて学習者の将来のパフォーマンスを予測することに焦点を当てています。知識状態は学習プロセスで重要な役割を果たします。しかし、知識状態は、練習問題の類似性、反応の信頼性、学習者の学習状態など、インタラクションプロセスにおけるさまざまな学習要因の影響を受けるため、前提とする必要があります。これまでのモデルには、2つの大きな制限があります。まず、さまざまな複雑な理由による練習問題の違いや、推測行動による反応の信頼性の欠如のために、現在解答された演習に最も関連する歴史的インタラクションを特定することが難しいです。次に、学習状態も知識状態に影響を与える重要な要因であり、これは過去の手法では常に無視されてきました。これらの問題に対処するために、学習状態を強化したナレッジトレーシング（LSKT）という新しい方法を提案します。まず、インタラクションの潜在的な違いをシミュレートするために、項目反応理論（IRT）パラダイムに触発され、粗い観点から細かい観点まで3つの異なる埋め込み方法を設計し、比較分析を行います。次に、学習者の学習プロセス中に変化する学習状態を捉えるための学習状態抽出モジュールを設計します。その結果、抽出された学習状態の助けを借りて、より詳細な知識状態を捕捉できるようになります。実世界の4つのデータセットにおける実験結果は、私たちのLSKT手法が現在の最先端の手法を上回っていることを示しています。

2024-12-27T09:41:25

A Fully Hardware Implemented Accelerator Design in ReRAM Analog Computing without ADCs

http://arxiv.org/abs/2412.19869v1

Peng Dang, Huawei Li, Wei Wang

Huawei, Peng Cheng Laboratory, University of Chinese Academy of Sciences, Chinese Academy of Sciences, SKLP, Institute of Computing Technology

新たに登場したReRAMベースのアクセラレーターは、アナログコンピューティングインメモリ（CiM）を通じてニューラルネットワークを処理し、超高エネルギー効率を実現します。しかし、周辺回路の大きなオーバーヘッドと複雑な非線形活性化モードが、システムのエネルギー効率の向上を制約しています。本研究では、確率的にバイナリ化されたニューロンを使用して、ReRAMデバイスからサンプリングされたノイズ信号を活用することで、シグモイドおよびソフトマックス活性化関数のハードウェア実装を探ります。私たちは、ReRAMクロスバーと組み合わせた確率的にバイナリ化されたニューロンを利用してニューラルネットワークの計算を加速する完全なReRAMベースのアナログコンピューティングアクセラレーター（RACA）を提案します。この新しい回路設計は、デジタルからアナログおよびアナログからデジタルコンバーター（DACおよびADC）や、活性化関数を明示的に計算するためのコンポーネントなど、エネルギーおよび面積効率の低下の重要な原因を除去します。実験結果は、提案した設計が推論精度を損なうことなく、すべての全体パフォーマンス指標において従来のアーキテクチャを上回っていることを示しています。

2024-12-27T09:38:19

TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data

http://arxiv.org/abs/2412.19544v1

Xiang Huang, Jiayu Shen, Shanshan Huang, Sitao Cheng, Xiaxia Wang, Yuzhong Qu

Nanjing University, University of California, Santa Barbara, University of Oxford

意味解析は自然言語の質問を論理形式に変換するもので、構造化された環境における推論において重要な役割を果たします。しかし、既存の手法は、広範な手動アノテーションデータセットへの依存と未見の例に対する一般化能力の限界という二つの重大な課題に直面しています。これらの問題に対処するために、我々はターゲット合成データ生成（TARGA）という実用的なフレームワークを提案します。これは、手動アノテーションなしで関連性の高い合成データを動的に生成します。特定の質問の関連するエンティティと関係から始めて、レイヤーごとの拡張とクロスレイヤーの組み合わせを通じて潜在的な関連クエリを探ります。その後、これらの構築されたクエリに対する対応する自然言語の質問を生成し、文脈内学習のための合成デモンストレーションとして共同で機能させます。複数の知識ベース質問応答（KBQA）データセットにおける実験では、TARGAが7Bパラメータモデルだけを使用して、クローズソースモデルを利用した既存の非ファインチューニング手法を大幅に上回り、GrailQAでのF1スコアが+7.7、KBQA-AgentでのF1スコアが+12.2という顕著な改善を達成しました。さらに、TARGAは非I.I.D.環境下においても優れたサンプル効率、ロバスト性、および一般化能力を示しています。

2024-12-27T09:16:39

Interacted Object Grounding in Spatio-Temporal Human-Object Interactions

http://arxiv.org/abs/2412.19542v1

Xiaoyang Liu, Boran Wen, Xinpeng Liu, Zizheng Zhou, Hongwei Fan, Cewu Lu, Lizhuang Ma, Yulong Chen, Yong-Lu Li

空間・時間的ヒト-物体相互作用（ST-HOI）理解は、動画からHOIを検出することを目的としており、これは行動理解にとって重要です。しかし、既存の全身-物体相互作用動画ベンチマークは、オープンワールドの物体が多様であるという真実を見落としており、通常、限られた定義済みの物体クラスしか提供していません。そこで、私たちは新しいオープンワールドベンチマーク「Grounding Interacted Objects（GIO）」を導入します。このベンチマークには1,098の相互作用した物体クラスと290Kの相互作用した物体ボックスのアノテーションが含まれています。それに応じて、相互作用した物体を発見することを期待する物体グラウンディングタスクを提案します。今日の検出器やグラウンディング法は大いに成功していますが、GIO内の多様で希少な物体を位置特定するには不満足な結果を出しています。これは現在の視覚システムの限界を深く明らかにし、大きな課題を提起しています。したがって、私たちは空間・時間的手がかりを活用して物体グラウンディングに取り組むことを探求し、多様な動画から相互作用した物体を発見するための4D質問応答フレームワーク（4D-QA）を提案します。私たちの方法は、従来のベースラインと比較して広範な実験で顕著な優位性を示しています。データとコードは、https://github.com/DirtyHarryLYL/HAKE-AVA で公開される予定です。

2024-12-27T09:08:46

Scalable Hierarchical Reinforcement Learning for Hyper Scale Multi-Robot Task Planning

http://arxiv.org/abs/2412.19538v1

Xuan Zhou, Xiang Shi, Lele Zhang, Chen Chen, Hongbo Li, Lin Ma, Fang Deng, Jie Chen

北京理工大学, 清华大学, 北京Geek+科技有限公司, 浙江菜鸟供应链管理有限公司, 同济大学, 上海智能自主系统研究院

倉庫システムの効率を改善し、膨大な顧客注文に対応するために、ハイパースケールのマルチロボットタスク計画（MRTP）における次元の災害や動的特性の課題を解決することを目指しています。既存の研究では、階層的強化学習（HRL）がこれらの課題を軽減する効果的な方法であることが示されています。それに基づいて、RMFS（ロボティックモバイルフルフィルメントシステム）におけるハイパースケールMRTPのために効率的なマルチステージHRLベースのマルチロボットタスクプランナーを構築し、計画プロセスは特殊な時間的グラフトポロジーで表現されています。最適性を確保するために、プランナーは中央集権的なアーキテクチャで設計されていますが、これによりスケーリングや一般化の課題も発生し、政策がさまざまな未学習のスケールや地図でパフォーマンスを維持する必要があります。これらの困難に対処するために、まず固定されていない長さの入力を処理する基本能力を確保するために階層的時間的注意ネットワーク（HTAN）を構築し、その後、階層的政策学習のためのマルチステージカリキュラムを設計して、スケーリングと一般化能力をさらに向上させつつ、壊滅的な忘却を避けます。さらに、階層構造を持つ政策がマルチエージェント強化学習に似た不公平な功績割り当てに苦しむことに気付き、これに触発されて、学習性能を改善するために対実行のロールアウトベースラインを持つ階層的強化学習アルゴリズムを提案します。実験結果は、我々のプランナーがシミュレーションされたRMFSと現実のRMFSにおけるさまざまなMRTPインスタンスにおいて、他の最先端手法を上回ることを示しています。また、我々のプランナーは、未学習の地図で最大200台のロボットと1000の取り出しラックを持つハイパースケールMRTPインスタンスにスケールアップし、他の手法を上回る優れた性能を維持することができます。

2024-12-27T09:07:11

Data-Free Group-Wise Fully Quantized Winograd Convolution via Learnable Scales

http://arxiv.org/abs/2412.19867v1

Shuokai Pan, Gerti Tuzi, Sudarshan Sreeram, Dibakar Gope

Arm Inc.

大規模なテキストから画像への拡散モデルにおける革命的なブレークスルーにもかかわらず、複雑な視覚および下流タスクに対する非常に高い計算コストとストレージコストがその実用性を制限しています。拡散モデルの量子化は、最近の研究で計算コストとメモリ帯域幅の使用を削減するために探求されています。推論時間をさらに改善するために、Winogradなどの高速畳み込みアルゴリズムが畳み込み層に使用でき、これは拡散モデルにおける計算の重要な部分を占めています。しかし、既存の粗い後処理量子化手法を使用した完全量子化されたWinogradの品質の大幅な低下と、大規模モデルに対して品質を回復するためのWinograd変換行列の微調整の複雑さとコストにより、大規模な基盤モデルには適していません。このような状況を受けて、私たちは拡散モデルの量子化におけるより細かいグループ単位の量子化の影響を調査します。グループ単位の量子化は完全に量子化されたWinograd畳み込みをほぼ処理できる一方で、Winogradドメイン計算の大きな分布の不均衡には対処が難しいです。Winograd領域での範囲の違いを削減するために、領域特有のトレーニングデータを使用せずに、Winograd変換行列のスケールパラメータのみを微調整することを提案します。私たちの手法はトレーニングデータに依存しないため、量子化された拡散モデルの一般化性能は安全に保証されます。テキストから画像の生成タスクにおいて、8ビット完全量子化された拡散モデルは、全精度モデルと比べてほぼ損失のない品質（FIDおよびCLIPスコア）を提供します。画像分類に関しては、私たちの手法はResNet18とResNet-34において、最先端のWinograd PTQ手法をそれぞれ1.62%および2.56%改善し、Winograd F(6, 3)で記録しています。

2024-12-27T09:05:48

P3S-Diffusion:A Selective Subject-driven Generation Framework via Point Supervision

http://arxiv.org/abs/2412.19533v1

Junjie Hu, Shuyong Gao, Lingyi Hong, Qishan Wang, Yuzhou Zhao, Yan Wang, Wenqiang Zhang

Fudan University

最近の研究では、主題駆動生成における選択的主題特徴の重要性がますます強調されています。しかし、与えられた参照画像内のコンテンツを正確に選択することは依然として課題があり、特に画像内の類似した主題を選択する際（例えば、異なる2匹の犬）には困難があります。一部の方法では、特定の要素を隔離するためにテキストプロンプトやピクセルマスクを使用しようとしますが、テキストプロンプトは特定のコンテンツを正確に説明するには不十分であり、ピクセルマスクはしばしば高価です。これに対処するために、ポイントスーパービジョンを介してコンテキスト選択された主題駆動生成のために設計された新しいアーキテクチャであるP3S-Diffusionを紹介します。P3S-Diffusionは、最小限のコストラベル（例えば、ポイント）を利用して主題駆動の画像を生成します。ファインチューニング中に、これらのポイントから拡張されたベースマスクを生成し、追加のセグメンテーションモデルを必要としないようにします。このマスクは、インペインティングと主題表現との整合に使用されます。P3S-Diffusionは、マルチレイヤー条件注入を通じて主題の細かい特徴を保持します。訓練を改善するためのアテンション整合性損失に強化されており、大規模な実験により、その優れた特徴保持と画像生成能力が示されています。

2024-12-27T08:59:01

Is Your Text-to-Image Model Robust to Caption Noise?

http://arxiv.org/abs/2412.19531v1

Weichen Yu, Ziyan Yang, Shanchuan Lin, Qi Zhao, Jianyi Wang, Liangke Gui, Matt Fredrikson, Lu Jiang

ByteDance, Carnegie Mellon University

テキストから画像への生成（T2I）において、一般的なトレーニング技術は、イメージの再キャプションにビジョンランゲージモデル（VLM）を利用することです。VLMは、視覚的現実から逸脱する描写的コンテンツを生成する「幻覚」を示すことが知られているにもかかわらず、そのようなキャプションの幻覚がT2I生成の性能に与える影響は十分に探求されていません。私たちの実証的な調査を通じて、まずVLM生成のキャプションからなる包括的なデータセットを構築し、次にキャプションの幻覚が生成結果にどのように影響するかを体系的に分析します。私たちの発見は以下の通りです。(1) キャプションの質の差異がファインチューニング中にモデルの出力に持続的に影響を与える。(2) VLMの信頼度スコアは、データ分布内のノイズ関連パターンを検出し特徴づけるための信頼できる指標として機能する。(3) キャプションの信頼性のわずかな変化でも、学習された表現の質に大きな影響を与える。これらの発見は、キャプションの質がモデルの性能に与える深刻な影響を強調し、T2Iにおけるより洗練された堅牢なトレーニングアルゴリズムの必要性を浮き彫りにします。これらの観察に応じて、私たちはVLMの信頼度スコアを活用してキャプションノイズを軽減し、キャプションにおける幻覚に対するT2Iモデルの堅牢性を向上させるアプローチを提案します。

2024-12-27T08:53:37

PLN and NARS Often Yield Similar strength $\times$ confidence Given Highly Uncertain Term Probabilities

http://arxiv.org/abs/2412.19524v1

Ben Goertzel

SingularityNET, TrueAGI

私たちは、AGIを目指した二つの不確実な推論フレームワークである確率論的論理ネットワーク（PLN）と非公理的推論システム（NARS）で使用される演繹、帰納、及びアブダクションの公式の比較分析を提供します。二つのシステムの違いの一つは、個々の推論ルールのレベルにおいて、PLNは用語と関係の確率の両方を直接利用するのに対し、NARSは関係の頻度のみを利用し、用語の確率に相当する単純なアナロジーを持たないことです。したがって、私たちはここで用語の確率に関して高い不確実性があるシナリオに焦点を当て、この不確実性が二つのシステムの比較推論結論にどのように影響するかを探ります。私たちは、PLNにおける強度と信頼度の積（$s\times c$）をNARSにおける頻度と信頼度の積（$f\times c$）と比較します（これらの量は不確実な文の「力」を測るものとして言及します）。用語確率の不確実性が高い場合において、ヒューリスティックな分析と初歩的な数値計算を用いて比較します。私たちは、多くの実用的な状況において高い用語確率の不確実性が存在する場合、PLNとNARSの公式が推論結論の力に対して非常に似た結果を示すことを発見しました。たとえ時には異なる方法でこれらの類似した数値に到達することがあってもです。

2024-12-27T08:31:19

Attribution for Enhanced Explanation with Transferable Adversarial eXploration

http://arxiv.org/abs/2412.19523v1

Zhiyu Zhu, Jiayu Zhang, Zhibo Jin, Huaming Chen, Jianlong Zhou, Fang Chen

University of Technology Sydney, IEEE

ディープニューラルネットワークの解釈可能性は、コンピュータビジョンを含むさまざまなアプリケーションでのモデルの決定を理解するために重要です。AttEXplore++は、AttEXploreに基づいて構築された高度なフレームワークであり、MIGやGRAなどの転送可能な敵対攻撃手法を取り入れて、帰属を強化し、モデルの説明の正確さと堅牢性を大幅に向上させます。私たちは、ImageNetデータセットを使用してCNN（Inception-v3、ResNet-50、VGG16）やビジョントランスフォーマー（MaxViT-T、ViT-B/16）を含む5つのモデルで広範な実験を行いました。私たちの方法は、AttEXploreに対して平均パフォーマンスを7.57％向上させ、他の最先端の解釈可能性アルゴリズムと比較して32.62％改善されました。挿入および削除スコアを評価指標として使用することで、敵対的転送可能性が帰属結果を向上させる重要な役割を果たすことを示しています。さらに、無作為性、摂動率、ノイズ振幅、および多様性確率が帰属パフォーマンスに与える影響を探求し、AttEXplore++がさまざまなモデルにわたってより安定的で信頼性のある説明を提供することを示しています。私たちはコードを次で公開しています: https://anonymous.4open.science/r/ATTEXPLOREP-8435/

2024-12-27T08:27:53

Estimation of System Parameters Including Repeated Cross-Sectional Data through Emulator-Informed Deep Generative Model

http://arxiv.org/abs/2412.19517v1

Hyunwoo Cho, Sung Woong Cho, Hyeontae Jo, Hyung Ju Hwang

Pohang University of Science and Technology, Korea Advanced Institute of Science and Technology, Korea University, Institute for Basic Science, AMSquare Corp

微分方程（DE）は、自然または工学的システムの進化をモデル化する上で重要です。従来、DEのパラメータはシステム観察から得られたデータに合わせて調整されます。しかし、政治、経済、生物学などの分野では、利用可能なデータはしばしば異なる対象から異なる時点で独立して収集されます（すなわち、繰り返し横断的（RCS）データ）。従来の最適化手法は、RCSデータがさまざまな異質性を示す場合にDEパラメータを正確に推定することが困難であり、これが情報の大幅な喪失につながります。この問題に対処するために、私たちはRCSデータを扱うために設計された新しい推定手法であるエミュレータ情報の深層生成モデル（EIDGM）を提案します。具体的には、EIDGMは、即座にDEの解を生成する物理に基づいたニューラルネットワークエミュレーターと、RCSデータを効果的に模倣できるワッサースタイン生成対抗ネットワークに基づくパラメータ生成器を統合しています。私たちは、指数成長、ロジスティック人口モデル、およびローレンツ系に対してEIDGMを評価し、パラメータ分布を正確に捉える優れた能力を示しました。さらに、アミロイドベータ40およびベータ42の実験データセットにEIDGMを適用し、多様なパラメータ分布の形状を成功裏に捉えました。これは、EIDGMが広範なシステムをモデル化するために適用可能であり、限られたデータに基づいてシステムの運用原理を明らかにするために拡張できることを示しています。

2024-12-27T08:19:23

MBQ: Modality-Balanced Quantization for Large Vision-Language Models

http://arxiv.org/abs/2412.19509v1

Shiyao Li, Yingchun Hu, Xuefei Ning, Xihui Liu, Ke Hong, Xiaotao Jia, Xiuhong Li, Yaqi Yan, Pei Ran, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang

Tsinghua University, Infinigence-AI, Beihang University, University of Hong Kong, Chinatower, Shanghai Jiao Tong University

ビジョン-ランゲージモデル（VLM）は、さまざまな現実世界のアプリケーションを実現しました。VLMの大規模なパラメータサイズは、大きなメモリおよび計算オーバーヘッドをもたらし、デプロイメントにとって重要な課題となります。ポストトレーニング量子化（PTQ）は、メモリおよび計算オーバーヘッドを削減するための効果的な技術です。既存のPTQ手法は主に大規模言語モデル（LLM）に焦点を当てており、他のモダリティ間の違いを考慮していません。本論文では、大規模VLMにおける言語トークンと視覚トークンの感度には重要な違いがあることを発見しました。したがって、既存のPTQ手法のように異なるモダリティからのトークンを平等に扱うことは、感度の低いモダリティを過剰に重視する可能性があり、重要な精度損失を引き起こします。この問題に対処するために、私たちは大規模VLM用のシンプルでありながら効果的な手法、モダリティバランス量子化（MBQ）を提案します。具体的には、MBQはキャリブレーションプロセス中にモダリティ間の異なる感度を取り入れ、より良い量子化パラメータのために再構成損失を最小化します。広範な実験により、MBQは、SOTAベースラインと比較して、7Bから70BのVLMに対してW3およびW4A8量子化の下で最大4.4％および11.6％もタスク精度を大幅に向上させることができることが示されています。さらに、デクォンタイズとGEMV演算子を融合するW3 GPU カーネルを実装し、RTX 4090上のLLaVA-onevision-7Bで1.4倍のスピードアップを実現しました。コードはhttps://github.com/thu-nics/MBQで入手可能です。

2024-12-27T07:55:36

Hybrid Local Causal Discovery

http://arxiv.org/abs/2412.19507v1

Zhaolong Ling, Honghui Peng, Yiwen Zhang, Peng Zhou, Xingyu Wu, Kui Yu, Xindong Wu

Anhui University, Hong Kong Polytechnic University, Hefei University of Technology

ローカル因果発見は、観測データからターゲット変数の直接的な原因と効果を学習し、区別することを目的としています。既存の制約ベースのローカル因果発見方法は、ローカル因果スケルトンを構築する際にANDまたはORルールを使用していますが、いずれかのルールのみを使用すると、学習されたローカル因果スケルトンにカスケードエラーが発生する可能性があり、したがってローカル因果関係の推論に影響を与えます。一方で、スコアベースのグローバル因果発見方法をローカル因果発見に直接適用すると、ローカル同値クラスの存在により、誤った結果がランダムに返される可能性があります。これらの問題に対処するために、私たちはHLCDと呼ばれるハイブリッドローカル因果発見アルゴリズムを提案します。具体的には、HLCDは最初にORルールと組み合わせた制約ベースのアプローチを利用して候補スケルトンを取得し、その後、スコアベースの方法を使用して候補スケルトン内の冗長部分を排除します。さらに、ローカル因果の方向付け段階では、HLCDは2つのローカル構造スコアを比較することによってV構造と同値クラスを区別し、ローカル同値クラスによって引き起こされる方向付けの干渉を回避します。私たちは、14のベンチマークベイジアンネットワークデータセットで7つの最先端の競合他社との広範囲な実験を行い、実験結果はHLCDが既存のローカル因果発見アルゴリズムよりも大幅に優れていることを示しています。

2024-12-27T07:53:59

Multi-P$^2$A: A Multi-perspective Benchmark on Privacy Assessment for Large Vision-Language Models

http://arxiv.org/abs/2412.19496v1

Jie Zhang, Xiangkui Cao, Zhouyu Han, Shiguang Shan, Xilin Chen

Chinese Academy of Sciences, University of Chinese Academy of Sciences

大規模ビジョン・言語モデル（LVLMs）はさまざまなタスクで印象的な可能性を示していますが、同時に重大なプライバシーリスクにも直面しており、実用的な応用を制限しています。LVLMsのプライバシー評価に関する現在の研究は、範囲が限られており、評価の次元とプライバシーカテゴリの両方にギャップがあります。このギャップを埋めるために、私たちはMulti-P$^2$Aを提案します。これは、プライバシー意識と漏洩に関してLVLMsのプライバシー保護能力を評価するための包括的ベンチマークです。プライバシー意識は、入力データのプライバシー感度を認識するモデルの能力を測定し、プライバシー漏洩は、出力においてモデルが意図せずプライバシー情報を開示するリスクを評価します。私たちは、LVLMsが提供するモデルのプライバシー保護を徹底的に評価するために、さまざまなサブタスクを設計しました。Multi-P$^2$Aは、26の個人プライバシーカテゴリ、15の営業秘密カテゴリー、18の国家秘密カテゴリーをカバーし、合計で31,962のサンプルを含んでいます。Multi-P$^2$Aに基づいて、私たちは21のオープンソースと2のクローズドソースのLVLMsのプライバシー保護能力を評価しました。その結果、現在のLVLMsは一般にプライバシー侵害を助長する高いリスクを抱えており、個人プライバシー、営業秘密、国家秘密のカテゴリごとに脆弱性が異なることが明らかになりました。

2024-12-27T07:33:39

Disparate Model Performance and Stability in Machine Learning Clinical Support for Diabetes and Heart Diseases

http://arxiv.org/abs/2412.19495v1

Ioannis Bilionis, Ricardo C. Berrios, Luis Fernandez-Luque, Carlos Castillo

機械学習（ML）アルゴリズムは、バイオメディカルインフォマティクスにおける臨床意思決定をサポートするために重要です。しかし、彼らの予測性能は人口統計グループによって異なる場合があり、その多くはトレーニングデータセットにおける歴史的に疎外された人口の過少表現に起因しています。この調査により、慢性疾患データセットとその派生するMLモデルにおいて、性別および年齢に関連する広範囲な不平等が明らかになりました。そのため、正確性やデータの複雑さなどの従来の指標と体系的な恣意性を組み合わせた新しい分析フレームワークが導入されました。25,000人以上の慢性疾患を持つ個人からのデータの分析は、性別に関連するわずかな格差が示され、男性に対して予測精度が有利であり、年齢に関連する有意な違いがあり、若年患者に対してより良い精度が示されました。特に、高齢者は、データの複雑さが高く、モデルの性能が低いことに関連して、7つのデータセット全体で一貫した予測精度を示しませんでした。これは、トレーニングデータの代表性だけでは公平な結果が保証されず、臨床の場でモデルを展開する前にモデルの恣意性に対処する必要があることを強調しています。

2024-12-27T07:31:14

Optimizing Helmet Detection with Hybrid YOLO Pipelines: A Detailed Analysis

http://arxiv.org/abs/2412.19467v1

Vaikunth M, Dejey D, Vishaal C, Balamurali S

ヘルメット検出は、公共道路交通のダイナミクスにおける保護レベルの向上において重要です。この問題はオブジェクト検出タスクに変換されます。したがって、本論文では、ヘルメット検出の文脈において、信頼性と計算負荷の観点から最近のYou Only Look Once（YOLO）モデルを比較します。具体的には、YOLOv8、YOLOv9、および新たにリリースされたYOLOv11が使用されました。さらに、全体的なパフォーマンスを著しく改善する修正されたアーキテクチャパイプラインが本原稿で提案されています。このハイブリッドYOLOモデル（h-YOLO）は、分析のために独立したモデルと比較され、h-YOLOが通常のYOLOモデルに対してヘルメット検出に優れていることが証明されました。モデルは、再現率、精度、およびmAP（平均平均精度）などの標準的なオブジェクト検出ベンチマークを使用してテストされました。さらに、トレーニングとテストの時間も記録されており、リアルタイム検出シナリオにおけるモデルの全体的な範囲を提供しています。

2024-12-27T05:26:12

Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models

http://arxiv.org/abs/2412.19450v1

Hyeonseok Moon, Jaehyung Seo, Seungyoon Lee, Chanjun Park, Heuiseok Lim

Korea University

大規模言語モデル（LLM）の主要な強みの一つは、指示に応じて適切な応答を生成することで人間と相互作用できる能力です。この能力は、指示に従う能力として知られ、さまざまな分野でLLMを使用するための基盤を築き、彼らのパフォーマンスを評価するための重要な指標となります。数多くの評価ベンチマークが開発されていますが、ほとんどは明確で一貫した指示にのみ焦点を当てています。しかし、LLMは指示形式の文に容易に気を取られてしまうことがあるため、指示理解能力の見落としにつながることがあります。この問題に対処するため、私たちは「指示の意図（IoInst）」というベンチマークを導入しました。このベンチマークは、余計な指示に惑わされることなく、LLMが集中し指示を理解する能力を評価します。このベンチマークの主な目的は、与えられた文脈の生成を正確に導く適切な指示を特定することです。私たちの調査結果は、最近導入された最先端のモデルでさえも、依然として指示理解能力が欠けていることを示唆しています。本研究におけるIoInstの提案に加えて、IoInstに適用できる可能性のあるいくつかの戦略の広範な分析も示します。

2024-12-27T04:37:39

A Survey on Large Language Model Acceleration based on KV Cache Management

http://arxiv.org/abs/2412.19442v1

Haoyang Li, Yiming Li, Anxin Tian, Tianhao Tang, Zhanchao Xu, Xuejia Chen, Nicole Hu, Wei Dong, Qing Li, Lei Chen

The Hong Kong Polytechnic University, Hong Kong University of Science and Technology, Huazhong University of Science and Technology, The Chinese University of Hong Kong, Nanyang Technological University

大規模言語モデル（LLM）は、コンテキストを理解し論理的推論を行う能力のおかげで、自然言語処理、コンピュータビジョン、マルチモーダルタスクなど幅広い分野に革命をもたらしました。しかし、特に推論時のLLMに対する計算およびメモリの要求は、現実の長いコンテキストやリアルタイムアプリケーションにスケールする際に重要な課題を引き起こします。キー・バリュー（KV）キャッシュ管理は、冗長な計算を減らしメモリの利用効率を向上させることによって、LLMの推論を加速するための重要な最適化手法として浮上しています。この調査は、LLM加速のためのKVキャッシュ管理戦略の包括的な概要を提供し、それらをトークンレベル、モデルレベル、およびシステムレベルの最適化に分類しています。トークンレベルの戦略には、KVキャッシュの選択、予算配分、マージ、量子化、および低ランク分解が含まれ、一方、モデルレベルの最適化はKVの再利用を促進するためのアーキテクチャ革新と注意メカニズムに焦点を当てています。システムレベルのアプローチは、メモリ管理、スケジューリング、およびハードウェアを考慮した設計に取り組み、さまざまな計算環境での効率性を向上させます。加えて、この調査はこれらの戦略を評価するために使用されるテキストおよびマルチモーダルデータセットとベンチマークの概要も提供しています。詳細な分類と比較分析を提示することにより、この研究は、効率的でスケーラブルなKVキャッシュ管理技術の開発を支援するための有用な洞察を研究者や実務者に提供することを目的としています。そして、LLMの実用的な展開に貢献します。KVキャッシュ管理のための厳選された論文リストは以下にあります：\href{https://github.com/TreeAI-Lab/Awesome-KV-Cache-Management}{https://github.com/TreeAI-Lab/Awesome-KV-Cache-Management}。

2024-12-27T04:17:57

DeepSeek-V3 Technical Report

http://arxiv.org/abs/2412.19437v1

DeepSeek-AI, Aixin Liu, Bei Feng, Bing Xue, Bingxuan Wang, Bochao Wu, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Daya Guo, Dejian Yang, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Haowei Zhang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Li, Hui Qu, J. L. Cai, Jian Liang, Jianzhong Guo, Jiaqi Ni, Jiashi Li, Jiawei Wang, Jin Chen, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, Junxiao Song, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Lei Xu, Leyi Xia, Liang Zhao, Litong Wang, Liyue Zhang, Meng Li, Miaojun Wang, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingming Li, Ning Tian, Panpan Huang, Peiyi Wang, Peng Zhang, Qiancheng Wang, Qihao Zhu, Qinyu Chen, Qiushi Du, R. J. Chen, R. L. Jin, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, Runxin Xu, Ruoyu Zhang, Ruyi Chen, S. S. Li, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shaoqing Wu, Shengfeng Ye, Shengfeng Ye, Shirong Ma, Shiyu Wang, Shuang Zhou, Shuiping Yu, Shunfeng Zhou, Shuting Pan, T. Wang, Tao Yun, Tian Pei, Tianyu Sun, W. L. Xiao, Wangding Zeng, Wanjia Zhao, Wei An, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, X. Q. Li, Xiangyue Jin, Xianzu Wang, Xiao Bi, Xiaodong Liu, Xiaohan Wang, Xiaojin Shen, Xiaokang Chen, Xiaokang Zhang, Xiaosha Chen, Xiaotao Nie, Xiaowen Sun, Xiaoxiang Wang, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xingkai Yu, Xinnan Song, Xinxia Shan, Xinyi Zhou, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, Y. K. Li, Y. Q. Wang, Y. X. Wei, Y. X. Zhu, Yang Zhang, Yanhong Xu, Yanhong Xu, Yanping Huang, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Li, Yaohui Wang, Yi Yu, Yi Zheng, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Ying Tang, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yu Wu, Yuan Ou, Yuchen Zhu, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yukun Zha, Yunfan Xiong, Yunxian Ma, Yuting Yan, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Z. F. Wu, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhen Huang, Zhen Zhang, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhibin Gou, Zhicheng Ma, Zhigang Yan, Zhihong Shao, Zhipeng Xu, Zhiyu Wu, Zhongyu Zhang, Zhuoshu Li, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Ziyi Gao, Zizheng Pan

私たちは、合計671Bパラメータを持つ強力なMixture-of-Experts（MoE）言語モデルであるDeepSeek-V3を発表します。このモデルは、各トークンに対して37Bのパラメータがアクティブになります。効率的な推論とコスト効果の高いトレーニングを実現するために、DeepSeek-V3はMulti-head Latent Attention（MLA）およびDeepSeekMoEアーキテクチャを採用しており、これらはDeepSeek-V2で十分に検証されています。さらに、DeepSeek-V3は、ロードバランシングのための補助損失フリー戦略を先駆けて導入し、より強力な性能を得るためのマルチトークン予測トレーニング目標を設定しています。私たちは14.8兆の多様で高品質なトークンでDeepSeek-V3を事前トレーニングした後、監視されたファインチューニングおよび強化学習ステージを経て、その能力を最大限に引き出しました。包括的な評価により、DeepSeek-V3は他のオープンソースモデルを上回り、主要なクローズドソースモデルと同等の性能を達成することが明らかになりました。優れた性能にもかかわらず、DeepSeek-V3はフルトレーニングにはわずか2.788M H800 GPU時間しか必要としません。さらに、そのトレーニングプロセスは驚くほど安定しています。トレーニング全体を通じて、回復不可能な損失のスパイクやロールバックを経験することはありませんでした。モデルのチェックポイントは、https://github.com/deepseek-ai/DeepSeek-V3 にて入手可能です。

2024-12-27T04:03:16

Residual Feature-Reutilization Inception Network for Image Classification

http://arxiv.org/abs/2412.19433v1

Yuanpeng He, Wenjie Song, Lijian Li, Tianxiang Zhan, Wenpin Jiao

特徴情報を効果的にキャプチャすることは、コンピュータビジョン分野において非常に重要です。畳み込みニューラルネットワーク（CNN）の発展に伴い、残差接続や複数のスケールといった概念が、さまざまな深層学習ビジョンタスクにおける継続的な性能向上を促進しています。本論文では、残差特徴再利用インセプション（ResFRI）または分割残差特徴再利用インセプション（Split-ResFRI）からなる新しいCNNアーキテクチャを提案します。このアーキテクチャは、特別に設計された情報相互作用通路で接続された異なる構造の4つの畳み込みの組み合わせで構成されており、マルチスケールの特徴情報を抽出し、モデルの受容野を効果的に増加させるために利用されます。さらに、上記のネットワーク構造に基づいて、Split-ResFRIは入力情報のセグメンテーション比率を調整できるため、パラメータの数を削減しつつ、モデルのパフォーマンスを保証します。具体的には、CIFAR10（$97.94$\%）、CIFAR100（$85.91$\%）、およびTiny Imagenet（$70.54$\%）などの一般的なビジョンデータセットに基づく実験において、モデルサイズがほぼ同じで追加データを使用しない条件のもとで、他の現代的なモデルと比較して最先端の結果を得ることができました。

2024-12-27T03:55:25

A Self-Efficacy Theory-based Study on the Teachers Readiness to Teach Artificial Intelligence in Public Schools in Sri Lanka

http://arxiv.org/abs/2412.19425v1

Chathura Rajapakse, Wathsala Ariyarathna, Shanmugalingam Selvakan

この研究は、スリランカのICT教師が学校でAIを教えるための準備状況を自己効力感に焦点を当てて調査しています。1,300人以上の教師を対象にした調査では、バンデューラの理論に基づいて開発された尺度を使用して、自己効力感を評価しました。PLS-SEM分析の結果、教師の自己効力感は低く、主にAI指導に関連する感情的および生理的状態や想像的な経験に影響されていることが明らかになりました。マスタリー経験の影響は少なく、代理体験や口頭による説得には有意な効果は見られませんでした。この研究は、教師のAI専門知識や社会的資本の限界を考慮した、体系的な教師専門職の発展アプローチの必要性を強調しています。効果的なAI教師トレーニングのために、社会技術システムの視点からのさらなる研究が推奨されます。

2024-12-27T03:31:26

Revisiting PCA for time series reduction in temporal dimension

http://arxiv.org/abs/2412.19423v1

Jiaxin Gao, Wenbo Hu, Yuntian Chen

Shanghai Jiao Tong University, Ningbo Institute of Digital Twin, Eastern Institute of Technology, Hefei University of Technology

時間的次元における時系列縮小のためのPCAの再検討; ジアキン・ガオ, ウェンボ・フ, ユンティアン・チェン; 深層学習は、時系列分析（TSA）を著しく進展させており、分類、予測、回帰といったタスクのための複雑なパターンの抽出を可能にしています。次元削減は従来、変数空間に焦点を当てており、データの冗長性と計算の複雑さを最小化する上で顕著な成功を収めてきましたが、時間的次元の削減にはあまり注意が払われていませんでした。本研究では、古典的な次元削減手法である主成分分析（PCA）を再検討し、時系列データの時間的次元削減におけるその有用性を探ります。一般的には、時間的次元にPCAを適用することは時間的依存性を妨げると考えられており、この分野での探求は限られています。しかし、私たちの理論的分析と広範な実験は、スライディングシリーズウィンドウにPCAを適用することが、モデルの性能を維持するだけでなく、計算効率を向上させることを示しています。自己回帰予測において、時間的構造はウィンドウ化を通じて部分的に保存され、これらのウィンドウ内でPCAが適用されて時系列のノイズを除去しながら統計的情報を保持します。PCAを用いて時系列データを前処理することで、TSAモデル（線形、トランスフォーマー、CNN、RNNアーキテクチャなど）に入力する前に時間的次元を削減します。このアプローチは、トレーニングと推論を加速し、リソース消費を削減します。特に、PCAはInformerのトレーニングおよび推論速度を最大40％向上させ、TimesNetのGPUメモリ使用量を30％削減しますが、モデルの精度を犠牲にはしません。他の削減手法との比較分析は、TSAモデルの効率を向上させる上でPCAの効果的であることをさらに強調します。

2024-12-27T03:17:26

Gx2Mol: De Novo Generation of Hit-like Molecules from Gene Expression Profiles via Deep Learning

http://arxiv.org/abs/2412.19422v1

Chen Li, Yuki Matsukiyo, Yoshihiro Yamanishi

Nagoya University, Kyushu Institute of Technology

新規ヒット様分子の生成は、創薬プロセスにおいて挑戦的なタスクです。これまでの研究でのほとんどの手法は、分子グラフや簡略化された分子入力行列システム（SMILES）文字列を分析することによって、分子構造の意味と構文を学習しますが、遺伝子やタンパク質から成る生物学的システムの薬物応答を考慮していません。本研究では、任意の標的タンパク質に対して望ましい表現型を持つ分子構造を生成するために、遺伝子発現プロファイルを利用する深層生成モデルGx2Molを提案します。このアルゴリズムでは、変分オートエンコーダを特徴抽出器として利用し、遺伝子発現プロファイルの潜在的特徴分布を学習します。その後、ロングショートタームメモリを化学生成器として活用し、特徴抽出器によって抽出された遺伝子発現プロファイルの特徴条件を満たす、構文的に有効なSMILES文字列を生成します。実験結果およびケーススタディは、提案されたGx2Molモデルが潜在的な生物活性と薬物様特性を持つ新しい分子を生成できることを示しています。

2024-12-27T03:16:56

Introduction to Graph Neural Networks: A Starting Point for Machine Learning Engineers

http://arxiv.org/abs/2412.19419v1

James H. Tanis, Chris Giannella, Adrian V. Mariano

グラフニューラルネットワークは、ノードやエッジに属性が付与されたグラフ用に設計された深層ニューラルネットワークです。これらのモデルに関する研究論文の数は、幅広いタスクにおける素晴らしいパフォーマンスにより急速に増加しています。この調査では、エンコーダー・デコーダーのフレームワークを通じてグラフニューラルネットワークを紹介し、さまざまなグラフ解析タスクのデコーダーの例を提供します。また、理論と同質グラフに関する多数の実験を用いて、さまざまなトレーニングサイズやグラフの複雑さの度合いに対するグラフニューラルネットワークの振る舞いを示します。

2024-12-27T03:13:02

Generalized Uncertainty-Based Evidential Fusion with Hybrid Multi-Head Attention for Weak-Supervised Temporal Action Localization

http://arxiv.org/abs/2412.19418v1

Yuanpeng He, Lijian Li, Tianxiang Zhan, Wenpin Jiao, Chi-Man Pun

弱監視型時間的アクションローカリゼーション（WS-TAL）は、完全なアクションインスタンスを特定し、動画レベルのラベルで分類するタスクです。アクションと背景の曖昧さは、主に集約とアクション内変動に起因する背景ノイズによって引き起こされ、既存のWS-TAL手法にとって重大な課題です。本論文では、この問題に対処するために、ハイブリッドマルチヘッドアテンション（HMHA）モジュールと一般化不確実性に基づく証拠融合（GUEF）モジュールを導入します。提案されたHMHAは、冗長情報をフィルタリングし、WS-TALタスクにより適合するように特徴分布を調整することにより、RGBおよびオプティカルフローフィーチャーを効果的に強化します。さらに、提案されたGUEFは、スニペットレベルの証拠を融合することによって背景ノイズの干渉を自動的に排除し、不確実性測定を洗練し、優れた前景フィーチャー情報を選択することで、モデルが全体のアクションインスタンスに集中できるようにし、より良いアクションローカリゼーションと分類性能を実現します。THUMOS14データセットで行った実験結果は、私たちの手法が最先端の手法を上回ることを示しています。私たちのコードは\url{https://github.com/heyuanpengpku/GUEF/tree/main}で入手可能です。

2024-12-27T03:04:57

Fully Data-driven but Interpretable Human Behavioural Modelling with Differentiable Discrete Choice Model

http://arxiv.org/abs/2412.19403v1

Fumiyasu Makinoshima, Tatsuya Mitomi, Fumiya Makihara, Eigo Segawa

Fujitsu Limited

離散選択モデルは、人間の行動におけるさまざまな意思決定プロセスをモデル化するために不可欠です。しかし、これらのモデルの特性は専門家からのドメイン知識に大きく依存しており、複雑な人間の行動を完全に自動化かつ解釈可能にモデル化することは長年の課題でした。本論文では、微分可能な離散選択モデル（Diff-DCM）を紹介します。これは、複雑な人間の行動の解釈可能なモデル化、学習、予測、制御のための完全にデータ駆動型の方法であり、微分プログラミングによって実現されています。Diff-DCMは、事前知識なしに入力特徴と選択結果からのみ、観察された行動を再現する解釈可能なクローズドフォームの効用関数を推定することができます。合成データと実世界データの両方を用いた包括的な実験では、Diff-DCMがさまざまなタイプのデータに適用でき、推定に必要な計算リソースが少量で済むことが示されました。推定は、加速器なしでラップトップ上で数十秒以内に完了することができます。これらの実験では、Diff-DCMがその微分可能性を利用して、効果的な行動変化のための最適な介入パスなど、人間の行動に関する有用な洞察を提供できることも示しています。この研究は、人間の行動の完全に自動化された信頼性の高いモデル化、予測、制御のための強力な基盤を提供します。

2024-12-27T01:53:18

Comparing Few to Rank Many: Active Human Preference Learning using Randomized Frank-Wolfe

http://arxiv.org/abs/2412.19396v1

Kiran Koshy Thekumparampil, Gaurush Hiranandani, Kousha Kalantari, Shoham Sabach, Branislav Kveton

私たちは限られた比較フィードバックから人間の好みを学習することを研究しています。このタスクは機械学習の中で広く行われています。その応用は、例えば人間のフィードバックに基づく強化学習など、変革的なものとなっています。私たちはこの問題を、通常 $K \ll N$ である $K$ の比較フィードバックから $N$ の選択肢の宇宙に対するプラケット・ルースモデルの学習として定式化します。私たちの解は、プラケット・ルース目的に対するD最適設計です。この設計は、全ての ${N \choose K}$ の実行可能な部分集合から最適に選ばれたポイントの小さなコレクションに対して比較フィードバックを引き出すデータ記録ポリシーを定義します。この作業における主なアルゴリズム上の課題は、D最適設計を解くための迅速な方法であっても $O({N \choose K})$ の時間計算量を持つということです。この問題に対処するために、私たちはランダムに選ばれた変数に対してFW（フランク・ウルフ）法の線形最大化サブプロブレムを解くランダム化フランク・ウルフ（FW）アルゴリズムを提案します。私たちはアルゴリズムを分析し、合成データセットおよびオープンソースのNLPデータセットで実証的に評価します。

2024-12-27T01:10:17

An Engorgio Prompt Makes Large Language Model Babble on

http://arxiv.org/abs/2412.19394v1

Jianshuo Dong, Ziyuan Zhang, Qingjie Zhang, Han Qiu, Tianwei Zhang, Hao Wang, Hewu Li, Qi Li, Chao Zhang, Ke Xu

Tsinghua University, Nanyang Technological University

自己回帰型大規模言語モデル（LLM）は、多くの実世界のタスクで印象的な成果を上げています。しかし、これらのLLMの新しいパラダイムは、新たな脅威も明らかにします。本論文では、悪意のあるユーザーが計算コストと推論プロセスのレイテンシを意図的に増加させるために、エンゴルジオプロンプトを作成する推論コスト攻撃に対する脆弱性を探ります。私たちは、ターゲットLLMのサービス可用性に影響を与えるために、敵対的なエンゴルジオプロンプトを効率的に生成する新しい手法であるエンゴルジオを設計しました。エンゴルジオには、以下の2つの技術的貢献があります。(1) LLMの予測軌道を追跡するために、パラメータ化された分布を使用します。(2) LLMの推論プロセスの自己回帰的特性を対象に、LLMの生成プロセスを中断する< EOS >トークンの出現を安定して抑制するための新しい損失関数を提案します。私たちは、パラメータが125Mから30Bまでの13のオープンソースのLLMに対して広範な実験を実施しました。結果は、エンゴルジオプロンプトがLLMに異常に長い出力（すなわち、出力長の制限の90%+に到達するために約2-13倍長）を生成させることに成功することを示しています。さらに、私たちの実世界の実験は、限られた計算リソースを持つLLMに対するエンゴルジオの脅威を示しています。コードはhttps://github.com/jianshuod/Engorgio-promptで入手可能です。

2024-12-27T01:00:23

An In-Depth Analysis of Adversarial Discriminative Domain Adaptation for Digit Classification

http://arxiv.org/abs/2412.19391v1

Eugene Choi, Julian Rodriguez, Edmund Young

Princeton University

ドメイン適応は、実世界のデータで良好に動作する堅牢な機械学習モデルに対する需要の高まりによって推進される活発な研究分野です。深層ニューラルネットワーク（DNN）のための敵対的学習は、特に画像分類において一般化能力を向上させる有望なアプローチとして登場しました。本論文では、Adversarial Discriminative Domain Adaptation（ADDA）という特定の敵対的学習手法を実装し、元のADDA論文からの数字分類実験を再現します。私たちは、より広範なドメインシフトを検討することで彼らの発見を拡張し、ADDA後のドメイン内分類精度の詳細な分析を提供します。私たちの結果は、ADDAが特定のドメインシフトにおいて精度を大幅に向上させ、ドメイン内のパフォーマンスに対する影響が最小限であることを示しています。さらに、質的な分析を提供し、ADDAの成功があまり見られないドメインシフトにおける限界についての潜在的な説明を提案します。コードは https://github.com/eugenechoi2004/COS429_FINAL にあります。

2024-12-27T00:36:40