2024-12-28 arXiv論文リスト(cs.AI)

About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

※AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 45件

リストから抽出されたキーワード: Transformer-based Contrastive Learning, Diffusion Models, Federated Learning

An analytic theory of creativity in convolutional diffusion models

http://arxiv.org/abs/2412.20292v1

Mason Kamb, Surya Ganguli

私たちは、畳み込み拡散モデルにおける創造性の最初の解析可能で解釈可能かつ予測的な理論を得ました。実際に、スコアベースの拡散モデルは、訓練データから大きく離れた非常に創造的な画像を生成することができます。しかし、最適スコアマッチング理論は、これらのモデルが記憶された訓練サンプルしか生成できないはずだと示唆しています。この理論と実験のギャップを調和させるために、私たちは、(1) 最適スコアマッチングを防ぐことによって組み合わせ的な創造性の形を誘導する局所性と同変性という2つのシンプルな帰納的バイアスを特定しています。これにより、(2) 完全に解析的で完全に機械的に解釈可能な同変局所スコア(ELS)マシンが実現され、(3) 訓練なしで訓練された畳み込みのみの拡散モデル(ResNetsやUNetsのような)の出力を高い精度で定量的に予測することができます(CIFAR10、FashionMNIST、MNISTで中央値$r2$はそれぞれ$0.90、0.91、0.94$)。私たちのELSマシンは、拡散モデルが異なる画像位置で異なる局所訓練セットパッチを混ぜ合わせることによって、指数的に多くの新しい画像を生成する、局所的一貫性のあるパッチモザイクモデルの創造性を明らかにします。私たちの理論はまた、事前訓練された自己注意機能付きUNetsの出力を部分的に予測し(CIFAR10で中央値$r2 \sim 0.75$)、局所パッチモザイクから意味的な整合性を切り出す注意の興味深い役割を明らかにします。

2024-12-28T22:33:29


Transformer-Based Contrastive Meta-Learning For Low-Resource Generalizable Activity Recognition

http://arxiv.org/abs/2412.20290v1

Junyao Wang, Mohammad Abdullah Al Faruque

University of California, Irvine

深層学習は人間の活動認識(HAR)に広く採用されていますが、さまざまなユーザーやシナリオに対してトレーニングされたモデルを一般化することは、分布の変化(DS)によって困難です。HARにおける本質的な低リソースの課題、すなわち、人間が関与する十分なデータの収集とラベリングは非常にコストがかかるため、DSへの対応がさらに難しくなります。私たちは、一般化可能なHARのための新しいトランスフォーマーベースのコントラストメタラーニングアプローチであるTACOを提案します。TACOは、モデルの一般化能力を明示的に考慮してトレーニング中に仮想ターゲットドメインを合成することによってDSに対処します。さらに、トランスフォーマーのアテンションメカニズムを用いて表現力のある特徴を抽出し、メタ最適化の中に教師ありコントラスト損失関数を組み込むことで、表現学習を強化します。私たちの評価は、TACOがさまざまな低リソースのDSシナリオで著しく優れたパフォーマンスを達成することを示しています。

2024-12-28T21:57:12


High-fidelity social learning via shared episodic memories enhances collaborative foraging through mnemonic convergence

http://arxiv.org/abs/2412.20271v1

Ismael T. Freire, Paul Verschure

Donders Institute for Brain, Cognition and Behaviour, Radboud University, Alicante Institute of Neuroscience, Universidad Miguel Hernandez de Elche

社会的学習は文化的進化の重要な基盤であり、個人が他者を観察し模倣することで知識を獲得することを可能にします。その効果の中心には、特定の行動シーケンスをエンコードして学習と意思決定を促進するエピソード記憶があります。本研究は、集合的採餌におけるエピソード記憶と社会的学習の相互関係を探ります。エピソード記憶に保存された完全な行動シーケンスを共有できる順次エピソード制御(SEC)エージェントを用いて、社会的学習の頻度と忠実度の変動が協力的採餌パフォーマンスにどのように影響を与えるかを調査します。さらに、集団内での社会的学習のエピソード記憶の内容と分布に与える影響を分析します。高忠実度の社会的学習は、リソースの収集効率と分配を一貫して向上させ、その効果は記憶の長さにかかわらず持続します。対照的に、低忠実度の学習は非社会的学習よりも優れたパフォーマンスを発揮せず、多様で効果のない記憶パターンを広げるだけです。記憶の指標を用いた新しい分析は、高忠実度の社会的学習が記憶のグループ整合性や公平なリソース分配をも促進することを明らかにし、低忠実度の条件ではパフォーマンス向上に結びつかず記憶の多様性が増すことを示しています。また、このタスクにおけるエピソード記憶の長さに最適な範囲を特定し、それを超えるとパフォーマンスが頭打ちになることも示しています。これらの結果は、記憶のグループ整合性と分配に対する社会的学習の重要な影響を強調し、文化的進化を促進する認知メカニズムを探るための神経計算モデルの可能性を明らかにしています。

2024-12-28T20:55:38


http://arxiv.org/abs/2412.20231v1

Mallory Knodel, Andrés Fábrega, Daniella Ferrari, Jacob Leiken, Betty Li Hou, Derek Yen, Sam de Alfaro, Kyunghyun Cho, Sunoo Park

New York University, Cornell University

エンドツーエンド暗号化(E2EE)は、全世界の何十億ものユーザーに強力な機密性およびプライバシーの保証をもたらし、通信を保護するための金標準となりました。しかし、E2EEシステムを含む人工知能(AI)モデルの広範な統合に向けた現在の動きは、いくつかの深刻なセキュリティの懸念を引き起こしています。本研究は、AIモデルとE2EEアプリケーションの(不)適合性を批判的に検証します。我々は、(1) E2EEアプリケーション内でのAI "アシスタント"の統合、および(2) AIモデルのトレーニングに使用するE2EEデータの使用、という2つの側面でこの問題を探ります。それぞれの潜在的なセキュリティの含意を分析し、E2EEのセキュリティ保証との対立を特定します。次に、AI統合がE2EEが約束する機密性を損なう可能性があることを考慮し、E2EEアプリケーションにおけるAIモデルの統合の法的含意を分析します。最後に、我々は技術的および法的分析に基づく詳細な推奨リストを提供します。これには、E2EEセキュリティを維持するために優先すべき技術設計の選択、サービス提供者がE2EEセキュリティを正確に表現する方法、AI機能のデフォルトの動作およびユーザーの同意を求める際のベストプラクティスが含まれています。私たちは、この論文がAIの急速な展開とE2EEが提供するセキュリティとの間に生じる緊張についての情報に基づいた議論を活性化し、新しいAI機能の責任ある開発を導くことを期待しています。

2024-12-28T17:59:21


Leveraging Large Language Models for Enhancing Autonomous Vehicle Perception

http://arxiv.org/abs/2412.20230v1

Athanasios Karagounis

自律走行車(AV)は、その周囲を解釈するために高度な知覚システムに依存しており、安全なナビゲーションと意思決定のための基盤となっています。大規模言語モデル(LLM)をAV知覚フレームワークに統合することは、動的環境、センサーフュージョン、および文脈的推論における課題に対処する革新的なアプローチを提供します。この論文では、LLMをAV知覚に組み込むための新しいフレームワークを提案し、高度な文脈理解、シームレスなセンサー統合、および強化された意思決定サポートを可能にします。実験結果は、LLMがAV知覚システムの精度と信頼性を大幅に向上させることを示しており、安全でよりインテリジェントな自律走行技術への道を切り開いています。従来の方法を超えた知覚の範囲を拡大することで、LLMはより適応的で人間中心の運転エコシステムの構築に寄与し、自律走行車の運用をより信頼性が高く透明にします。これらの進展は、人間のドライバーと自律システムの関係を再定義し、理解の向上とパーソナライズされた意思決定を通じて信頼を促進します。さらに、記憶モジュールと適応学習メカニズムを統合することで、LLMはAV知覚における継続的な改善を導入し、車両が時とともに進化し、変化する環境やユーザーの好みに適応できるようにします。

2024-12-28T17:58:44


Decoding Emotion: Speech Perception Patterns in Individuals with Self-reported Depression

http://arxiv.org/abs/2412.20213v1

Guneesh Vats, Priyanka Srivastava, Chiranjeevi Yarra

現在の研究は、インドの人口における自己報告された抑うつ症状と感情的なスピーチの知覚の関係を調査しています。PANASとPHQ-9を使用して、それぞれ現在の気分と抑うつを評価しました。参加者の感情的反応性は、提示された感情的スピーチ音声に対して、バレンスと覚醒の尺度で記録されました。中立的な感情を描いた音声ファイルを除き、抑うつ群と非抑うつ群の間で感情刺激について有意差は観察されませんでした。抑うつ群のPANASスコアが非抑うつ群より有意に高いことは、先天的な気分が現在の気分状態に影響を与えることを示しています。以前の研究結果とは対照的に、この研究では抑うつ群によるポジティブな感情的反応性の低下は観察されませんでした。しかし、結果は、悲しみや怒りを描写したスピーチ刺激に対する感情的反応性の一貫性を示しました。

2024-12-28T16:54:25


Building a Rich Dataset to Empower the Persian Question Answering Systems

http://arxiv.org/abs/2412.20212v1

Mohsen Yazdinejad, Marjan Kaedi

質問応答システムは、質問に対して短く、正確で具体的な回答を提供します。これまで、多くの堅牢な質問応答システムが英語向けに開発されてきましたが、ペルシャ語のようなリソースが少ない言語には標準データセットがほとんどありません。本研究では、ペルシャ語のための包括的なオープンドメインデータセットを提案します。このデータセットはNextQuADと呼ばれ、7,515のコンテキスト、23,918の質問と回答を含んでいます。その後、ParsBERTとXLM-RoBERTaという2つの事前学習済み言語モデルを用いて、このデータセットにBERTベースの質問応答モデルを適用しました。これら2つのモデルの結果は、平均ロジットを使用してアンサンブルされました。開発セットに対する評価では、0.95の正確な一致(EM)と0.97のF1スコアを示しました。また、NextQuADを他のペルシャ語データセットと比較するために、NextQuADで訓練された私たちのモデルは、PersianQAとParSQuADという2つの他のデータセットで評価されました。比較の結果、提案されたモデルはそれぞれPersianQAとParSQuAD-manualでEMを0.39と0.14増加させる一方、ParSQuAD-automaticではわずかにEMが0.007低下しました。

2024-12-28T16:53:25


Towards Real-Time 2D Mapping: Harnessing Drones, AI, and Computer Vision for Advanced Insights

http://arxiv.org/abs/2412.20210v2

Bharath Kumar Agnur

この論文では、ドローン画像と機械学習、コンピュータビジョンを組み合わせた先進的なマッピングシステムを紹介し、さまざまな地形における速度、精度、適応性の課題を克服します。特徴検出、画像マッチング、ステッチングなどのプロセスを自動化することにより、システムは最小限の遅延でシームレスで高解像度のマップを生成し、防衛作戦における戦略的な利点を提供します。Pythonで開発されたこのシステムは、画像処理にOpenCV、効率的な計算にはNumPy、並列実行にはConcurrent.futuresを利用しています。特徴検出にはORB(Oriented FAST and Rotated BRIEF)が使用され、FLANN(Fast Library for Approximate Nearest Neighbors)は正確なキーポイントマッチングを保証します。ホモグラフィー変換により、重なり合った画像が整列され、歪みのない地図がリアルタイムで生成されます。この自動化により手動介入が排除され、急速に変化する環境において重要なライブ更新が可能です。多様性を考慮して設計されたこのシステムは、さまざまな照明条件と厳しい地形の下でも信頼性を持って機能し、航空宇宙および防衛アプリケーションに非常に適しています。テストでは、従来の方法と比較して処理速度と精度に顕著な改善が見られ、状況認識と情報に基づく意思決定の向上をもたらしています。このスケーラブルなソリューションは、最先端の技術を活用して、ミッションにおいて重要な運用のための実用的で信頼できるデータを提供します。

2024-12-28T16:47:18


Injecting Explainability and Lightweight Design into Weakly Supervised Video Anomaly Detection Systems

http://arxiv.org/abs/2412.20201v1

Wen-Dong Jiang, Chih-Yung Chang, Hsiang-Chuan Chang, Ji-Yuan Chen, Diptendu Sinha Roy

弱監視モニタリング異常検出(WSMAD)は、スマートシティモニタリングにおいて重要なタスクである異常を特定するために弱監視学習を利用します。しかし、既存のマルチモーダルアプローチは、その複雑性のためにエッジデバイスのリアルタイム性や解釈可能性の要件を満たせないことがよくあります。本論文では、TCVADS(2段階クロスモーダルビデオ異常検出システム)を提案します。このシステムは知識蒸留とクロスモーダル対比学習を活用し、エッジデバイス上で効率的、正確かつ解釈可能な異常検出を実現します。TCVADSは2つの段階で動作します:粗粒度の迅速分類と微粒度の詳細分析です。第一段階では、TCVADSがビデオフレームから特徴を抽出し、それを時系列分析モジュールに入力します。このモジュールは教師モデルとして機能します。次に、知識蒸留を通じて洞察を簡素化された畳み込みネットワーク(生徒モデル)に転送し、二値分類を行います。異常を検出すると、第二段階がトリガーされ、精密なマルチクラス分類モデルを使用します。この段階では、CLIPを使用してテキストと画像とのクロスモーダル対比学習を行い、解釈可能性を高め、特別に設計された三重テキスト関係を通じて精緻な分類を達成します。実験結果は、TCVADSがモデル性能、検出効率、および解釈可能性において既存の手法を大幅に上回り、スマートシティモニタリングアプリケーションに貴重な貢献を提供することを示しています。

2024-12-28T16:24:35


Federated Unlearning with Gradient Descent and Conflict Mitigation

http://arxiv.org/abs/2412.20200v1

Zibin Pan, Zhichao Wang, Chi Li, Kaiyan Zheng, Boqi Wang, Xiaoying Tang, Junhua Zhao

フェデレーテッドラーニング(FL)は近年多くの注目を集めています。しかし、クライアントはFLにおいて自分のデータを共有する必要がないにもかかわらず、グローバルモデル自体はクライアントのローカルデータを暗黙的に記憶する可能性があります。したがって、プライバシー漏洩のリスクを軽減し、「忘れられる権利」を実装するために、ターゲットクライアントのデータをFLのグローバルモデルから効果的に削除する必要があります。フェデレーテッドアンラーニング(FU)は、完全な再訓練なしでデータを削除する有望な方法と考えられています。しかし、アンラーニングの過程で勾配の競合により、モデルの有用性が著しく低下することがあります。さらに、モデルの有用性を回復するためのポストトレーニングを行う際、モデルはもともとアンラーニングされた内容に戻りやすくなる傾向があります。これらの問題に対処するために、私たちは直交最急降下法によるフェデレーテッドアンラーニング(FedOSD)を提案します。まず、勾配の上昇の収束問題を克服するために、アンラーニング用のクロスエントロピー損失を設計します。そして、他のクライアントの勾配と競合しないように、かつターゲットクライアントの勾配に最も近い条件で、アンラーニングのための最急降下方向を計算します。これにより、効果的にアンラーニングを行い、モデルの有用性の低下を軽減します。アンラーニング後には、アンラーニングの達成を維持することによってモデルの有用性を回復します。最後に、いくつかのFLシナリオでの広範な実験により、FedOSDがアンラーニングとモデルの有用性の観点で最先端のFUアルゴリズムを上回ることが確認されました。

2024-12-28T16:23:10


Lower bounds on transformers with infinite precision

http://arxiv.org/abs/2412.20195v1

Alexander Kozachinskiy

このノートでは、VC次元技術を使用して、無限精度の1層ソフトマックストランスフォーマーに対する最初の下限を証明します。これをするために、Peng、Narayanan、Papadimitriouによって考慮された関数合成タスクと、Sanford、Hsu、Telgarskyによって考慮されたSUM$_2$タスクの2つのタスクを扱います。

2024-12-28T16:09:25


Imitation Learning from Suboptimal Demonstrations via Meta-Learning An Action Ranker

http://arxiv.org/abs/2412.20193v1

Jiangdong Fan, Hongcai He, Paul Weng, Hui Xu, Jie Shao

University of Electronic Science and Technology of China, Duke Kunshan University, Sichuan Artificial Intelligence Research Institute

模倣学習における主要なボトルネックは、大量の専門家デモンストレーションが必要であることであり、それは高価であったりアクセスが困難であったりします。厳密な品質要件なしに補助的なデモンストレーションから学ぶことが、この課題に対処するための強力なパラダイムとして浮上しています。しかし、従来の方法では、専門家データでないものを排除することでその可能性を十分に活用できていないことがよくあります。私たちの重要な洞察は、たとえ専門家の分布の外にあるデモンストレーションであっても、学習したポリシーより優れている場合、ポリシーの性能を向上させることができるということです。この可能性を利用するために、私たちは「行動ランカーを用いたメタ学習による模倣学習(ILMAR)」という新しいアプローチを提案します。ILMARは、限られた専門家デモンストレーションセットとともに補助的デモンストレーションに対して加重行動クロー二ング(加重BC)を実装します。これは、アドバンテージ関数の機能を利用して、補助的デモンストレーションからの知識を選択的に統合します。補助的デモンストレーションをより効果的に活用するために、ILMARにメタゴールを導入して、現在のポリシーと専門家ポリシーの間の距離を明示的に最小化することでアドバンテージ関数の機能を最適化します。広範なタスクを用いた包括的な実験により、ILMARは非最適デモンストレーションを扱う際に従来の方法に比べて著しく優れていることが示されています。コードは https://github.com/F-GOD6/ILMAR で入手可能です。

2024-12-28T16:06:44


Real-time Calibration Model for Low-cost Sensor in Fine-grained Time series

http://arxiv.org/abs/2412.20170v1

Seokho Ahn, Hyungjin Kim, Sungbok Shin, Young-Duk Seo

University of Maryland, College Park

センサーからの正確な測定は重要ですが、データは通常、低コストで低技術のシステムから収集されるため、しばしば不正確です。そのため、さらなるキャリブレーションが必要です。この目的のために、まず実際の低技術センサー条件下での効果的なキャリブレーションのための3つの要件を特定します。これらの要件に基づいて、我々はTESLAというモデルを開発します。TESLAは、対数ビン注意を利用した効果的なセンサーキャリブレーションのためのトランスフォーマーです。TESLAは、高性能の深層学習モデルであるトランスフォーマーを使用してキャリブレーションを行い、非線形の要素を捉えます。その核となるのは、注意の複雑性を最小限に抑えるために、対数ビニングを採用していることです。TESLAは、ハードウェア制約のあるシステムにおいても、長いシーケンスやより細かい時間系列であっても、一貫したリアルタイムのキャリブレーションを実現します。実験結果は、TESLAが精度、キャリブレーション速度、エネルギー効率において既存の新しい深層学習モデルや新たに作成された線形モデルよりも優れていることを示しています。

2024-12-28T14:58:46


LoL-PIM: Long-Context LLM Decoding with Scalable DRAM-PIM System

http://arxiv.org/abs/2412.20166v1

Hyucksung Kwon, Kyungmo Koo, Janghyeon Kim, Woongkyu Lee, Minjae Lee, Hyungdeok Lee, Yousub Jung, Jaehan Park, Yosub Song, Byeongsu Yang, Haerang Choi, Guhyun Kim, Jongsoon Won, Woojae Shin, Changhyun Kim, Gyeongcheol Shin, Yongkee Kwon, Ilkon Kim, Euicheol Lim, John Kim, Jungwook Choi

Hanyang University, Solution Advanced Technology, SK hynix, KAIST

大規模言語モデル(LLM)の拡張は、数百億のパラメータを持ち、計算リソース、特にデータ移動とメモリ帯域幅に対して重大な課題を提示します。数万トークンのシーケンスを処理する長いコンテキストのLLMは、注意層の複雑さとキー・バリューキャッシュのサイズがコンテキストの長さに比例するため、メモリシステムに対する要求をさらに高めます。プロセッシング・イン・メモリ(PIM)は、計算をデータに移動させることによってメモリ帯域幅を最大化し、メモリ帯域幅の課題に対応できますが、PIMはモジュールあたりの限られたメモリ容量と固定機能ユニットPIMアーキテクチャおよび静的メモリ管理の柔軟性のなさにより、長いコンテキストのLLMを加速するために必ずしもスケーラブルではありません。本研究では、ハードウェア・ソフトウェア共同設計を通じて長いコンテキストのLLMを加速するマルチノードPIMアーキテクチャであるLoL-PIMを提案します。具体的には、マルチPIMモジュール間でパイプライン並列性を活用する方法を提案し、動的なPIMメモリ管理を可能にし、さまざまなコンテキスト長に対してPIMの利用効率を向上させる直接PIMアクセス(DPA)コントローラー(またはPIM用DMA)を提案します。私たちは、商業用のPIMベースのコンパイラを拡張したLoL-PIM用のMLIRベースのコンパイラを開発し、ソフトウェアの変更が実装され評価された一方で、ハードウェアの変更はシミュレーターでモデル化されました。評価の結果、LoL-PIMは長いコンテキストのLLM推論のスループットを大幅に改善し、レイテンシを低減し、マルチGPUおよびGPU-PIMシステムの両方を上回る(それぞれ最大8.54倍および16.0倍のスピードアップ)ことが示され、これにより実世界のアプリケーションにおけるLLMのより効率的な展開が可能になります。

2024-12-28T14:38:16


StyleAutoEncoder for manipulating image attributes using pre-trained StyleGAN

http://arxiv.org/abs/2412.20164v1

Andrzej Bedychaj, Jacek Tabor, Marek Śmieja

ディープ条件生成モデルは、高品質な画像を生成し、その属性を編集するための優れたツールです。しかし、最新の生成モデルをゼロからトレーニングすることは非常に高価であり、大規模な計算リソースを必要とします。本論文では、スタイルオートエンコーダ(StyleAutoEncoder、StyleAE)という軽量なオートエンコーダモジュールを紹介します。これは事前トレーニングされた生成モデルのプラグインとして機能し、画像の要求された属性を操作することを可能にします。提案された方法は、限られた計算リソースでディープ生成モデルをトレーニングするためのコスト効果的な解決策を提供し、さまざまなアプリケーションにおいて有望な技術となります。私たちは、現在最も優れた生成モデルの1つであるスタイルGAN(StyleGAN)と組み合わせて、スタイルオートエンコーダを評価します。我々の実験は、スタイルオートエンコーダが、可逆的正規化フローに基づく最先端のアルゴリズムと同等以上に画像属性を操作するのに効果的であることを示しています。しかし、スタイルオートエンコーダはよりシンプルで、速く、ニューラルネットワークの設計においてより自由度を提供します。

2024-12-28T14:30:48


Topic-Aware Knowledge Graph with Large Language Models for Interoperability in Recommender Systems

http://arxiv.org/abs/2412.20163v1

Minhye Jeon, Seokho Ahn, Young-Duk Seo

Inha University

知識グラフを用いたレコメンダーシステムの利用は、データのスパース性やコールドスタート問題に対処するための一般的なアプローチの一つとなっています。最近の大規模言語モデル(LLM)の進展は、知識グラフ内でのサイド情報やコンテキスト情報の処理に新たな可能性を提供しています。しかし、ドメイン専門家の介入が必要であり、システムの特性の違いから、さまざまなシステム全体での一貫した統合は依然として困難です。これらの問題に対処するために、我々はLLMを使用してサイド情報とコンテキスト情報の両方から、一般的なトピックと特定のトピックの両方を抽出する一貫したアプローチを提案します。まず、一般的なトピックがサイド情報から反復的に抽出され、更新されます。次に、コンテキスト情報を使用して特定のトピックが抽出されます。最後に、特定のトピック抽出プロセス中に生成された同義的なトピックに対処するために、洗練アルゴリズムを利用してこれらの問題を効果的に処理し、解決します。このアプローチにより、一般的なトピックは多様なアイテム特性にわたる広範な知識を捉え、一方で特定のトピックは詳細な属性を強調し、アイテムの意味的特徴やユーザーの嗜好についてのより包括的な理解を提供します。実験結果は、多様な知識グラフにおけるレコメンデーション性能の大幅な改善を示しています。

2024-12-28T14:27:45


Stable-TTS: Stable Speaker-Adaptive Text-to-Speech Synthesis via Prosody Prompting

http://arxiv.org/abs/2412.20155v1

Wooseok Han, Minki Kang, Changhun Kim, Eunho Yang

KAIST, AITRICS

スピーカー適応型テキスト音声合成(TTS)は、パーソナライズされた音声アシスタントサービスなど、幅広いアプリケーションのために注目を集めています。いくつかのアプローチが提案されていますが、これらはしばしばターゲット音声サンプルの量または質に対して高い感度を示します。これらの制限を克服するために、我々はStable-TTSを提案します。これは、高品質の事前学習データセットの小さなサブセットを利用する新しいスピーカー適応型TTSフレームワークであり、これを「事前サンプル」と呼びます。具体的には、Stable-TTSは、事前サンプルの高品質の韻律を活用することで韻律の一貫性を達成し、ターゲットスピーカーの音色を効果的に捉えます。さらに、ターゲットサンプルに過剰適合しないよう、事前サンプルの合成能力を維持するためにファインチューニング中に事前保持損失を採用しています。広範な実験により、限られた量の音声サンプルやノイズが含まれるターゲット音声サンプルの下でも、Stable-TTSの効果ivenessが示されています。

2024-12-28T13:54:30


TradingAgents: Multi-Agents LLM Financial Trading Framework

http://arxiv.org/abs/2412.20138v1

Yijia Xiao, Edward Sun, Di Luo, Wei Wang

自動問題解決において、大規模言語モデル(LLM)によって駆動されるエージェントの社会を用いた重要な進展がありました。金融分野では、主に特定のタスクを処理する単一エージェントシステムや、独立してデータを収集するマルチエージェントフレームワークに焦点が当てられてきました。しかし、マルチエージェントシステムがリアルワールドのトレーディング会社の協調的なダイナミクスを再現する可能性は十分に探求されていません。TradingAgentsは、トレーディング会社に触発された新しい株式取引フレームワークを提案します。このフレームワークは、ファンダメンタル分析者、センチメント分析者、テクニカル分析者、リスクプロファイルの異なるトレーダーなどの専門的な役割を持つLLM駆動のエージェントで構成されています。このフレームワークには、市場の状況を評価するブル及びベアリサーチエージェント、エクスポージャーを監視するリスク管理チーム、議論や歴史的データから洞察を統合して情報に基づいた意思決定を行うトレーダーが含まれています。動的で協調的な取引環境をシミュレートすることで、このフレームワークは取引パフォーマンスの向上を目指しています。詳細なアーキテクチャと広範な実験により、ベースラインモデルに対する優位性が明らかになり、累積リターン、シャープレシオ、最大ドローダウンにおいて顕著な改善が示され、金融取引におけるマルチエージェントLLMフレームワークの可能性が強調されています。

2024-12-28T12:54:06


M-MAD: Multidimensional Multi-Agent Debate Framework for Fine-grained Machine Translation Evaluation

http://arxiv.org/abs/2412.20127v1

Zhaopeng Feng, Jiayuan Su, Jiamei Zheng, Jiahan Ren, Yan Zhang, Jian Wu, Hongwei Wang, Zuozhu Liu

Zhejiang University, National University of Singapore

最近の大規模言語モデル(LLM)の進展は、LLMを裁判官として用いるパラダイムを生み出し、人間らしい判断を提供する可能性を示しています。しかし、機械翻訳(MT)評価の分野では、現在のLLMを裁判官として用いる手法は、学習された自動評価指標には及びません。本論文では、先進的なLLMを裁判官として用いるMT評価のための体系的なLLMベースのマルチエージェントフレームワークである多次元マルチエージェント討論(M-MAD)を提案します。我々の研究結果は、M-MADが次の方法で重要な進展を遂げることを示しています。(1) ヒューリスティックなMQM基準を明確な評価次元に分離し、詳細な評価を実現する。(2) マルチエージェント討論を用いてLLMの協調的推論能力を活用する。(3) 次元特有の結果を最終評価判断に統合し、堅牢で信頼性の高い結果を保証する。包括的な実験により、M-MADは既存のすべてのLLMを裁判官として用いる手法を上回るだけでなく、最先端の参照ベースの自動指標とも競争できることが示されました。たとえGPT-4o miniのような最適でないモデルであってもです。詳細なアブレーションと分析は、我々のフレームワーク設計の優位性を浮き彫りにし、LLMを裁判官として用いるパラダイムに新たな視点を提供します。我々のコードとデータは、https://github.com/SU-JIAYUAN/M-MAD で公開されています。

2024-12-28T12:11:28


SyncDiff: Synchronized Motion Diffusion for Multi-Body Human-Object Interaction Synthesis

http://arxiv.org/abs/2412.20104v1

Wenkun He, Yun Liu, Ruitao Liu, Li Yi

Tsinghua University, Shanghai Qi Zhi Institute, Shanghai Artificial Intelligence Laboratory

リアルな人間と物体の相互作用モーションを合成することは、VR/ARや人間のアニメーションにおいて重要な問題です。一般的に研究されているシナリオが単一の人間または手が一つの物体と相互作用することに焦点を当てているのに対し、我々は任意の数の人間、手、物体を含むより一般的な多体設定に取り組みます。この複雑さは、体同士の高い相関や相互影響のためにモーションの同期に大きな課題をもたらします。これらの課題に対処するため、我々はSyncDiffという新しい手法を提案します。これは、同期されたモーション拡散戦略を使用した多体相互作用合成のための新しい方法です。SyncDiffは、単一の拡散モデルを使用して多体モーションの共同分布をキャプチャします。モーションの忠実度を向上させるため、周波数領域のモーション分解スキームを提案します。さらに、異なる体のモーションの同期を強調するための新しい一連のアライメントスコアを導入します。SyncDiffは、明示的な同期戦略を通じてデータサンプルの尤度とアライメントの尤度の両方を共同で最適化します。様々な多体構成の4つのデータセットにおける広範な実験は、既存の最先端モーション合成手法に対してSyncDiffの優位性を実証しています。

2024-12-28T10:12:12


RFPPO: Motion Dynamic RRT based Fluid Field - PPO for Dynamic TF/TA Routing Planning

http://arxiv.org/abs/2412.20098v1

Rongkun Xue, Jing Yang, Yuyang Jiang, Yiming Feng, Zi Yang

既存のローカル動的経路計画アルゴリズムは、地形追従/地形回避、または大中型固定翼航空機の動的障害物回避に直接適用した場合、リアルタイム性能、長距離計画、および大中型航空機の動的制約要件を同時に満たすことができません。この問題に対処するために、本論文では動的TF/TA経路計画のための運動動的RRTベースの流体場 - PPOを提案します。まず、近接ポリシー勾配アルゴリズムのアクションおよび状態空間を、擾乱流場と人工ポテンシャル場アルゴリズムを用いて再設計し、航空機の動力学モデルを構築し、このモデルに基づいて状態遷移プロセスを設計します。さらに、障害物回避、地形追従、地形回避、安全飛行の戦略を奨励するための報酬関数を設計します。実際のDEMデータに基づく実験結果は、我々のアルゴリズムが動的制約に従った衝突のない軌道計画を通じて長距離飛行タスクを完了できることを示しており、事前のグローバル計画を必要としません。

2024-12-28T09:42:02


From Worms to Mice: Homeostasis Maybe All You Need

http://arxiv.org/abs/2412.20090v1

Jesus Marco de Lucas

Instituto de Física de Cantabria, CSIC, Universidad de Cantabria

この簡潔で投機的なコメントでは、機械学習におけるニューラルネットワークに触発されたアイデアを探ります。刺激的および抑制的な接続を含む単純なニューラルXORモチーフが、生物の神経回路における関連する可塑性の基盤を提供し、ホメオスタシスを唯一の指針原則とする可能性を提案します。このXORモチーフは、到達信号と参照信号の間の不一致を単に示し、神経回路の学習における損失関数の基盤を提供し、同時にこれらの到達信号の伝播を停止することでホメオスタシスを調節します。コアモチーフは、興奮性ニューロンと抑制性ニューロンの比率が4:1であり、「ウィナー・テイクス・オール」(WTA)メカニズムのような広範な神経パターンを支援しています。私たちは、異なる複雑さを持つさまざまな生物の公開コネクトームにおけるXORモチーフの普及を調査し、C. elegansの数十から、いくつかのショウジョウバエの神経節における数百万、さらにはマウスV1視覚皮質における数千万以上にわたることを発見しました。もしこの仮説が確認されれば、我々の仮説は機械学習モデルに類似した三つの重要なコンポーネントのうちの二つを特定します:アーキテクチャと損失関数です。そして、我々は、関連する種類の生物学的神経可塑性は、進化を通じて生物の複雑さが増すにもかかわらず持続し適応してきた基本的な制御または調整システムによって単純に駆動されると提案します。

2024-12-28T09:17:09


An archaeological Catalog Collection Method Based on Large Vision-Language Models

http://arxiv.org/abs/2412.20088v1

Honglin Pang, Yi Chang, Tianjing Duan, Xi Yang

Jilin University

考古学のカタログは、遺物の画像、形態的な説明、発掘情報などの重要な要素を含んでおり、遺物の進化や文化的継承を研究するために不可欠です。これらのデータは出版物に広く散在しており、自動収集方法が必要です。しかし、既存の大規模視覚言語モデル(VLM)およびその派生データ収集方法は、考古学のカタログを処理する際に正確な画像検出とモダリティの一致に関する課題に直面しており、自動収集が難しくなっています。これらの問題に対処するために、私たちは大規模視覚言語モデルに基づく新しい考古学カタログ収集方法を提案します。この方法は、文書の位置特定、ブロックの理解、ブロックの一致という3つのモジュールから構成されています。DabagouおよびMiaozigouの陶器カタログからの実際のデータ収集と比較実験を通じて、私たちのアプローチの効果を実証し、考古学カタログの自動収集に対する信頼できる解決策を提供します。

2024-12-28T09:10:41


On the Validity of Traditional Vulnerability Scoring Systems for Adversarial Attacks against LLMs

http://arxiv.org/abs/2412.20087v1

Atmane Ayoub Mansour Bahar, Ahmad Samer Wazan

この研究は、Common Vulnerability Scoring System (CVSS)のような確立された脆弱性指標が、大規模言語モデル(LLMs)に対する攻撃、特に敵対的攻撃(AAs)の評価においてどれほど効果的であるかを調査します。この研究では、一般的な指標要因と特定の指標要因の両方が脆弱性スコアの決定に与える影響を探求し、これらの指標の潜在的な改善に関する新たな視点を提供します。

この研究は定量的アプローチを採用し、56種類の敵対的攻撃に対する脆弱性スコアの変動係数を計算し比較しました。攻撃はさまざまな研究論文から収集され、オンラインデータベースを通じて取得され、複数の脆弱性指標を用いて評価されました。スコアは、3つの異なるLLMによって評価された値の平均をとることによって決定されました。

結果は、既存のスコアリングシステムが異なる攻撃間で最小限の変動を持つ脆弱性スコアを生成することを示しており、多くの指標要因はLLMsに対する敵対的攻撃を評価するには不十分であることを示唆しています。これは特に、CVSSのような事前定義された値セットを持つ文脈特有の要因に当てはまります。これらの発見は、現在の脆弱性指標、特に硬直した値を持つものがLLMsに対するAAsの評価において限界があるという仮説を支持しており、そのため、このような攻撃に特化したより柔軟で一般化された指標の開発の必要性を強調しています。

この研究は、特に最近注目を集めている大規模言語モデルに対する敵対的攻撃の文脈において、確立された脆弱性指標の効果と適用可能性についての新たな分析を提供します。広範なテストと計算を通じて、この研究はこれらの指標の限界を強調し、LLMsに特化した脆弱性評価フレームワークの改善と洗練のための新たな道を切り開いています。

2024-12-28T09:08:37


http://arxiv.org/abs/2412.20086v1

Zhaohui Wang, Min Zhang, Jingran Yang, Bojie Shao, Min Zhang

East China Normal University

ディープニューラルネットワーク(DNN)は、さまざまな応用において強力な性能を示しており、意思決定システムでの利用が増えています。しかし、DNNにおける公正性に関する懸念は常に存在します。個々の公正性に関する効率的なホワイトボックス公平性テスト手法が提案されています。それにもかかわらず、ブラックボックス手法の開発は停滞しており、既存の手法の性能はホワイトボックス手法に比べて大きく劣っています。本論文では、モデル非依存型公正性テスト(MAFT)と呼ばれる新しいブラックボックス個別公正性テスト手法を提案します。MAFTを活用することで、実務者は特定のアルゴリズムアーキテクチャに依存することなく、ディープラーニングモデルにおける差別を効果的に特定し、対処することができます。我々のアプローチは、シンボル実行のような非自明な手順ではなく、勾配推定や属性摂動のような軽量な手順を採用しているため、既存の手法よりもはるかにスケーラブルで適用可能です。MAFTは最先端のホワイトボックス手法と同じ効果を達成しながら、大規模ネットワークへの適用可能性を改善することを示しています。既存のブラックボックスアプローチと比較して、我々のアプローチは公正性の違反を発見する上での効果(約14.69倍)および効率(約32.58倍)において優れた性能を示しています。

2024-12-28T09:07:06


Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset

http://arxiv.org/abs/2412.20072v2

Chongjian Yue, Xinrun Xu, Xiaojun Ma, Lun Du, Zhiming Ding, Shi Han, Dongmei Zhang, Qi Zhang

Peking University, Chinese Academy of Sciences, Microsoft, Ant Group

大規模言語モデル(LLM)は、テキスト理解や表形式の推論タスクにおいて優れた性能を示しています。しかしながら、テキストデータと表データを含むハイブリッドテキストを理解し分析する能力は、未だ探求されていません。このハイブリッドテキストは、ハイブリッド長文書(HLD)の形で現れることが多く、LLMのトークン制限を大幅に超えています。そのため、私たちは自動情報抽出フレームワークAIE)を適用し、LLMがHLDを処理できるようにし、HLDからの情報抽出の4つの重要な側面を分析する実験を行います。得られた結果は以下の通りです:1) HLDの有用な部分を選択して要約する効果的な方法。2) 簡単な表のシリアル化方法でLLMが表を理解するのに十分であること。3) ナイーブなAIEは多くの複雑なシナリオに適応可能であること。4) HLDにおけるLLMを強化するための有用なプロンプトエンジニアリング。HLDにおけるデータセットの不足の問題に対処し、今後の研究をサポートするために、私たちは「金融報告数値抽出(FINE)」データセットも提案します。このデータセットとコードは、添付ファイルで公開されています。

2024-12-28T07:54:14


On the Compositional Generalization of Multimodal LLMs for Medical Imaging

http://arxiv.org/abs/2412.20070v1

Zhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang

The Chinese University of Hong Kong, Shenzhen

マルチモーダル大規模言語モデル(MLLMs)は医療分野において大きな可能性を秘めていますが、特定の医療分野でのデータ不足がその能力を制限することが多く、MLLMsが一般化のためにどのような種類の画像を使用できるかを理解する必要があります。現在の研究では、異なるタスクが互いに利益をもたらす可能性があるため、マルチタスクレーニングが単一タスクよりも優れていることが示唆されていますが、これらのタスク内の内部関係を見落としてしまうことが多く、特定のタスクを強化するためのデータセット選択に関する限られた指針しか提供していません。この現象を分析するために、私たちは合成一般化(CG)—モデルが学習した要素を再結合することで新しい組み合わせを理解する能力—を指導フレームワークとして採用しようとしました。医療画像はモダリティ、解剖領域、およびタスクによって正確に定義できるため、CGを探る環境を自然に提供します。したがって、私たちは包括的な実験のために106の医療データセットを集めてMed-MATを作成しました。実験結果は、MLLMsがCGを使用して未見の医療画像を理解できることを確認し、CGがマルチタスクレーニングで観察される一般化の主な推進要因の一つであることを特定しました。さらに、追加の研究では、CGがデータが限られたデータセットを効果的にサポートし、さまざまなバックボーンにおいて一貫したパフォーマンスを提供することが示され、その多用途性と広範な適用性が強調されました。Med-MATは、https://github.com/FreedomIntelligence/Med-MAT で公開されています。

2024-12-28T07:50:00


The Emotional Spectrum of LLMs: Leveraging Empathy and Emotion-Based Markers for Mental Health Support

http://arxiv.org/abs/2412.20068v1

Alessandro De Grandi, Federico Ravenda, Andrea Raballo, Fabio Crestani

Università della Svizzera italiana

メンタルヘルスサービスの需要の増加は、特にセンシティブなデータの利用可能性が限られている心理的会話AIの分野において、革新的なソリューションの必要性を浮き彫りにしています。本研究では、説明可能な感情プロファイルと共感的な会話モデルを組み合わせた新しい心理評価アプローチに基づくメンタルヘルスサポート向けのシステムの開発を探求しました。これにより、特に即時の専門知識が利用できない場合に、従来のケアを強化する有望なツールを提供します。私たちの研究は、互いに内在的に関連する二つの主要な部分に分けることができます。まず、RACLETTEという会話システムを紹介します。このシステムは、ユーザーの感情状態を理解し、会話中に共感的な応答を生成する際に、最先端のベンチマークと比較して優れた感情的正確性を示しながら、ユーザーのインタラクションを通じて徐々に感情プロファイルを構築します。次に、ユーザーの感情プロファイルがメンタルヘルス評価の解釈可能な指標としてどのように使用されるかを示します。これらのプロファイルは、異なる精神障害に関連する特性感情パターンと比較できるため、予備的なスクリーニングおよび支援への新しいアプローチを提供します。

2024-12-28T07:42:29


VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition

http://arxiv.org/abs/2412.20064v1

Lan Chen, Haoxiang Yang, Pengpeng Shao, Haoyu Song, Xiao Wang, Zhicheng Zhao, Yaowei Wang, Yonghong Tian

Anhui University, Tsinghua University, Harbin Institute of Technology, Peking University, Peng Cheng Laboratory

RGBおよびイベントカメラを活用したパターン認識は、ファインチューニング戦略を利用した深層ニューラルネットワークを展開することで、パフォーマンスを大幅に向上させることができます。大規模モデルの成功した適用にインスパイアされたこのような大規模モデルの導入は、マルチモーダルタスクのパフォーマンスをさらに向上させるものと考えられます。しかし、これらのモデルを完全にファインチューニングすることは非効率的であり、LoRAやアダプターなどの軽量ファインチューニング手法が提案され、効率とパフォーマンスの良いバランスを実現しています。当社の知識の限りでは、事前にトレーニングされた基盤モデルに基づくRGB-イベント認識のためのパラメータ効率の良いファインチューニング(PEFT)を実施した研究は現在存在しません。この問題に対処するために、本論文では、RGB-イベントベースの分類のために事前にトレーニングされた基盤視覚モデルを適応させる新しいPEFT戦略を提案します。具体的には、RGBフレームとイベントストリームを考慮し、ビジョン基盤モデルViTに基づいてRGBおよびイベント特徴を抽出し、モダリティ固有のLoRAチューニング戦略を適用します。また、二重モダリティのフレーム差も考慮し、フレーム差のバックボーンネットワークを介して動きの手がかりをキャッチします。これらの特徴は連結され、高レベルのトランスフォーマー層に供給されて、モダリティ共有のLoRAチューニングを通じて効率的なマルチモーダル特徴学習が行われます。最終的に、これらの特徴を連結し、分類ヘッドに供給して効率的なファインチューニングを達成します。ソースコードと事前トレーニングされたモデルは、\url{https://github.com/Event-AHU/VELoRA}で公開される予定です。

2024-12-28T07:38:23


CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation

http://arxiv.org/abs/2412.20048v1

Ji-Hoon Kim, Hong-Sun Yang, Yoon-Cheol Ju, Il-Hwan Kim, Byeong-Yeol Kim, Joon Son Chung

Korea Advanced Institute of Science and Technology, 42dot Inc.

この作業の目標は、同じ話者のアイデンティティを維持しながら、複数の言語で自然な音声を生成すること、つまりクロスリンガル音声合成と呼ばれるタスクです。クロスリンガル音声合成の主要な課題は言語と話者の絡み合いの問題であり、これによりクロスリンガルシステムの品質がイントラリンガルシステムに比べて劣ることが原因となっています。本論文では、CrossSpeech++を提案し、言語と話者情報を効果的に分離し、クロスリンガル音声合成の品質を大幅に向上させます。この目的のために、複雑な音声生成パイプラインを言語依存と話者依存の2つの単純なコンポーネントに分けます。言語依存のジェネレーターは、特定の話者属性に偏らない言語的変動を生成します。話者依存のジェネレーターは、話者のアイデンティティを特徴付ける音響的変動をモデル化します。各情報タイプを別々のモジュールで処理することにより、私たちの方法は言語と話者の表現を効果的に分離できます。さまざまな指標を用いて広範な実験を行い、CrossSpeech++がクロスリンガル音声合成において著しい改善を達成し、既存の手法を大きく上回ることを示しました。

2024-12-28T06:32:49


Enhancing Diffusion Models for Inverse Problems with Covariance-Aware Posterior Sampling

http://arxiv.org/abs/2412.20045v1

Shayan Mohajer Hamidi, En-Hui Yang

逆問題は、科学と工学の多くの分野に存在します。コンピュータビジョンの例としては、インペインティングやデブレリング、スーパー解像度といったタスクが逆問題として効果的にモデル化できます。最近、デノイジング拡散確率モデル(DDPM)が、追加のタスク特化型トレーニングなしでノイズのある線形逆問題に対して有望な解決策を提供することが示されています。具体的には、DDPMによって提供される事前情報を使用して、尤度を近似することによって事後分布からサンプリングすることができます。文献では、尤度の近似は逆過程の条件付き密度の平均に基づいて行われることが多く、これはトウィード公式を使用して取得できます。尤度のより良い近似を得るために、本論文ではまず逆過程の共分散の閉形式の公式を導き出します。次に、既存の事前トレーニングされたDDPMから容易に取得できるように、この共分散を近似する有限差分法に基づく方法を提案します。これにより、既存のアプローチと比較して複雑さを増加させないようにします。最後に、逆過程の平均と近似した共分散に基づいて、尤度への新しい近似を提示します。この方法を共分散対応拡散事後サンプリング(CA-DPS)と呼びます。実験結果は、CA-DPSがハイパーパラメータの調整を必要とせずに再構成性能を大幅に改善することを示しています。論文のコードは、補足資料に掲載されています。

2024-12-28T06:17:44


BaiJia: A Large Scale Role-Playing Agent Corpus of Chinese Historical Charcaters

http://arxiv.org/abs/2412.20024v1

Ting Bai, Jiazheng Kang, Jiayang Fan

Beijing University of Posts and Telecommunications

私たちは、BaiJiaと呼ばれる包括的な大規模ロールプレイングエージェントコーパスを紹介します。これは、さまざまな中国の歴史的人物を含んでいます。このコーパスは、AI主導の歴史的ロールプレイエージェントに利用できる低リソースデータの先駆的なコンパイルとして注目に値します。BaiJiaは、異なる形態やモダリティでの断片的な歴史的テキスト記録の課題に対処し、さまざまなキャラクターの情報、例えば伝記、文学、家族関係、歴史的事件などを統合しています。私たちは、BaiJiaエージェントコーパスがさまざまな基盤となるLLMのロールプレイ能力を強化し、歴史的ロールプレイタスクの文脈におけるLLMの開発と評価を促進する上での効果を示すために、広範な実験を行いました。このエージェントコーパスは、baijia.onlineで入手可能です。

2024-12-28T05:01:26


Calibre: Towards Fair and Accurate Personalized Federated Learning with Self-Supervised Learning

http://arxiv.org/abs/2412.20020v1

Sijia Chen, Ningxin Su, Baochun Li

University of Toronto

パーソナライズされたフェデレーテッドラーニングの文脈において、既存のアプローチは、転送可能な表現を抽出するためにグローバルモデルをトレーニングし、それに基づいて任意のクライアントが限られた数のデータサンプルでパーソナライズされたモデルをトレーニングできるようにしています。自己教師あり学習SSL)は、生成されるグローバルモデルが一般的で、すべてのクライアントに対するパーソナライズを公平に促進するため、有望な方向性と見なされています。しかし、クライアント間でデータが異質である場合、SSLを用いてトレーニングされたグローバルモデルは、高品質のパーソナライズされたモデルを学習することができません。本論文では、修正なしでSSLを用いてトレーニングされたグローバルモデルの生成する表現が不明瞭なクラス境界を持つことを示します。その結果、各クライアント内でのパーソナライズ学習は低い精度のモデルを生成します。精度を向上させるため、かつ公平性の利点を損なうことなくSSLを改善するために、Calibreという新しいパーソナライズされたフェデレーテッドラーニングフレームワークを提案します。Calibreは、より一般的な表現とよりクライアント固有の表現との間で適切なバランスを保つことによって、SSLの表現をキャリブレーションするように設計されています。Calibreは理論的に健全な特性に基づいて設計されており、(1) クライアント固有のプロトタイプロスを補助的なトレーニング目的として導入し、(2) クライアント間でそのようなプロトタイプに導かれた集約アルゴリズムを導入します。非独立同分布(non-i.i.d)設定の広範な実験結果において、Calibreはクライアント間の平均精度と公平性の両面で最先端のパフォーマンスを達成することを示しています。コードリポジトリ: https://github.com/TL-System/plato/tree/main/examples/ssl/calibre.

2024-12-28T04:43:39


ProtCLIP: Function-Informed Protein Multi-Modal Learning

http://arxiv.org/abs/2412.20014v1

Hanjing Zhou, Mingze Yin, Wei Wu, Mingyang Li, Kun Fu, Jintai Chen, Jian Wu, Zheng Wang

多モダリティ前学習パラダイムは、タンパク質配列と生物学的記述を整合させることによって、一般的なタンパク質表現を学習し、様々な下流応用において有望なパフォーマンスを達成しました。しかし、これらの研究は、整合したタンパク質-テキストペアデータの不適切な使用と、効果的な機能に基づく前学習パラダイムの欠如のために、言語による監視を受けた視覚基礎モデルの驚異的な成功を再現することができませんでした。これらの問題に対処するために、本論文では、プロパティ駆動のサンプリング戦略を用いて「ProtAnno」と呼ばれる大規模なタンパク質-テキストペアデータセットを作成し、新しい機能に基づくタンパク質前学習パラダイムを導入します。具体的には、サンプリング戦略はサンプルの信頼度とプロパティのカバレッジに基づいて選択確率を決定し、大規模なノイズの多いデータに対抗する際にデータの質と量のバランスを取ります。さらに、タンパク質特有の機能メカニズムの重要性に動機付けられ、提案されたパラダイムは、二つのセグメント単位の前学習目標によってタンパク質の静的および動的機能セグメントを明示的にモデル化し、機能に基づいた方法で詳細な情報を注入します。これらの革新を活用して、我々は機能に配慮したタンパク質埋め込みを包括的に表現する多モダリティ基盤モデル「ProtCLIP」を開発しました。タンパク質の機能分類、変異の影響予測、クロスモーダル変換、意味的類似性推論、タンパク質-タンパク質相互作用予測を含む5種類の22の異なるタンパク質ベンチマークにおいて、我々のProtCLIPは一貫して最先端の性能を達成し、五つのクロスモーダル変換ベンチマークで平均75%、GO-CCで59.9%、GO-BPのタンパク質機能予測で39.7%の顕著な改善を示しました。実験結果は、ProtCLIPがタンパク質の多モダリティ基盤モデルとしての驚異的な潜在能力を持つことを検証しています。

2024-12-28T04:23:47


OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

http://arxiv.org/abs/2412.20005v1

Yujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen

Zhejiang University, Ant Group, Tongji University

私たちは、Webや生のPDF書籍から知識を抽出し、さまざまな分野(科学、ニュースなど)をサポートする、ドッカー化されたスキーマ指向の知識抽出システムOneKEを紹介します。具体的には、OneKEは複数のエージェントと設定可能な知識ベースで設計されています。異なるエージェントはそれぞれの役割を果たし、さまざまな抽出シナリオをサポートします。設定可能な知識ベースは、スキーマ構成、エラーケースのデバッグと修正を容易にし、さらなる性能向上を実現します。ベンチマークデータセットに対する経験的評価は、OneKEの有効性を示し、ケーススタディは複数のドメインにわたる多様なタスクへの適応性をさらに明らかにし、広範な応用の可能性を強調します。私たちは、Codeをhttps://github.com/zjunlp/OneKEオープンソース化し、動画をhttp://oneke.openkg.cn/demo.mp4で公開しました。

2024-12-28T04:01:30


Adaptive Parameter-Efficient Federated Fine-Tuning on Heterogeneous Devices

http://arxiv.org/abs/2412.20004v1

Jun Liu, Yunming Liao, Hongli Xu, Yang Xu, Jianchun Liu, Chen Qian

University of Science and Technology of China, University of California at Santa Cruz

フェデレーテッドファインチューニング(FedFT)は、分散された方法で事前訓練された言語モデルを微調整するために提案されています。しかし、実際のアプリケーションで効率的なFedFTには、リソースの制約とシステムの非均質性という2つの重要な課題があります。既存の研究は、低ランク適応(LoRA)などのパラメータ効率的なファインチューニング方法に依存していますが、重大な制限があります。ここで、FedFTの固有の特性に基づいて、出力に近い位置に高ランクのLoRAレイヤーを追加することで、リソース消費を節約しながら、同等のファインチューニング性能を達成できることを観察しました。そこで、LoRAレイヤーの数(LoRAの深さ)と各LoRAレイヤーのランク(ランク分布)を決定する困難に直面する新しいLoRAベースのFedFTフレームワーク「LEGEND」を提案します。LoRAの深さとランク分布の間の結びついた関係を分析し、非均質なデバイス向けの効率的なLoRA構成アルゴリズムを設計することで、ファインチューニング効率を向上させます。80台の商業デバイスを使用した物理プラットフォームで、広範な実験を実施しました。結果は、LEGENDが先進的なソリューションと比較して、ターゲット精度を達成する際に1.5-2.8倍のスピードアップを実現し、通信コストを約42.3%節約できることを示しています。

2024-12-28T04:00:42


Comprehensive Review of EEG-to-Output Research: Decoding Neural Signals into Images, Videos, and Audio

http://arxiv.org/abs/2412.19999v1

Yashvir Sabharwal, Balaji Rama

脳波計測(EEG)は神経科学において非常に貴重なツールであり、高い時間分解能で脳の活動についての洞察を提供します。最近の機械学習と生成モデリングの進展により、EEGを用いて画像、動画、音声などの知覚体験を再構築する応用が進んでいます。本論文では、EEGからの出力に関する研究を系統的にレビューし、最先端の生成手法、評価指標、データの課題に焦点を当てます。PRISMAガイドラインを使用して1800件の研究を分析し、分野における重要なトレンド、課題、機会を特定しました。これらの結果は、敵対的生成ネットワーク(GANs)、変分オートエンコーダ(VAEs)、トランスフォーマーなどの先進的なモデルの可能性を強調し、標準化されたデータセットと被験者間の一般化の必要性を際立たせています。さらなる研究のためのロードマップが提案されており、デコーディング精度を向上させ、現実の応用を広げることを目指しています。

2024-12-28T03:50:56


From Generalist to Specialist: A Survey of Large Language Models for Chemistry

http://arxiv.org/abs/2412.19994v1

Yang Han, Ziping Wan, Lu Chen, Kai Yu, Xin Chen

Shanghai Jiao Tong University, Suzhou Laboratory

大規模言語モデル(LLM)は、私たちの日常生活を大きく変革し、自然言語処理NLP)における新たなパラダイムを確立しました。しかし、LLMが広範なウェブベースのテキストで事前学習されることは、特に化学の分野における高度な科学発見には不十分です。専門的な化学データの不足と、2Dグラフ、3D構造、スペクトルなどのマルチモーダルデータの複雑さは、独自の課題を呈しています。いくつかの研究が化学における事前学習モデル(PLM)をレビューしていますが、化学に特化したLLMに関する体系的な調査が明らかに欠如しています。本論文では、ドメイン特有の化学知識やマルチモーダル情報をLLMに組み込む方法論を概説し、化学ツールを用いるエージェントとしての化学LLMの概念化を行い、科学研究の加速に対するその潜在能力を調査します。さらに、LLMの化学能力を評価するための既存のベンチマークをまとめます。最後に、現在の課題を批判的に検討し、将来の研究の有望な方向性を特定します。この包括的な調査を通じて、研究者が化学LLMの発展の最前線に留まり、分野における革新的な応用を促進することを目指しています。

2024-12-28T03:40:25


An Ordinary Differential Equation Sampler with Stochastic Start for Diffusion Bridge Models

http://arxiv.org/abs/2412.19992v1

Yuang Wang, Pengfei Jin, Li Zhang, Quanzheng Li, Zhiqiang Chen, Dufan Wu

Tsinghua University, Massachusetts General Hospital, Harvard Medical School

拡散ブリッジモデルは、純粋なガウスノイズではなく、劣化した画像から生成過程を初期化することで、画像の修復や翻訳などの条件付き画像生成タスクにおいて有望な性能を示しています。しかし、既存の拡散ブリッジモデルはしばしば確率微分方程式(SDE)サンプラーに依存しており、これにより加速のために高次の常微分方程式(ODE)ソルバーを使用する拡散モデルに比べて推論速度が遅くなってしまいます。このギャップを軽減するために、我々は拡散ブリッジモデルのための確率的スタートを持つ高次ODEサンプラーを提案します。逆プロセスの初めにおける確率フローODE(PF-ODE)の特異な挙動を克服するために、最初の逆ステップで後方サンプリングアプローチが導入されました。このサンプリングは、劣化した画像から生成軌道へのスムーズな遷移を保証しながら、離散化誤差を減少させるように設計されました。この確率的スタートに続いて、Heunの第二次ソルバーがPF-ODEを解くために適用され、高い知覚品質を達成し、神経関数評価(NFE)を大幅に削減しています。我々の方法は、事前学習済みの拡散ブリッジモデルと完全に互換性があり、追加の訓練を必要としません。超解像JPEG復元、Edges-to-Handbags、DIODE-Outdoorなどの画像修復や翻訳タスクにおける広範な実験により、我々のサンプラーは視覚品質とFréchet Inception Distance(FID)の両方において最先端の手法を上回ることが実証されました。

2024-12-28T03:32:26


Delayed Random Partial Gradient Averaging for Federated Learning

http://arxiv.org/abs/2412.19987v1

Xinyi Hu

Zhejiang University

フェデレーテッドラーニング(FL)は、プライバシーを保護しながら、複数のクライアントが協力して共有モデルを訓練できる分散型機械学習パラダイムです。しかし、実世界のFLシステムのスケーリングは、しばしば以下の2つの通信ボトルネックによって制限されます:(a) エッジデバイスの計算能力の向上により大規模な深層ニューラルネットワーク(DNN)の展開が可能になる一方で、大規模DNNの頻繁な送信には限られた帯域幅の制約があること;(b) 高い遅延コストがFLの性能を大きく低下させること。これらのボトルネックを踏まえ、私たちはFLを強化するために遅延ランダム部分勾配平均化(DPGA)を提案します。DPGAのもとでは、クライアントはサーバーに部分的なローカルモデルの勾配のみを共有します。ローカルモデルで共有される部分のサイズは、粗く初期化された更新率によって決定され、その後時間的次元で洗練されます。さらに、DPGAは計算と通信を並行して行うことでシステムの実行時間を大幅に短縮します。私たちは、CIFAR-10/100の非IIDデータセットで実験を行い、私たちの手法の有効性を示します。

2024-12-28T03:14:27


The Fifth International Verification of Neural Networks Competition (VNN-COMP 2024): Summary and Results

http://arxiv.org/abs/2412.19985v1

Christopher Brix, Stanley Bak, Taylor T. Johnson, Haoze Wu

このレポートは、2024年の第5回国際ニューラルネットワーク検証コンペティション(VNN-COMP 2024)をまとめたものであり、これは第7回国際AI検証シンポジウム(SAIV)と併催され、36回目の国際コンピュータ支援検証会議(CAV)と同時に開催されました。VNN-COMPは毎年開催されており、最先端のニューラルネットワーク検証ツールの公正かつ客観的な比較を促進し、ツールインターフェースの標準化を支援し、ニューラルネットワーク検証コミュニティを結集することを目的としています。この目的のために、ネットワーク用の標準化フォーマット(ONNX)と仕様(VNN-LIB)が定義され、ツールは同等のコストハードウェアで評価され(AWSインスタンスに基づく自動評価パイプラインを使用)、ツールのパラメータは最終テストセットが公開される前に参加者によって選択されました。2024年のセッションでは、8つのチームが12の通常ベンチマークと8つの拡張ベンチマークの多様なセットに参加しました。このレポートでは、ルール、ベンチマーク、参加ツール、結果、およびこのコンペティションイテレーションから得られた教訓をまとめています。

2024-12-28T03:07:00


Will you donate money to a chatbot? The effect of chatbot anthropomorphic features and persuasion strategies on willingness to donate

http://arxiv.org/abs/2412.19976v1

Ekaterina Novozhilova, Jiacheng Huang, Le He, Ziling Li, James Cummings

この研究は、チャットボットの擬人化と説得戦略がユーザーの認識や寄付の可能性に与える影響の背後にある因果メカニズムを探求しています。2(擬人化されたチャットボット vs. 非擬人化チャットボット)× 2(感情的な vs. 論理的な説得戦略)という被験者間実験(N=76)では、参加者は非営利の慈善団体を代表するチャットボットと対話しました。結果は、擬人化されたチャットボットとのインタラクションが知覚された擬人性を引き起こすことを示唆していますが、寄付への意欲を高めることはないことがわかりました。実際、名前や物語といった一般的に使用される擬人化の特徴が、寄付の文脈においてAIエージェントに対する否定的な態度を引き起こすことが分かりました。私たちの結果は、論理的な説得アプローチと組み合わさった非擬人化チャットボットの好ましさを示しており、チャットボットとのインタラクションにおける一貫性の重要性を強調し、人間同士の関与を反映しています。私たちは、最近のAIシステムの規制を考慮し、機械のアイデンティティを持つチャットボットと人間のアイデンティティを持つチャットボットという一般的なシナリオを探ることからの移行の重要性について議論します。

2024-12-28T02:17:46


MobileNetV2: A lightweight classification model for home-based sleep apnea screening

http://arxiv.org/abs/2412.19967v1

Hui Pan, Yanxuan Yu, Jilun Ye, Xu Zhang

szu.edu.cn, columbia.edu

本研究は、心電図(ECG)および呼吸信号から抽出された特徴を活用した新しい軽量ニューラルネットワークモデルを提案し、早期の睡眠時無呼吸症候群(OSA)スクリーニングを実現します。ECG信号は睡眠段階を予測するための特徴スペクトログラムを生成するために使用され、呼吸信号は睡眠関連呼吸異常を検出するために利用されます。これらの予測を統合することにより、方法はより正確に無呼吸低呼吸指数(AHI)を算出し、正確なOSA診断を促進します。この方法は、3つの公開睡眠時無呼吸データベース(Apnea-ECGデータベース、UCDDBデータセット、MIT-BIHポリソムノグラフィーデータベース)で検証されました。結果は、全体的なOSA検出精度が0.978であることを示し、モデルの堅牢性を際立たせています。呼吸イベント分類では、精度0.969、受信者動作特性曲線(ROC-AUC)の下の面積0.98を達成しました。睡眠段階分類では、UCDDBデータセットにおいて、全ての睡眠段階でROC-AUCが0.85を超え、睡眠の再現率は0.906に達し、REMと覚醒状態の特異度はそれぞれ0.956および0.937でした。本研究は、軽量ニューラルネットワークとマルチ信号分析を統合して正確でポータブル、かつコスト効率の高いOSAスクリーニングの可能性を強調し、自宅での健康モニタリングシステムやウェアラブルバイスへのさらなる採用の道を開きます。

2024-12-28T01:37:25


Bridging Context Gaps: Enhancing Comprehension in Long-Form Social Conversations Through Contextualized Excerpts

http://arxiv.org/abs/2412.19966v1

Shrestha Mohanty, Sarah Xuan, Jacob Jobraeel, Anurag Kumar, Deb Roy, Jad Kabbara

私たちは、小グループでの録音された会話における理解力を強化することに焦点を当てています。これらの会話は、人々を結びつけ、重要な社会問題に関する個人的な物語や経験を共有するための場を提供します。これらの会話から情報を整理し伝える一つの方法は、次の会話で強調された抜粋を共有することです。これにより、他のグループの人々がこれらの経験に慣れ親しんでいない場合でも、関連する問題に対する集団的理解を促進することができます。そこで生じる主な課題は、ある会話から抜粋された内容を別の場面で共有する際に、元の会話で以前に導入された重要な文脈や要素が欠落している可能性があることです。この問題は、会話が長くなり、テーマや共有された経験が豊かになるほど悪化します。これに対処するために、私たちは大規模言語モデル(LLMs)がどのようにこれらの抜粋を社会的に関連する文脈を提供することで豊かにできるかを探ります。理解、可読性、共感を向上させるための効果的な文脈化のアプローチを提示します。我々は、主観的および客観的な評価を通じて、理解における有意な改善を示します。LLMsは貴重な文脈を提供できますが、重要な社会的側面を捉えるのには苦労します。我々は今後の研究を支援するために、人間によって注釈された重要な抜粋(HSE)データセットを公開します。さらに、文脈豊かな抜粋がより焦点を絞った包括的な会話の要約を提供できる方法を示します。

2024-12-28T01:29:53


DepthMamba with Adaptive Fusion

http://arxiv.org/abs/2412.19964v1

Zelin Meng, Zhichen Wang

マルチビュー深度推定は、さまざまなベンチマークにおいて素晴らしい性能を達成しています。しかし、現在のほとんどのマルチビュースystemは、理想的なカメラ位置が与えられることに依存しており、多くの現実世界のシナリオ、たとえば自動運転などでは利用できません。本研究では、さまざまなノイズのあるポーズ設定の下で深度推定システムを評価するための新しいロバストベンチマークを提案します。驚くべきことに、現在のマルチビューフィルの深度推定方法やシングルビューとマルチビューの融合方法は、ノイズのあるポーズ設定が与えられた場合に失敗することがわかりました。この課題に対処するために、シングルビューとマルチビューの結果を融合する二系統のネットワークアーキテクチャを提案します。具体的には、特徴抽出のバックボーンとしてmambaを導入し、二つのブランチ間で最もロバストな推定結果を自動的に選択するアテンションベースの融合方法を提案します。したがって、提案する方法は、動的なオブジェクトやテクスチャのない領域などのいくつかの困難なシーンで良好に機能します。アブレーション研究はバックボーンと融合方法の有効性を証明し、困難なベンチマーク(KITTIとDDAD)での評価実験は、提案された方法が最先端の方法と比較して競争力のある性能を達成することを示しています。

2024-12-28T01:17:47


2024-12-27 arXiv論文リスト(cs.AI)

About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 64件

ErgoChat: a Visual Query System for the Ergonomic Risk Assessment of Construction Workers

http://arxiv.org/abs/2412.19954v1

Chao Fan, Qipei Mei, Xiaonan Wang, Xinming Li

建設業界では、労働者が高強度の肉体労働や工具の長時間使用を強いられることが多く、その結果、主に姿勢に関するエルゴノミクスのリスクに関連した怪我や病気が生じます。これは長年にわたる主要な健康問題です。これらのリスクを軽減するために、研究者たちは建設労働者が直面するエルゴノミクスのリスクを特定するためのさまざまな技術的手法を適用してきました。しかし、従来のエルゴノミクスリスク評価(ERA)技術は、インタラクティブなフィードバックを提供しません。急速に発展している視覚-言語モデル(VLMs)は、画像入力に基づいてエルゴノミクスのリスクについてのテキスト記述を生成したり、質問に答えたりする能力を持っていますが、まだ広く注目されていません。この研究では、建設労働者の姿勢に関するエルゴノミクスリスクを評価するために特別に設計されたインタラクティブな視覚クエリシステムを紹介します。このシステムの機能には、労働者の姿勢に関するエルゴノミクスのリスクへの曝露に関する視覚的クエリに応答する視覚質問応答(VQA)と、画像からこれらのリスクのテキスト記述を生成する画像キャプショニング(IC)が含まれています。さらに、この研究では、これらの手法を訓練およびテストするために設計されたデータセットを提案します。系統的なテストの結果、VQA機能は96.5%の精度を達成しました。さらに、ICに対する9つの評価指標を用いた評価と人間の専門家からの評価において、提案されたアプローチは、一般的なデータセットのみで訓練された同じアーキテクチャを使用した手法のパフォーマンスを上回ることが示されました。この研究は、生成的人工知能(AI)技術を用いたインタラクティブなERAの今後の発展に新たな方向性を示します。

2024-12-27T23:25:51


Standard-Deviation-Inspired Regularization for Improving Adversarial Robustness

http://arxiv.org/abs/2412.19947v1

Olukorede Fakorede, Modeste Atsague, Jin Tian

Iowa State University, Mohamed bin Zayed University of Artificial Intelligence

敵対的訓練(AT)は、敵対的攻撃に対する深層ニューラルネットワーク(DNN)のロバスト性を向上させることが確認されています。ATは、敵対的な例を生成して、よりロバストなDNNを訓練するための最小-最大最適化手法です。ATの内部最大化ステップは、入力の実際のクラスに対する損失を増加させます。外部最小化では、内部最大化から得られた敵対的例に対する損失を最小化します。本研究では、敵対的ロバスト性と一般化を改善するための標準偏差に着想を得た(SDI)正則化項を提案します。我々は、ATにおける内部最大化がモデルの出力確率の修正版の標準偏差を最小化することに類似していると主張します。さらに、この修正版の標準偏差を最大化することで、ATフレームワークの外部最小化を補完できると提案します。我々の主張を支持するために、SDI測度が敵対的例を生成するために使用できることを実験的に示します。加えて、SDI正則化項を既存のATバリアントと組み合わせることで、CWやAuto-attackといったより強力な攻撃に対するDNNのロバスト性が向上し、一般化も改善されることを示します。

2024-12-27T22:59:21


Towards Strong AI: Transformational Beliefs and Scientific Creativity

http://arxiv.org/abs/2412.19938v1

Samuel J. Eschker, Chuanhai Liu

Purdue University

強い人工知能(AI)は、人間の知能に匹敵する一般的な認知能力と科学的創造性を備えるものとして想定されています。これには、知識の獲得と問題解決の両方が含まれます。弱いAIにおいては顕著な進展が見られていますが、強いAIの実現は依然として激しい議論と批判的な検討の対象となっています。本論文では、天文学と物理学の歴史における重要な革新を探求し、海王星の発見と、科学の哲学者によって理解される科学的革命の概念に焦点を当てています。これらの洞察に基づいて、科学的創造性のモデル化の基盤として設計された弱い信念の単純な理論的および統計的枠組み、トランスフォーメーショナルビリーフ(TB)枠組みを導入します。選択された統計学の例を通じて、TB枠組みが創造性を理解、分析、さらには促進するための有望な基盤となる可能性を示します。強いAIの開発に向けた道を切り開くものです。最後に、将来の研究の方向性と可能な進展についての考察を述べます。

2024-12-27T22:02:36


Hidformer: Transformer-Style Neural Network in Stock Price Forecasting

http://arxiv.org/abs/2412.19932v1

Kamil Ł. Szydłowski, Jarosław A. Chudziak

本論文では、トランスフォーマーベースのニューラルネットワークの株価予測への応用を調査し、特に機械学習技術と金融市場分析の交差点に焦点を当てています。トランスフォーマーモデルの進化について、その発展の初期段階から金融分野における時系列分析への適応までをレビューし、議論します。本研究の中心となるのは、現在、時系列予測において有望なパフォーマンスを発揮していると認識されているHidformerモデルの探求です。本論文の主な目的は、Hidformerが株価予測のタスクでも有効であるかどうかを判断することです。このわずかに修正されたモデルは、テクニカル分析の原則と高度な機械学習の概念を統合し、株価予測精度を向上させるための実験の枠組みを提供します。Hidformerモデルの性能評価を行い、その有効性を判断するための一連の基準を使用します。我々の発見は、金融時系列予測におけるトランスフォーマーアーキテクチャの実用的な応用についての追加の洞察を提供し、人間の意思決定を含むアルゴリズム取引戦略の改善の可能性を強調します。

2024-12-27T21:34:44


Pivoting B2B platform business models: From platform experimentation to multi-platform integration to ecosystem envelopment

http://arxiv.org/abs/2412.19931v1

Clara Filosa, Marin Jovanovic, Lara Agostini, Anna Nosella

製造業におけるデジタルサービス化の風景は進化しており、従来の製品中心のビジネスモデルからプラットフォームビジネスモデルへの戦略的な移行が特徴です。製造企業は、ビジネス間取引(B2B)プラットフォームを開発するために多様なアプローチを組み合わせることが多く、これによりビジネスモデルに大きな再構成がもたらされます。しかし、彼らはしばしばB2Bプラットフォーム開発の取り組みにおいて失敗に直面し、最初の努力を放棄し、代替のプラットフォーム戦略へとシフトすることになります。したがって、この研究では、エネルギーセクターの製造業者のケーススタディを通じて、B2Bプラットフォームビジネスモデルのための三段階のピボットフレームワークを提示します。これにはプラットフォーム開発とプラットフォーム戦略が含まれます。初期段階では、製造業者は資産ベースの製品販売を資産メンテナンスサービスで補完し、さまざまな機能に対応する複数の独立したB2Bプラットフォームの台頭によって特徴づけられる新たなプラットフォーム化戦略に従いました。次に、顧客の旅路戦略に焦点を当て、企業は人工知能(AI)によって支えられた包括的なプラットフォームへの戦略的なマルチプラットフォーム統合にシフトしました。これは、エネルギー性能に基づく契約に幅広いサービスを統合するプラットフォームビジネスモデルの成熟を示していました。最後に、企業のプラットフォームビジネスモデルの進化の最終段階は、外部のステークホルダーに対してオープンな意図的なプラットフォーム戦略を採用し、より広範なプラットフォームエコシステム内でデータ駆動型の提供を包み込みました。この記事は、B2Bプラットフォームビジネスモデルおよびデジタルサービス化に関する文献を前進させ、漸進的なアプローチと戦略的なピボットの有効性を強調します。

2024-12-27T21:34:05


Modeling Continuous Spatial-temporal Dynamics of Turbulent Flow with Test-time Refinement

http://arxiv.org/abs/2412.19927v1

Shengyu Chen, Peyman Givi, Can Zheng, Xiaowei Jia

University of Pittsburgh

乱流の正確なシミュレーションは、気候科学、淡水科学、エネルギー効率的製造など、さまざまな科学および工学分野において非常に重要です。乱流のシミュレーションの分野では、大規模渦シミュレーション(LES)が直接数値シミュレーション(DNS)に対する一般的な代替手段として登場し、計算効率を提供しています。しかし、LESは乱流の輸送スケールの全スペクトルを正確に捉えることができず、低い空間解像度でのみ存在します。低解像度のLESデータから高忠実度のDNSデータを再構築することは、多くの応用にとって不可欠ですが、主に乱流の複雑な時空間的特性により、既存の超解像技術に対して重大な課題をもたらします。本論文では、流れのダイナミクスをモデル化するために物理的知識を活用した新しい流れ再構築アプローチを提案します。従来の超解像技術とは異なり、提案されたアプローチは、物理的制約を強制し、時間の経過に伴う累積的な再構築誤差を緩和するために、テスト段階でのみLESデータを使用します。さらに、異なる解像度での流れデータ再構築を可能にするための特徴サンプリング戦略が開発されています。2つの異なる乱流データセットに関する結果は、高解像度のDNSデータを再構築する提案手法の有効性、流れ輸送の固有の物理的属性を保持し、異なる解像度でのDNS再構築を達成することを示しています。

2024-12-27T21:22:18


HADES: Hardware Accelerated Decoding for Efficient Speculation in Large Language Models

http://arxiv.org/abs/2412.19925v1

Ze Yang, Yihong Jin, Xinhe Xu

大規模言語モデル(LLM)は、人間のようなテキストを理解し生成することによって、自然言語処理に革命をもたらしました。しかし、より洗練されたLLMに対する需要の高まりは、その規模と複雑さに起因して、重要な計算上の課題を提示しています。本論文では、LLMの性能とエネルギー効率を向上させるための新しいアプローチであるハードウェア加速デコーディング(HADES)を紹介します。私たちは、既存の文献ではこれまで探求されてこなかった、ハードウェアレベルの投機的デコーディングサポートを備えたLLMアクセラレーターの設計について取り組みます。私たちの研究は、投機的デコーディングがLLM操作の効率を大幅に改善できる方法を示し、これらのモデルのより高度で実用的なアプリケーションへの道を切り開きます。

2024-12-27T21:19:01


Identifying Cocoa Pollinators: A Deep Learning Dataset

http://arxiv.org/abs/2412.19915v1

Wenxiu Xu, Saba Ghorbani Bazegar, Dong Sheng, Manuel Toledo-Hernandez, ZhenZhong Lan, Thomas Cherico Wanger

ココアは数十億ドル規模の産業ですが、受粉を通じて収量を改善するための研究は限られています。新しい埋め込みハードウェアとAIに基づくデータ分析は、ココアの花を訪れる生物、その同定、さらには収量に対する影響についての情報を進展させています。私たちは、Ceratopogonidae、Formicidae、Aphididae、Araneae、Encyrtidaeの5,792枚の画像と、1,082枚の背景ココア花画像を含む最初のココア花訪問者データセットを提示します。このデータセットは、中国海南省のココアプランテーションに埋め込まれたカメラによって収集された2年間にわたる2300万枚の画像からキュレーションされました。私たちは、異なるサイズのYOLOv8モデルを使用し、トレーニングセットの背景画像比率を徐々に増やすことで、最も性能の良いモデルを特定する方法を示します。中サイズのYOLOv8モデルは、8%の背景画像で最良の結果を達成しました(F1スコア0.71、mAP50 0.70)。全体として、このデータセットは、低コントラストの画像や困難な検出対象の画像に対する深層学習モデルアーキテクチャの性能を比較するのに役立ちます。このデータは、受粉モニタリングプロジェクトを通じて持続可能なココア生産を進展させる今後の取り組みを支援することができます。

2024-12-27T20:27:52


Leveraging Scene Geometry and Depth Information for Robust Image Deraining

http://arxiv.org/abs/2412.19913v1

Ningning Xu, Jidong J. Yang

University of Georgia, Smart Mobility and Infrastructure Lab

画像の雨除けは、雨天条件における自動運転車の視覚を向上させ、安全な運転に寄与する大きな可能性を持っています。これまでの研究は、主に単一のネットワークアーキテクチャを用いて雨除け画像を生成することに焦点を当ててきました。しかし、これらはしばしばシーンに埋め込まれた豊富な事前知識を十分に活用できていません。特に、ほとんどの手法は、シーンの形状に関する貴重な文脈を提供し、より堅牢な雨除けをガイドすることができる深度情報を見逃しています。本研究では、雨除けのためのオートエンコーダー、深度情報を取り入れる補助ネットワーク、および雨天と晴天のシーン間の特徴の一貫性を強化するための2つの監視ネットワークを統合した新しい学習フレームワークを提案します。このマルチネットワーク設計により、我々のモデルは基盤となるシーン構造を効果的に捉えることができ、より明瞭で正確な雨除け画像を生成し、自動運転車の物体検出を改善します。広く使用されている3つのデータセットに対して行った広範な実験は、我々の提案手法の有効性を示しました。

2024-12-27T20:18:46


Evaluate Summarization in Fine-Granularity: Auto Evaluation with LLM

http://arxiv.org/abs/2412.19906v1

Dong Yuan, Eti Rastogi, Fen Zhao, Sagar Goyal, Gautam Naik, Sree Prasanna Rajagopal

DeepScribe Inc.

情報の指数関数的成長と効率的な情報消費の必要性に伴い、要約の重要性が高まっています。要約を正確かつ客観的に評価することは、特に内容が豊富な長文や非構造化テキストを扱う際に、大きな課題となります。既存の手法であるROUGE(Lin, 2004)や埋め込み類似度は、しばしば人間の判断との相関が低く、直感的に理解しづらいため、要約の真の質を測るのが難しくなっています。大規模言語モデル(LLM)は主観的なレビューを模倣することができますが、主観的なスコアは解釈や正当化が難しいです。また、モデルやプロンプトのトーンを変更することで簡単に操作される可能性があります。本論文では、これらの課題に対処するために設計された新しい評価手法およびツールを紹介します。これにより、要約成果物のより包括的で正確、かつ解釈可能な評価が提供されます。我々の手法(SumAutoEval)は、異なる粒度レベルでメトリクスを提案・評価し、完全性、正確性、一貫性、可読性といった4つの重要な次元において客観的スコアを提供します。私たちは、SumAutoEvalが出力の質の理解を改善し、より良い人間相関を示すことを実証的に示します。

2024-12-27T19:42:25


Can AI Help with Your Personal Finances?

http://arxiv.org/abs/2412.19784v1

Oudom Hean, Utsha Saha, Binita Saha

近年、大規模言語モデル(LLM)は人工知能(AI)における革新的な発展として登場し、産業界や学界から大きな注目を集めています。膨大なデータセットで訓練されたこれらの高度なAIシステムは、印象的な自然言語処理およびコンテンツ生成能力を示します。本論文では、アメリカ合衆国における個人財務の主要な課題に対応するためのLLMの可能性を探求します。住宅ローン、税金、ローン、投資などのトピックに関して、正確な財務アドバイスを提供する能力を評価するために、OpenAIのChatGPT、GoogleのGemini、AnthropicのClaude、MetaのLlamaなど、いくつかの主要なLLMを評価します。我々の調査結果は、これらのモデルが平均的に約70%の正確性を達成する一方で、特定の分野で顕著な制約があることを示しています。具体的には、LLMは複雑な財務質問に対して正確な回答を提供するのに苦労しており、トピックごとにパフォーマンスが大きく異なることがわかりました。これらの制約にもかかわらず、分析結果はこれらのモデルの新しいバージョンにおける顕著な改善を明らかにしており、個人や財務アドバイザーにとっての有用性の向上を強調しています。これらのAIシステムが進化し続ける中、個人財務におけるAI主導のアプリケーションを推進する潜在能力はますます有望になってきています。

2024-12-27T18:25:27


Enhancing Cognitive Diagnosis by Modeling Learner Cognitive Structure State

http://arxiv.org/abs/2412.19759v1

Zhifu Chen, Hengnian Gu, Jin Peng Zhou, Dongdai Zhou

Northeast Normal University, Cornell University

認知診断は、知能教育の基本的な研究分野であり、個々の認知状態を測定することを目的としています。理論的には、個人の認知状態はその認知構造状態と本質的に同等です。認知構造状態は、知識状態(KS)と知識構造状態(KUS)の2つの重要な要素から構成されています。知識状態は、学習者が個々の概念をマスターしている程度を反映しており、認知診断の中で広く研究されている焦点です。対照的に、知識構造状態は、概念間の関係に対する学習者の理解を表しており、十分にモデル化されていません。学習者の認知構造は、意味のある学びを促進し、学業成績を形成するために不可欠です。さまざまな方法が提案されていますが、ほとんどはKSの評価に焦点を当てており、KUSの評価には失敗しています。このギャップを埋めるために、私たちは革新的で効果的なフレームワークCSCD(認知構造状態に基づく認知診断)を提案します。このフレームワークは、診断評価の中で学習者の認知構造をモデル化するための新しい枠組みを導入し、認知構造のモデル化に新たな洞察を提供します。具体的には、エッジ特徴に基づくグラフアテンションネットワークを用いて、学習者の認知構造状態を表現し、KSとKUSを効果的に統合します。実際のデータセットで実施した広範な実験は、診断の正確性と解釈可能性の観点から、このフレームワークの優れた性能を示しています。

2024-12-27T17:41:39


"Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)

http://arxiv.org/abs/2412.19755v1

Pritam Sil, Bhaskaran Raman, Pushpak Bhattacharyya

Indian Institute of Technology, Bombay

個別のフィードバックは、学生の学習プロセスにおいて非常に重要な役割を果たします。既存のシステムは多肢選択問題(MCQ)ベースの評価においてフィードバックを提供するのに優れていますが、こちらの研究は主観的でオープンエンドの質問により焦点を当てています。これは、自動短文回答評価(ASAG)とフィードバックの問題に似ています。さらに、学生の回答と参照回答に画像が含まれる場合のシナリオに対処するため、従来のASAGフィードバック問題に対するマルチモーダル短文回答評価フィードバック(MMSAF)問題を導入します。加えて、2197のデータポイントを持つMMSAFデータセットを紹介し、このようなデータセットを生成するための自動化フレームワークを提供します。このデータセットに対する既存のLLMに関する評価では、正確さレベルのラベルに対して55%、画像の関連性ラベルに対して75%の全体的な精度を達成し、専門家によって評価されたLLM生成フィードバックの正確さレベルは5点満点中4.27でした。専門家によると、Pixtralはすべての指標で4以上の評価を得ており、人間の判断により適合していることを示しており、学生を支援する最良のソリューションであるとされています。

2024-12-27T17:33:39


Complement or substitute? How AI increases the demand for human skills

http://arxiv.org/abs/2412.19754v1

Elina Mäkelä, Fabian Stephany

AIが人間の仕事を代替するのか補完するのかという問題は、仕事の未来に関する議論の中心となっています。本稿では、2018年から2023年までの12百万件のオンライン求人情報を分析し、AIがアメリカ経済に及ぼすスキル需要と報酬への影響を調査します。内部的な効果(職務内の代替と補完)と外部的な効果(職業、産業、地域間の影響)について検討します。私たちの調査結果は、デジタルリテラシー、チームワーク、レジリエンスなどのAI補完的スキルの需要が大幅に増加しており、データサイエンティストのようなAI関連の職業においてこれらのスキルに対する賃金プレミアムも上昇していることを明らかにしています。一方で、カスタマーサービスやテキストレビューを含む代替スキルは、AI関連の職位において需要と価値が共に減少しています。外部的な効果を検討したところ、特定の産業や地域におけるAI関連の職の成長に関連して、非AI職における補完的スキルの需要が著しく増加していることがわかりました。同時に、代替スキルを必要とする非AI職においては中程度の減少が見られます。全体的に、AIの補完的効果はその代替効果の最大50%増大し、スキルに対する正の需要をもたらしています。これらの結果は英国とオーストラリアでも再現されており、AIが労働力のスキル要件に与える変革的影響を強調しています。これにより、再スキル化の取り組みは、技術的なAIスキルだけでなく、倫理やデジタルリテラシーといった補完的スキルも優先すべきであることが示唆されています。

2024-12-27T17:26:30


IMAGINE: An 8-to-1b 22nm FD-SOI Compute-In-Memory CNN Accelerator With an End-to-End Analog Charge-Based 0.15-8POPS/W Macro Featuring Distribution-Aware Data Reshaping

http://arxiv.org/abs/2412.19750v1

Adrian Kneip, Martin Lefebvre, Pol Maistriaux, David Bol

Delft University of Technology, UCLouvain, Fonds National de la Recherche Scientifique

チャージドメインのメモリ内計算(CIM)SRAMは、エッジでのサブ8ビット畳み込みニューラルネットワーク(CNN)を処理するための計算効率と精度の魅力的な妥協案として最近注目を集めています。しかし、一般的に固定のドットプロダクト(DP)電圧スイングを使用しており、これがデータ依存のクリッピングや切り捨て効果による効果的なADCビットの損失を引き起こし、貴重な変換エネルギーや計算精度を浪費します。これを克服するために、我々はIMAGINEを提案します。これは、22nm FD-SOIに基づくワークロード適応型の1-to-8ビットCIM-CNNアクセラレータです。IMAGINEは、消費電力の大きいDACを回避する入力直列、重み並列の積算に基づいたマルチビットDPを使用した1152x256のエンドツーエンドのチャージベースマクロを導入しています。チャネルごとのDPアレイ分割とアナログバッチ正規化(ABN)の線形in-ADC実装を組み合わせることで適応スイングを実現し、分布に基づくデータ再形成を達成しています。重要な設計制約は、CIM対応のCNNトレーニンフレームワーク内でポストシリコン等価ノイズを含めることで緩和されています。計測結果は、0.3/0.6Vでのシステムレベルエネルギー効率が40TOPS/Wであることを示しており、MNISTとCIFAR-10で競争力のある精度を達成しています。さらに、187kB/mm2のマクロのピークエネルギー効率と面積効率は、それぞれ0.15-8POPS/Wおよび2.6-154TOPS/mm2に達し、8-to-1ビット計算精度にスケールしています。これらの結果は、従来のチャージベース設計を3倍から5倍上回り、メモリ内再スケーリングを線形に提供する初めての成果となっています。

2024-12-27T17:18:15


Enhancing Adversarial Robustness of Deep Neural Networks Through Supervised Contrastive Learning

http://arxiv.org/abs/2412.19747v1

Longwei Wang, Navid Nayyem, Abdullah Rakin

University of South Dakota

敵対的攻撃は、畳み込みニューラルネットワーク脆弱性を悪用し、認識できない摂動を導入することで誤分類を引き起こし、特徴表現や意思決定境界の弱点を露呈させます。本論文では、敵対的堅牢性を向上させるために、教師ありコントラスト学習とマージンベースコントラスト損失を組み合わせた新しいフレームワークを提案します。教師ありコントラスト学習は、同じクラス内のサンプルの埋め込みをクラスタリングし、異なるクラスのものを分離することで特徴空間の構造を改善します。サポートベクターマシンに触発されたマージンベースコントラスト損失は、明確なマージンを持つ堅牢な意思決定境界を作成するために明示的な制約を強制します。ResNet-18バックボーンを用いたCIFAR-100データセットでの実験は、Fast Gradient Sign Method攻撃下での敵対的精度における堅牢性の向上を示しています。

2024-12-27T17:14:52


Adaptive Context-Aware Multi-Path Transmission Control for VR/AR Content: A Deep Reinforcement Learning Approach

http://arxiv.org/abs/2412.19737v1

Shakil Ahmed, Saifur Rahman Sabuj, Ashfaq Khokhar

Iowa State University, BRAC University

この論文では、データ集約型アプリケーション(拡張現実(AR)や仮想現実(VR)ストリーミングなど)のパフォーマンスを最適化するために設計された適応型コンテキスト対応マルチパストランスミッションコントロールプロトコル(ACMPTCP)を紹介します。ACMPTCPは、深層強化学習(DRL)を活用して、俊敏なエンドツーエンドのパス管理と最適な帯域幅の割り当てを実現し、多様なネットワーク環境でのパス再調整を容易にすることで、従来のMPTCPの限界に対処します。

2024-12-27T16:56:12


Can Large Language Models Adapt to Other Agents In-Context?

http://arxiv.org/abs/2412.19726v1

Matthew Riemer, Zahra Ashktorab, Djallel Bouneffouf, Payel Das, Miao Liu, Justin D. Weisz, Murray Campbell

研究コミュニティは、多様な人々と対話するために、よりダイナミックでパーソナライズされたAIアシスタントを構築することを目指しており、大規模言語モデル(LLM)の心の理論能力を評価することへの関心が高まっています。実際、最近のいくつかの研究は、LLMの心の理論能力が非常に印象的であり、人間レベルのパフォーマンスに近いことを示唆しています。本論文は、この見解に反論し、過去の研究がエージェントのパフォーマンスを直接測定していなかった可能性があり、その結果、錯覚的な発見につながったと主張します。私たちは、他者の行動を予測するエージェントの能力を測定する「リテラルな心の理論」と、エージェントの行動予測に基づいて文脈内で適応する「機能的な心の理論」との間に強い区別を引きます。私たちは、トップパフォーマンスのオープンソースLLMがリテラルな心の理論において強力な能力を示すかもしれないが、機能的な心の理論では苦労しているように見えることを発見しました—これは、パートナーポリシーが非常に単純であっても同様です。この研究は、新しい状況に適応する際のLLMにおける帰納的バイアスの二面性を強調することを目的としています。このバイアスは限られた期間内での強力なパフォーマンスにつながる一方で、最適な長期的行動への収束を妨げることがよくあります。

2024-12-27T16:30:12


OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

http://arxiv.org/abs/2412.19723v1

Qiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu

The University of Hong Kong, Johns Hopkins University, Shanghai Jiao Tong University, University of Oxford, Hong Kong University of Science and Technology, Shanghai AI Laboratory

グラフィカルユーザーインターフェイスGUI)エージェントは、ビジョン・ランゲージモデル(VLM)によって人間のようなコンピューター制御能力を示しています。デジタル自動化の進展において有用であるにもかかわらず、高品質な軌道データを収集するという重大なボトルネックが存在します。このようなデータ収集の一般的な手法は、人間の監視に依存するか、事前に定義されたタスクを実行することで合成データを生成するものであり、いずれもリソースを多く消費するか、データの質を保証することができません。さらに、これらの手法は限られたデータの多様性を持ち、合成データと実世界の環境との間に значавадなギャップがあります。これらの課題に対処するために、OS-Genesisを提案します。これは、従来の軌道収集プロセスを逆転させた新しいGUIデータ合成パイプラインです。事前に定義されたタスクに依存するのではなく、OS-Genesisはエージェントがまず環境を認識し、段階的なインタラクションを行い、その後過去を振り返って高品質なタスクを導き出し、軌道レベルの探索を可能にします。次に、生成された軌道の質を確保するために、軌道報酬モデルが使用されます。OS-Genesisを用いてGUIエージェントを訓練すると、非常に挑戦的なオンラインベンチマークでのパフォーマンスが大幅に向上することを示します。詳細な分析により、OS-Genesisの効率性と、既存の合成手法と比較したその優れたデータ品質と多様性がさらに検証されます。私たちのコード、データ、チェックポイントは、\href{https://qiushisun.github.io/OS-Genesis-Home/}{OS-Genesisホームページ}で入手できます。

2024-12-27T16:21:58


Text2Insight: Transform natural language text into insights seamlessly using multi-model architecture

http://arxiv.org/abs/2412.19718v1

Pradeep Sain

ユーザー中心の動的データ分析と可視化の需要が、医療、金融、研究などの分野で高まっています。従来の可視化ツールは、その静的で事前定義された性質のために、個々のユーザーのニーズを満たすことができないことがよくあります。このギャップに対処するために、Text2Insightが導入されました。これは、ユーザーが定義した自然言語の要件に基づいてカスタマイズされたデータ分析と可視化を提供する革新的なソリューションです。

Text2Insightは、マルチモデルアーキテクチャを活用して、ユーザーの入力を実行可能なインサイトと動的な可視化に変換します。方法論は、入力データセットを分析して列や値などの構造的詳細を抽出することから始まります。事前トレーニングされたLlama3モデルがユーザーの自然言語クエリをSQLクエリに変換し、さらにNamed Entity Recognition(NER)モデルを使用して精度を改善します。チャート予測器は最適な可視化タイプを決定し、Llama3モデルはSQLクエリの結果に基づいてインサイトを生成します。出力は、ユーザーフレンドリーで視覚的に情報豊富なチャートです。分析能力を強化するために、システムはBERTフレームワークを使用した質疑応答モデルと予測モデルを統合しています。これらのモデルは、過去のデータに対するインサイトを提供し、未来のトレンドを予測します。

Text2Insightの性能評価は、その効果を示しており、高い精度(99%)、適合率(100%)、再現率(99%)、F1スコア(99%)を達成し、BLEUスコアは0.5です。質疑応答モデルは89%の精度を達成し、予測モデルは70%の精度を達成しました。これらの結果は、Text2Insightが自然言語テキストを動的なユーザー特有のデータ分析と可視化に変換するための堅牢で実行可能なソリューションであることを検証しています。

2024-12-27T16:17:22


Toward Adaptive Reasoning in Large Language Models with Thought Rollback

http://arxiv.org/abs/2412.19707v1

Sijia Chen, Baochun Li

大規模言語モデル(LLM)は、段階的な推論を用いてさまざまなタスクを解決するために日常的に使用されてきました。しかし、中間推論のステップ、または思考の構造は、鎖、木、または非循環有向グラフのように硬直しており、一方向性です。その結果、得られた柔軟性のない前向きな推論は、難しいタスクに対処できず、LLMが頻繁に誤った応答、すなわち「幻覚」を引き起こすと失敗してしまう可能性があります。本論文では、思考の構造を適応的に構築し、「幻覚」のもとで問題解決に向けた効果的な推論を維持するための新しい推論フレームワーク、「思考ロールバック(TR)」を提案します。TRのコアメカニズムは思考をロールバックすることで、これによりLLMは思考に対する誤り分析を行い、修正のために以前の誤った思考にロールバックできるようになります。次に、そのような試行錯誤をプロンプトに含めてLLMを誘導することで、各ロールバックはより信頼できる推論経路につながります。したがって、人間の注釈なしでシンプルなプロンプトから始めることで、TRを持つLLMは適応的に徐々に正しい解決策のための思考を探索します。数学問題やマルチタスク推論に関する包括的な実験は、問題解決率とインタラクションコストの面でTRの最先端のパフォーマンスを示しています。例えば、TRを用いたGPT-4の解決率は、MATHデータセットにおいて現在の最高のものを$9\%$上回っています。

2024-12-27T16:02:34


An Integrated Optimization and Deep Learning Pipeline for Predicting Live Birth Success in IVF Using Feature Optimization and Transformer-Based Models

http://arxiv.org/abs/2412.19696v1

Arezoo Borji, Hossam Haick, Birgit Pohn, Antonia Graf, Jana Zakall, S M Ragib Shahriar Islam, Gernot Kronreif, Daniel Kovatchki, Heinz Strohmer, Sepideh Hatamikia

体外受精IVF)は広く利用されている補助生殖技術ですが、臨床的、人口統計的、手続き的要因の多面的な相互作用により、その成功を予測することは依然として難しい課題です。本研究では、IVF治療における生児出産結果を予測することを目的とした強力な人工知能(AI)パイプラインを開発しました。このパイプラインは、2010年から2018年までの人間の受精および胚学に関する権威機関(HFEA)から入手した匿名化されたデータを使用しています。生児出産の成功を二項結果(成功/失敗)としての予測性能を評価するために、主成分分析(PCA)や粒子群最適化(PSO)などのさまざまな特徴選択手法を、ランダムフォレスト(RF)や決定木などの伝統的な機械学習ベースの分類器、およびカスタムトランスフォーマーベースのモデルやアテンションメカニズムを備えたタブトランスフォーマーモデルなどの深層学習ベースの分類器と統合しました。我々の研究では、特徴選択にPSOを組み合わせてタブトランスフォーマーに基づく深層学習モデルを使用することで、99.50%の精度と99.96%のAUCを達成し、生児出産を予測するための優れた性能を示しました。この研究は、IVFにおける生児出産結果を予測するための高精度なAIパイプラインを確立し、個別化された生殖治療を強化する可能性を示しています。

2024-12-27T15:46:59


A Review on the Integration of Artificial Intelligence and Medical Imaging in IVF Ovarian Stimulation

http://arxiv.org/abs/2412.19688v1

Jana Zakall, Birgit Pohn, Antonia Graf, Daniel Kovatchki, Arezoo Borji, Ragib Shahriar Islam, Hossam Haick, Heinz Strohmer, Sepideh Hatamikia

人工知能(AI)は、体外受精IVF)における意思決定の強化と治療プロトコルの最適化に向けた強力なツールとして浮上しています。特に、AIはIVFプロセスの卵巣刺激段階における意思決定のサポートにおいて重要な可能性を示しています。このレビューは、卵巣刺激における医療画像と組み合わせたAIの応用に焦点を当てた研究を評価し、方法論、結果、現在の制限について検討します。この分野に関する13の研究の分析から、AIアルゴリズムが最適なホルモン投与量、トリガータイミング、卵子回収結果の予測において顕著な可能性を示した一方で、使用された医療画像データは主に基本的な定量化(卵胞のサイズや数など)を含む2次元(2D)超音波からのものであり、直接的な特徴抽出や高度な画像分析技術の利用は限られていることが明らかになりました。これは、高度な画像分析手法(深層学習など)や、三次元(3D)超音波のようなより多様な画像モダリティの活用が、より深い洞察を解き放つことができる未開拓の機会が存在することを示しています。さらに、ほとんどの研究において説明可能なAI(XAI)が欠けていることは、AI主導の意思決定の透明性やトレーサビリティについての懸念を引き起こします。これは、臨床での採用および信頼にとって重要な要素です。さらに、多くの研究が単一拠点のデザインや小規模なデータセットに依存しており、結果の一般化可能性を制限しています。このレビューは、高度な画像分析技術を説明可能なAIの方法論と統合する必要性、及び多施設共同研究や大規模なデータセットを活用する重要性を強調しています。これらのギャップに取り組むことは、卵巣刺激管理を向上させ、IVFの結果を改善する効率的で個別化されたデータ駆動の治療経路を切り開く可能性があります。

2024-12-27T15:29:08


A Large-scale Interpretable Multi-modality Benchmark for Facial Image Forgery Localization

http://arxiv.org/abs/2412.19685v1

Jingchun Lian, Lingyu Liu, Yaxiong Wang, Yujiao Wu, Li Zhu, Zhedong Zheng

Xi’an Jiaotong University, Hefei University of Technology, CSIRO, University of Macau, Australia

画像改ざんの局所化は、画像内の改ざんされたピクセルを特定することに焦点を当てており、重要な進展を遂げています。従来のアプローチは、この課題を画像セグメンテーションの変種としてモデル化し、改ざんされた領域のバイナリセグメンテーションを最終成果物として扱うことが一般的です。しかし、基本的なバイナリ改ざんマスクは、モデルの予測を説明するには不十分であると論じます。それは、モデルが特定の領域を指摘する理由を明確にせず、すべての改ざんされたピクセルを同様に扱うため、最も偽のように見える部分を見つけるのが難しくなります。本研究では、改ざん画像に焦点を当てた顕著な領域解釈を生成することで、前述の制限を軽減します。そのために、ディープフェイク技術を用いて操作された顔画像を含み、手動で解釈可能なテキスト注釈とペアにしたMulti-Modal Trampe Tracing (MMTT)データセットを作成します。高品質な注釈を収集するために、アノテーターには改ざんされた画像を注意深く観察し、改ざん領域の典型的な特徴を詳述するよう指示します。その結果、128,303の画像-テキストペアのデータセットを収集しました。MMTTデータセットを活用して、同時に改ざんの局所化と解釈を行うために設計されたアーキテクチャ「ForgeryTalker」を開発します。ForgeryTalkerはまず、説明テキスト内の重要な手がかりを特定するために改ざんプロンプターネットワークを訓練します。次に、領域プロンプターを多モーダル大規模言語モデルに組み込み、局所化と解釈の二つの目標を達成するためにファインチューニングを行います。MMTTデータセットに対して実施した広範な実験により、提案したモデルの優れた性能を確認しました。データセット、コード、および事前訓練済みのチェックポイントは、さらなる研究を促進し、結果の再現性を確保するために公開される予定です。

2024-12-27T15:23:39


Boosting Private Domain Understanding of Efficient MLLMs: A Tuning-free, Adaptive, Universal Prompt Optimization Framework

http://arxiv.org/abs/2412.19684v1

Jiang Liu, Bolin Li, Haoyuan Li, Tianwei Lin, Wenqiao Zhang, Tao Zhong, Zhelun Yu, Jinghao Wei, Hao Cheng, Hao Jiang, Zheqi Lv, Juncheng Li, Siliang Tang, Yueting Zhuang

Zhejiang University, Alibaba Group

効率的なマルチモーダル大規模言語モデル(EMLLMs)は、マルチモーダル大規模言語モデル(MLLMs)とは対照的に、モデルサイズと計算コストを削減し、リソース制約のあるデバイスにしばしば導入されます。ただし、データプライバシーの懸念から、既存のオープンソースEMLLMsは、事前学習プロセス中にプライベートなドメイン特有のデータにアクセスすることがほとんどないため、特定のビジネスシナリオのようなデバイス特有のドメインに直接適用するのが難しくなっています。この弱点に対処するために、本論文ではEMLLMsをプライベートドメインに効率的に適応させることに焦点を当て、具体的には次の2つの領域に取り組みます:1)データ要件を削減する方法、2)パラメータの微調整を回避する方法。具体的には、我々はチューニングフリーで適応的な普遍的プロンプト最適化フレームワーク(略して\textit{\textbf{\ourmethod{}}})を提案します。これは2つの段階で構成されています:1)事前定義されたプロンプトが強化検索戦略に基づいて最適化戦略ツリーを生成し、最適化の事前知識を得る;2)プロンプト反射は最適化の事前知識に基づいてプロンプトを初期化し、その後自己反省によりプロンプトをさらに探索して洗練します。これにより、\ourmethod{}はプライベートなドメイン特有のデータを処理するための「理想的なプロンプト」を優雅に生成します。我々の方法はパラメータの微調整を必要とせず、プライベートデータのデータ分布に迅速に適応するためにわずかなデータしか必要としません。複数のタスクにおける広範な実験により、提案する\ourmethod{}はベースラインと比較して、効率性とパフォーマンスの両方を大幅に改善することが示されました。

2024-12-27T15:21:17


CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs

http://arxiv.org/abs/2412.19663v1

Siyu Wang, Cailian Chen, Xinyi Le, Qimin Xu, Lei Xu, Yanzhou Zhang, Jie Yang

コンピュータ支援設計(CAD)は、正確な2Dおよび3Dモデリング、広範な分析、最適化を可能にすることで、設計プロセスの効率、精度、革新性を大幅に向上させます。既存のCADモデルを作成する方法は、潜在ベクトルまたはポイントクラウドに依存しており、これらは取得が困難で保存コストが高くなります。最近のマルチモーダル大規模言語モデル(MLLM)の進展は、研究者が自然言語の指示や画像をCADモデルの構築に使用することを促しています。ただし、これらのモデルは、正確な3D空間位置と向きを推測するのに苦労しており、幾何学を構築するための空間3Dの出発点や押出し方向を決定する際に不正確さを生じています。本研究では、単一の画像またはテキスト記述を入力として受け取る空間推論を強化したMLLMを備えたCAD合成手法であるCAD-GPTを紹介します。正確な空間推論を実現するために、私たちのアプローチでは3Dモデリング空間メカニズムを導入しています。この方法は、特化した空間展開メカニズムを使用して、3D空間位置と3Dスケッチ平面回転角を1D言語特徴空間にマッピングし、2Dスケッチ座標を適切な平面空間に離散化して、空間の出発位置、スケッチの向き、および2Dスケッチ座標の変換を正確に決定できるようにします。広範な実験により、CAD-GPTはCADモデル合成において既存の最先端手法を定量的および定性的に一貫して上回ることが示されています。

2024-12-27T14:19:36


Chimera: A Block-Based Neural Architecture Search Framework for Event-Based Object Detection

http://arxiv.org/abs/2412.19646v1

Diego A. Silva, Ahmed Elsheikh, Kamilya Smagulova, Mohammed E. Fouda, Ahmed M. Eltawil

KAUST, Cairo University, Compumacy for AI Solutions

イベントベースカメラは、人間の目を模したセンサーであり、高速での頑健性と低消費電力などの利点を提供します。確立されたディープラーニング技術は、イベントデータの処理において効果を示しています。Chimeraは、イベントベースの物体検出のために特別に設計されたブロックベースのニューラルアーキテクチャ探索(NASフレームワークであり、RGB領域の処理方法をイベント領域に適応させるための体系的なアプローチを目指しています。Chimeraの設計空間は、注意ブロック、畳み込み、状態空間モデル、MLPミキサーに基づくアーキテクチャなど、さまざまなマクロブロックから構成されており、ローカルおよびグローバルな処理能力の間で価値のあるトレードオフを提供し、異なるレベルの複雑さを持っています。PErson Detection in Robotics(PEDRo)データセットでの結果は、最新の最先端モデルと比較して同等のパフォーマンスレベルを示し、平均パラメータ削減率は1.6倍となりました。

2024-12-27T13:50:44


Xmodel-2 Technical Report

http://arxiv.org/abs/2412.19638v1

Wang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling

Xmodel-2は、推論タスク専用に設計された12億パラメータを持つ大型言語モデルです。そのアーキテクチャにより、異なるモデルのスケールが統一されたハイパーパラメータのセットを共有でき、より小さなモデルでの広範な実験と、最適な設定を大きなモデルにシームレスに転送することが可能になります。トレーニングの効率と安定性を最大化するために、Xmodel-2はMiniCPMからのWSD学習率スケジューラを採用しています。多様なソースからの1.5兆トークンで事前トレーニングされたXmodel-2は、複雑な推論およびエージェントベースのタスクで最先端の性能を達成し、低コストのトレーニングを維持しています。この結果は、効率的なモデル設計とトレーニング戦略が推論能力を向上させる可能性を示しています。モデルのチェックポイントとコードは、GitHubhttps://github.com/XiaoduoAILab/Xmodel-2 で公開されています。

2024-12-27T13:32:10


Gradient Weight-normalized Low-rank Projection for Efficient LLM Training

http://arxiv.org/abs/2412.19616v1

Jia-Hong Huang, Yixian Shen, Hongyi Zhu, Stevan Rudinac, Evangelos Kanoulas

大規模言語モデル(LLM)は、さまざまなタスクで優れたパフォーマンスを示していますが、計算リソースへの要求が増大することで、特にダウンストリームタスクのための完全なファインチューニングの広範な利用において重大な課題が生じています。この課題に対処するために、パラメーター効率の良いファインチューニング(PEFT)手法が開発されましたが、これらは完全なファインチューニングと比較してパフォーマンスが劣ることが多く、メモリ効率にも苦しんでいます。本研究では、パラメーターおよびメモリ効率を向上させながら、完全なファインチューニングと同等のパフォーマンスを維持する新しいアプローチである勾配重み正規化低ランクプロジェクション(GradNormLoRP)を紹介します。GradNormLoRPは、勾配の条件を改善するために重み行列を正規化し、最適化中の収束を促進します。さらに、重みと勾配行列に対して低ランク近似を適用し、トレーニング中のメモリ使用量を大幅に削減します。広範な実験により、私たちの8ビットGradNormLoRPは最適化メモリ使用量を最大89.5%削減し、NVIDIA RTX 4090のようなコンシューマーレベルのGPU上でLLaMA 7Bなどの大規模LLMの事前学習を追加の推論コストなしで可能にします。さらに、GradNormLoRPは既存の低ランク手法よりもファインチューニングタスクで優れた結果を出します。例えば、RoBERTaモデルをすべてのGLUEタスクでランク8でファインチューニングした場合、GradNormLoRPは平均スコア80.65を達成し、LoRAのスコア79.23を上回ります。これらの結果は、GradNormLoRPが効率的なLLMの事前学習とファインチューニングのための有望な代替手段であることを裏付けています。ソースコードと付録: https://github.com/Jhhuangkay/Gradient-Weight-normalized-Low-rank-Projection-for-Efficient-LLM-Training

2024-12-27T12:23:39


Bidding Games on Markov Decision Processes with Quantitative Reachability Objectives

http://arxiv.org/abs/2412.19609v1

Guy Avni, Martin Kurečka, Kaushik Mallik, Petr Novotný, Suman Sadhukhan

Haifa University, Masaryk University, IMDEA

グラフゲームはマルチエージェントシステムとその環境における戦略的推論の基本となるものです。我々は、確率的な環境の不確実性とエージェント間のオークションベースの相互作用を組み合わせた新しいタイプのグラフゲームを研究します。これは、(有限の)マルコフ決定過程(MDP)上の入札ゲームとして形式化されています。通常、MDPでは、単一の意思決定者が一連のアクションを選択し、無限の経路に対する確率分布を生成します。MDP上の入札ゲームでは、「到達可能性プレイヤー」と「安全性プレイヤー」と呼ばれる2人のプレイヤーが、各ステップで次のアクションを選ぶ権利を得るために入札を行います。到達可能性プレイヤーの目標はターゲット頂点に到達する確率を最大化することであり、安全性プレイヤーの目標はそれを最小化することです。これらのゲームは、従来のグラフ上の入札ゲームを一般化したものであり、既存の分析手法は拡張されません。例えば、従来の入札ゲームの中心的な特性は、到達可能性プレイヤーが勝つことを保証するために必要かつ十分な予算であるしきい値予算の存在です。MDPでは、しきい値は予算とターゲットに到達する確率との関係になります。我々は、一般的なMDPのしきい値と最適方針を近似する価値反復アルゴリズムを考案し、非循環的MDPの正確な解を計算し、しきい値を見つけることが単純な確率的ゲームを解くことと少なくとも同じくらい難しいことを示します。

2024-12-27T12:10:00


SocRATES: Towards Automated Scenario-based Testing of Social Navigation Algorithms

http://arxiv.org/abs/2412.19595v1

Shashank Rao Marpally, Pranav Goyal, Harold Soh

National University of Singapore, Smart Systems Institute, NUS, University of Michigan

現在の社会的ナビゲーション方法とベンチマークは、主にプロクセミクス(社会的距離)とタスク効率に焦点を当てています。これらの要素は重要ですが、ロボットの社会的能力に関する認識のような質的側面も、人間の環境への成功した採用と統合には同様に重要です。私たちは、特定の人間-ロボットインタラクションのシナリオを通じて、重要なロボットの行動を明らかにできるシナリオベースのテストを通じて、社会的ナビゲーションのより包括的な評価を提案します。しかし、このようなシナリオを作成することはしばしば労力を要し、複雑です。本研究では、コンテキストおよび場所に適した社会的ナビゲーションシナリオを自動生成するパイプラインを導入することで、この課題に取り組みます。このパイプラインは、シンプルなシナリオのメタデータを詳細なテキストシナリオに変換し、歩行者とロボットの軌跡を推定し、歩行者の行動をシミュレートすることで、よりコントロールされた評価を可能にします。私たちは、シナリオ生成と翻訳をスムーズに行うために、大規模言語モデル(LLMs)の社会的推論とコード生成の能力を活用します。実験の結果、私たちのパイプラインはリアルなシナリオを生成し、単純なLLMプロンプトによる翻訳に比べてシナリオの翻訳を大幅に改善することが示されました。さらに、社会的ナビゲーションの専門家とのユーザビリティスタディからの初期のフィードバックと、3つのナビゲーションアルゴリズムのシナリオベースの評価を示すケーススタディを紹介します。

2024-12-27T11:33:19


ViDTA: Enhanced Drug-Target Affinity Prediction via Virtual Graph Nodes and Attention-based Feature Fusion

http://arxiv.org/abs/2412.19589v1

Minghui Li, Zikang Guo, Yang Wu, Peijin Guo, Yao Shi, Shengshan Hu, Wei Wan, Shengqing Hu

Huazhong University of Science and Technology, Union Hospital, Tongji Medical College

薬と標的の相互作用は、薬が生物学的システムにどのように影響を与えるかを理解する上で基本的なものであり、薬-標的親和性(DTA)を正確に予測することは薬の発見にとって重要です。最近、ディープラーニング手法は、薬と標的タンパク質との間の結合強度を推定するための重要なアプローチとして浮上してきました。しかし、既存の手法は薬の局所的な情報のみを分子トポロジーから活用しており、全体的な情報は考慮されていません。さらに、薬とタンパク質の特徴は通常、単純な連結操作で融合されるため、その効果が制限されています。これらの課題に対処するために、私たちはViDTAという強化されたDTA予測フレームワークを提案します。私たちは、グラフニューラルネットワーク(GNN)に基づく薬の特徴抽出ネットワークにバーチャルノードを導入し、より効率的にメッセージを交換するためのグローバルメモリとして機能させます。バーチャルグラフノードを組み込むことで、薬の分子構造の局所的および全体的な特徴をシームレスに統合し、GNNの受容フィールドを拡大します。さらに、薬とタンパク質間の相互作用情報をより良く捉えるために、注意に基づいた線形特徴融合ネットワークを提案します。Davis、Metz、KIBAなどの様々なベンチマークで評価した実験結果は、私たちが提案したViDTAが最先端のベースラインを上回ることを示しています。

2024-12-27T11:19:10


A Comparative Study of Machine Unlearning Techniques for Image and Text Classification Models

http://arxiv.org/abs/2412.19583v1

Omar M. Safa, Mahmoud M. Abdelaziz, Mustafa Eltawy, Mohamed Mamdouh, Moamen Gharib, Salaheldin Eltenihy, Nagia M. Ghanem, Mohamed M. Ismail

Alexandria University

機械学習のアンラーニングは、データプライバシー規制に応じて機械学習モデルから学習したデータを選択的に削除する必要性に対応するため、人工知能の重要な分野として浮上しています。本論文では、画像およびテキスト分類タスクに適用される6つの最先端のアンラーニング技術の包括的な比較分析を提供します。それらのパフォーマンス、効率、および規制要件への適合性を評価し、実際のシナリオにおける強みと限界を明らかにします。これらの手法を体系的に分析することで、適用可能性、課題、およびトレードオフについての洞察を提供し、倫理的かつ適応可能な機械学習の分野での進展を促進することを目指します。

2024-12-27T10:58:55


Graph-attention-based Casual Discovery with Trust Region-navigated Clipping Policy Optimization

http://arxiv.org/abs/2412.19578v1

Shixuan Liu, Yanghe Feng, Keyu Wu, Guangquan Cheng, Jincai Huang, Zhong Liu

National University of Defense Technology, National Natural Science Foundation of China, Natural Science Foundation of Hunan Province, IEEE

多くの実証科学の分野において、変数間の因果構造を発見することは不可欠な課題です。最近、従来の方法が抱える無向エッジや潜在的仮定の違反に対処するために、研究者たちは因果発見のための強化学習(RL)手法を定式化し、REINFORCEアルゴリズムを用いて最適な報酬を得られる有向非巡回グラフを探索しました。この手法全体の性能において重要な二つの鍵は、RL手法の頑健性と変数の効率的なエンコーディングです。しかし一方では、REINFORCEは局所収束や訓練中の不安定な性能に陥りやすいです。計算コストが高いトラストリージョンポリシー最適化や、集約制約の逸脱に苦しむ近接ポリシー最適化(PPO)は、かなりの個々のサブアクションを有する組合せ最適化問題にとって適切な代替手段ではありません。私たちは、REINFORCE、PPO、そして私たちの優先サンプリングに基づいたREINFORCE実装と比較して、より優れた探索効率とポリシー最適化の安定性を保証する因果発見のためのトラストリージョンナビゲートクリッピングポリシー最適化手法を提案します。他方で、変数の効率的なエンコーディングを向上させるために、事前の隣接情報なしにより多くの特徴情報を把握できる洗練されたグラフ注意エンコーダSDGATを提案します。これらの改善により、提案手法は合成データセットおよびベンチマークデータセットの両方において、出力結果と最適化の頑健性の点で以前のRL手法を上回ります。

2024-12-27T10:50:43


Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following

http://arxiv.org/abs/2412.19562v1

Yuxiao Yang, Shenao Zhang, Zhihan Liu, Huaxiu Yao, Zhaoran Wang

Shanghai Jiao Tong University, Northwestern University, UNC-Chapel Hill

この研究は、大規模言語モデル(LLM)を使用した体現された指示追従(EIF)のためのタスクプランナーの構築に焦点を当てています。従来の研究では、プランナーを専門家の軌跡を模倣するように訓練し、これを教師ありタスクとして扱うことが一般的でした。これらの方法は競争力のある性能を達成していますが、しばしば十分なロバスト性に欠けています。最適でない行動が取られると、プランナーは分布外の状態に遭遇し、タスクの失敗につながる可能性があります。これに対して、我々はタスクを部分観測マルコフ決定過程(POMDP)として定義し、数ショットの仮定の下でロバストなプランナーを開発することを目指しています。そのため、適応モジュールと新しい後知恵法を備えたクローズドループプランナーを提案し、プランナーを支援するためにできるだけ多くの情報を活用することを目指しています。ALFREDデータセットでの実験では、我々のプランナーが数ショットの仮定の下で競争力のある性能を達成することが示されました。初めて、我々の数ショットエージェントの性能がフルショットの教師ありエージェントの性能に近づき、さらにはそれを上回ることが確認されました。

2024-12-27T10:05:45


Learning states enhanced knowledge tracing: Simulating the diversity in real-world learning process

http://arxiv.org/abs/2412.19550v1

Shanshan Wang, Xueying Zhang, Keyang Wang, Xun Yang, Xingyi Zhang

ナレッジトレーシング(KT)タスクは、過去のインタラクションに基づいて学習者の将来のパフォーマンスを予測することに焦点を当てています。知識状態は学習プロセスで重要な役割を果たします。しかし、知識状態は、練習問題の類似性、反応の信頼性、学習者の学習状態など、インタラクションプロセスにおけるさまざまな学習要因の影響を受けるため、前提とする必要があります。これまでのモデルには、2つの大きな制限があります。まず、さまざまな複雑な理由による練習問題の違いや、推測行動による反応の信頼性の欠如のために、現在解答された演習に最も関連する歴史的インタラクションを特定することが難しいです。次に、学習状態も知識状態に影響を与える重要な要因であり、これは過去の手法では常に無視されてきました。これらの問題に対処するために、学習状態を強化したナレッジトレーシング(LSKT)という新しい方法を提案します。まず、インタラクションの潜在的な違いをシミュレートするために、項目反応理論(IRT)パラダイムに触発され、粗い観点から細かい観点まで3つの異なる埋め込み方法を設計し、比較分析を行います。次に、学習者の学習プロセス中に変化する学習状態を捉えるための学習状態抽出モジュールを設計します。その結果、抽出された学習状態の助けを借りて、より詳細な知識状態を捕捉できるようになります。実世界の4つのデータセットにおける実験結果は、私たちのLSKT手法が現在の最先端の手法を上回っていることを示しています。

2024-12-27T09:41:25


A Fully Hardware Implemented Accelerator Design in ReRAM Analog Computing without ADCs

http://arxiv.org/abs/2412.19869v1

Peng Dang, Huawei Li, Wei Wang

Huawei, Peng Cheng Laboratory, University of Chinese Academy of Sciences, Chinese Academy of Sciences, SKLP, Institute of Computing Technology

新たに登場したReRAMベースのアクセラレーターは、アナログコンピューティングインメモリ(CiM)を通じてニューラルネットワークを処理し、超高エネルギー効率を実現します。しかし、周辺回路の大きなオーバーヘッドと複雑な非線形活性化モードが、システムのエネルギー効率の向上を制約しています。本研究では、確率的にバイナリ化されたニューロンを使用して、ReRAMデバイスからサンプリングされたノイズ信号を活用することで、シグモイドおよびソフトマックス活性化関数のハードウェア実装を探ります。私たちは、ReRAMクロスバーと組み合わせた確率的にバイナリ化されたニューロンを利用してニューラルネットワークの計算を加速する完全なReRAMベースのアナログコンピューティングアクセラレーター(RACA)を提案します。この新しい回路設計は、デジタルからアナログおよびアナログからデジタルコンバーターDACおよびADC)や、活性化関数を明示的に計算するためのコンポーネントなど、エネルギーおよび面積効率の低下の重要な原因を除去します。実験結果は、提案した設計が推論精度を損なうことなく、すべての全体パフォーマンス指標において従来のアーキテクチャを上回っていることを示しています。

2024-12-27T09:38:19


TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data

http://arxiv.org/abs/2412.19544v1

Xiang Huang, Jiayu Shen, Shanshan Huang, Sitao Cheng, Xiaxia Wang, Yuzhong Qu

Nanjing University, University of California, Santa Barbara, University of Oxford

意味解析は自然言語の質問を論理形式に変換するもので、構造化された環境における推論において重要な役割を果たします。しかし、既存の手法は、広範な手動アノテーションデータセットへの依存と未見の例に対する一般化能力の限界という二つの重大な課題に直面しています。これらの問題に対処するために、我々はターゲット合成データ生成(TARGA)という実用的なフレームワークを提案します。これは、手動アノテーションなしで関連性の高い合成データを動的に生成します。特定の質問の関連するエンティティと関係から始めて、レイヤーごとの拡張とクロスレイヤーの組み合わせを通じて潜在的な関連クエリを探ります。その後、これらの構築されたクエリに対する対応する自然言語の質問を生成し、文脈内学習のための合成デモンストレーションとして共同で機能させます。複数の知識ベース質問応答(KBQA)データセットにおける実験では、TARGAが7Bパラメータモデルだけを使用して、クローズソースモデルを利用した既存の非ファインチューニング手法を大幅に上回り、GrailQAでのF1スコアが+7.7、KBQA-AgentでのF1スコアが+12.2という顕著な改善を達成しました。さらに、TARGAは非I.I.D.環境下においても優れたサンプル効率、ロバスト性、および一般化能力を示しています。

2024-12-27T09:16:39


Interacted Object Grounding in Spatio-Temporal Human-Object Interactions

http://arxiv.org/abs/2412.19542v1

Xiaoyang Liu, Boran Wen, Xinpeng Liu, Zizheng Zhou, Hongwei Fan, Cewu Lu, Lizhuang Ma, Yulong Chen, Yong-Lu Li

空間・時間的ヒト-物体相互作用(ST-HOI)理解は、動画からHOIを検出することを目的としており、これは行動理解にとって重要です。しかし、既存の全身-物体相互作用動画ベンチマークは、オープンワールドの物体が多様であるという真実を見落としており、通常、限られた定義済みの物体クラスしか提供していません。そこで、私たちは新しいオープンワールドベンチマーク「Grounding Interacted Objects(GIO)」を導入します。このベンチマークには1,098の相互作用した物体クラスと290Kの相互作用した物体ボックスのアノテーションが含まれています。それに応じて、相互作用した物体を発見することを期待する物体グラウンディングタスクを提案します。今日の検出器やグラウンディング法は大いに成功していますが、GIO内の多様で希少な物体を位置特定するには不満足な結果を出しています。これは現在の視覚システムの限界を深く明らかにし、大きな課題を提起しています。したがって、私たちは空間・時間的手がかりを活用して物体グラウンディングに取り組むことを探求し、多様な動画から相互作用した物体を発見するための4D質問応答フレームワーク(4D-QA)を提案します。私たちの方法は、従来のベースラインと比較して広範な実験で顕著な優位性を示しています。データとコードは、https://github.com/DirtyHarryLYL/HAKE-AVA で公開される予定です。

2024-12-27T09:08:46


Scalable Hierarchical Reinforcement Learning for Hyper Scale Multi-Robot Task Planning

http://arxiv.org/abs/2412.19538v1

Xuan Zhou, Xiang Shi, Lele Zhang, Chen Chen, Hongbo Li, Lin Ma, Fang Deng, Jie Chen

北京理工大学, 清华大学, 北京Geek+科技有限公司, 浙江菜鸟供应链管理有限公司, 同济大学, 上海智能自主系统研究院

倉庫システムの効率を改善し、膨大な顧客注文に対応するために、ハイパースケールのマルチロボットタスク計画(MRTP)における次元の災害や動的特性の課題を解決することを目指しています。既存の研究では、階層的強化学習(HRL)がこれらの課題を軽減する効果的な方法であることが示されています。それに基づいて、RMFS(ロボティックモバイルフルフィルメントシステム)におけるハイパースケールMRTPのために効率的なマルチステージHRLベースのマルチロボットタスクプランナーを構築し、計画プロセスは特殊な時間的グラフトポロジーで表現されています。最適性を確保するために、プランナーは中央集権的なアーキテクチャで設計されていますが、これによりスケーリングや一般化の課題も発生し、政策がさまざまな未学習のスケールや地図でパフォーマンスを維持する必要があります。これらの困難に対処するために、まず固定されていない長さの入力を処理する基本能力を確保するために階層的時間的注意ネットワーク(HTAN)を構築し、その後、階層的政策学習のためのマルチステージカリキュラムを設計して、スケーリングと一般化能力をさらに向上させつつ、壊滅的な忘却を避けます。さらに、階層構造を持つ政策がマルチエージェント強化学習に似た不公平な功績割り当てに苦しむことに気付き、これに触発されて、学習性能を改善するために対実行のロールアウトベースラインを持つ階層的強化学習アルゴリズムを提案します。実験結果は、我々のプランナーがシミュレーションされたRMFSと現実のRMFSにおけるさまざまなMRTPインスタンスにおいて、他の最先端手法を上回ることを示しています。また、我々のプランナーは、未学習の地図で最大200台のロボットと1000の取り出しラックを持つハイパースケールMRTPインスタンスにスケールアップし、他の手法を上回る優れた性能を維持することができます。

2024-12-27T09:07:11


Data-Free Group-Wise Fully Quantized Winograd Convolution via Learnable Scales

http://arxiv.org/abs/2412.19867v1

Shuokai Pan, Gerti Tuzi, Sudarshan Sreeram, Dibakar Gope

Arm Inc.

大規模なテキストから画像への拡散モデルにおける革命的なブレークスルーにもかかわらず、複雑な視覚および下流タスクに対する非常に高い計算コストとストレージコストがその実用性を制限しています。拡散モデルの量子化は、最近の研究で計算コストとメモリ帯域幅の使用を削減するために探求されています。推論時間をさらに改善するために、Winogradなどの高速畳み込みアルゴリズムが畳み込み層に使用でき、これは拡散モデルにおける計算の重要な部分を占めています。しかし、既存の粗い後処理量子化手法を使用した完全量子化されたWinogradの品質の大幅な低下と、大規模モデルに対して品質を回復するためのWinograd変換行列の微調整の複雑さとコストにより、大規模な基盤モデルには適していません。このような状況を受けて、私たちは拡散モデルの量子化におけるより細かいグループ単位の量子化の影響を調査します。グループ単位の量子化は完全に量子化されたWinograd畳み込みをほぼ処理できる一方で、Winogradドメイン計算の大きな分布の不均衡には対処が難しいです。Winograd領域での範囲の違いを削減するために、領域特有のトレーニングデータを使用せずに、Winograd変換行列のスケールパラメータのみを微調整することを提案します。私たちの手法はトレーニングデータに依存しないため、量子化された拡散モデルの一般化性能は安全に保証されます。テキストから画像の生成タスクにおいて、8ビット完全量子化された拡散モデルは、全精度モデルと比べてほぼ損失のない品質(FIDおよびCLIPスコア)を提供します。画像分類に関しては、私たちの手法はResNet18とResNet-34において、最先端のWinograd PTQ手法をそれぞれ1.62%および2.56%改善し、Winograd F(6, 3)で記録しています。

2024-12-27T09:05:48


P3S-Diffusion:A Selective Subject-driven Generation Framework via Point Supervision

http://arxiv.org/abs/2412.19533v1

Junjie Hu, Shuyong Gao, Lingyi Hong, Qishan Wang, Yuzhou Zhao, Yan Wang, Wenqiang Zhang

Fudan University

最近の研究では、主題駆動生成における選択的主題特徴の重要性がますます強調されています。しかし、与えられた参照画像内のコンテンツを正確に選択することは依然として課題があり、特に画像内の類似した主題を選択する際(例えば、異なる2匹の犬)には困難があります。一部の方法では、特定の要素を隔離するためにテキストプロンプトやピクセルマスクを使用しようとしますが、テキストプロンプトは特定のコンテンツを正確に説明するには不十分であり、ピクセルマスクはしばしば高価です。これに対処するために、ポイントスーパービジョンを介してコンテキスト選択された主題駆動生成のために設計された新しいアーキテクチャであるP3S-Diffusionを紹介します。P3S-Diffusionは、最小限のコストラベル(例えば、ポイント)を利用して主題駆動の画像を生成します。ファインチューニング中に、これらのポイントから拡張されたベースマスクを生成し、追加のセグメンテーションモデルを必要としないようにします。このマスクは、インペインティングと主題表現との整合に使用されます。P3S-Diffusionは、マルチレイヤー条件注入を通じて主題の細かい特徴を保持します。訓練を改善するためのアテンション整合性損失に強化されており、大規模な実験により、その優れた特徴保持と画像生成能力が示されています。

2024-12-27T08:59:01


Is Your Text-to-Image Model Robust to Caption Noise?

http://arxiv.org/abs/2412.19531v1

Weichen Yu, Ziyan Yang, Shanchuan Lin, Qi Zhao, Jianyi Wang, Liangke Gui, Matt Fredrikson, Lu Jiang

ByteDance, Carnegie Mellon University

テキストから画像への生成(T2I)において、一般的なトレーニング技術は、イメージの再キャプションにビジョンランゲージモデル(VLM)を利用することです。VLMは、視覚的現実から逸脱する描写的コンテンツを生成する「幻覚」を示すことが知られているにもかかわらず、そのようなキャプションの幻覚がT2I生成の性能に与える影響は十分に探求されていません。私たちの実証的な調査を通じて、まずVLM生成のキャプションからなる包括的なデータセットを構築し、次にキャプションの幻覚が生成結果にどのように影響するかを体系的に分析します。私たちの発見は以下の通りです。(1) キャプションの質の差異がファインチューニング中にモデルの出力に持続的に影響を与える。(2) VLMの信頼度スコアは、データ分布内のノイズ関連パターンを検出し特徴づけるための信頼できる指標として機能する。(3) キャプションの信頼性のわずかな変化でも、学習された表現の質に大きな影響を与える。これらの発見は、キャプションの質がモデルの性能に与える深刻な影響を強調し、T2Iにおけるより洗練された堅牢なトレーニンアルゴリズムの必要性を浮き彫りにします。これらの観察に応じて、私たちはVLMの信頼度スコアを活用してキャプションノイズを軽減し、キャプションにおける幻覚に対するT2Iモデルの堅牢性を向上させるアプローチを提案します。

2024-12-27T08:53:37


PLN and NARS Often Yield Similar strength $\times$ confidence Given Highly Uncertain Term Probabilities

http://arxiv.org/abs/2412.19524v1

Ben Goertzel

SingularityNET, TrueAGI

私たちは、AGIを目指した二つの不確実な推論フレームワークである確率論的論理ネットワーク(PLN)と非公理的推論システム(NARS)で使用される演繹、帰納、及びアブダクションの公式の比較分析を提供します。二つのシステムの違いの一つは、個々の推論ルールのレベルにおいて、PLNは用語と関係の確率の両方を直接利用するのに対し、NARSは関係の頻度のみを利用し、用語の確率に相当する単純なアナロジーを持たないことです。したがって、私たちはここで用語の確率に関して高い不確実性があるシナリオに焦点を当て、この不確実性が二つのシステムの比較推論結論にどのように影響するかを探ります。私たちは、PLNにおける強度と信頼度の積($s\times c$)をNARSにおける頻度と信頼度の積($f\times c$)と比較します(これらの量は不確実な文の「力」を測るものとして言及します)。用語確率の不確実性が高い場合において、ヒューリスティックな分析と初歩的な数値計算を用いて比較します。私たちは、多くの実用的な状況において高い用語確率の不確実性が存在する場合、PLNとNARSの公式が推論結論の力に対して非常に似た結果を示すことを発見しました。たとえ時には異なる方法でこれらの類似した数値に到達することがあってもです。

2024-12-27T08:31:19


Attribution for Enhanced Explanation with Transferable Adversarial eXploration

http://arxiv.org/abs/2412.19523v1

Zhiyu Zhu, Jiayu Zhang, Zhibo Jin, Huaming Chen, Jianlong Zhou, Fang Chen

University of Technology Sydney, IEEE

ディープニューラルネットワークの解釈可能性は、コンピュータビジョンを含むさまざまなアプリケーションでのモデルの決定を理解するために重要です。AttEXplore++は、AttEXploreに基づいて構築された高度なフレームワークであり、MIGやGRAなどの転送可能な敵対攻撃手法を取り入れて、帰属を強化し、モデルの説明の正確さと堅牢性を大幅に向上させます。私たちは、ImageNetデータセットを使用してCNN(Inception-v3、ResNet-50、VGG16)やビジョントランスフォーマー(MaxViT-T、ViT-B/16)を含む5つのモデルで広範な実験を行いました。私たちの方法は、AttEXploreに対して平均パフォーマンスを7.57%向上させ、他の最先端の解釈可能性アルゴリズムと比較して32.62%改善されました。挿入および削除スコアを評価指標として使用することで、敵対的転送可能性が帰属結果を向上させる重要な役割を果たすことを示しています。さらに、無作為性、摂動率、ノイズ振幅、および多様性確率が帰属パフォーマンスに与える影響を探求し、AttEXplore++がさまざまなモデルにわたってより安定的で信頼性のある説明を提供することを示しています。私たちはコードを次で公開しています: https://anonymous.4open.science/r/ATTEXPLOREP-8435/

2024-12-27T08:27:53


Estimation of System Parameters Including Repeated Cross-Sectional Data through Emulator-Informed Deep Generative Model

http://arxiv.org/abs/2412.19517v1

Hyunwoo Cho, Sung Woong Cho, Hyeontae Jo, Hyung Ju Hwang

Pohang University of Science and Technology, Korea Advanced Institute of Science and Technology, Korea University, Institute for Basic Science, AMSquare Corp

微分方程(DE)は、自然または工学的システムの進化をモデル化する上で重要です。従来、DEのパラメータはシステム観察から得られたデータに合わせて調整されます。しかし、政治、経済、生物学などの分野では、利用可能なデータはしばしば異なる対象から異なる時点で独立して収集されます(すなわち、繰り返し横断的(RCS)データ)。従来の最適化手法は、RCSデータがさまざまな異質性を示す場合にDEパラメータを正確に推定することが困難であり、これが情報の大幅な喪失につながります。この問題に対処するために、私たちはRCSデータを扱うために設計された新しい推定手法であるエミュレータ情報の深層生成モデル(EIDGM)を提案します。具体的には、EIDGMは、即座にDEの解を生成する物理に基づいたニューラルネットワークエミュレーターと、RCSデータを効果的に模倣できるワッサースタイン生成対抗ネットワークに基づくパラメータ生成器を統合しています。私たちは、指数成長、ロジスティック人口モデル、およびローレンツ系に対してEIDGMを評価し、パラメータ分布を正確に捉える優れた能力を示しました。さらに、アミロイドベータ40およびベータ42の実験データセットにEIDGMを適用し、多様なパラメータ分布の形状を成功裏に捉えました。これは、EIDGMが広範なシステムをモデル化するために適用可能であり、限られたデータに基づいてシステムの運用原理を明らかにするために拡張できることを示しています。

2024-12-27T08:19:23


MBQ: Modality-Balanced Quantization for Large Vision-Language Models

http://arxiv.org/abs/2412.19509v1

Shiyao Li, Yingchun Hu, Xuefei Ning, Xihui Liu, Ke Hong, Xiaotao Jia, Xiuhong Li, Yaqi Yan, Pei Ran, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang

Tsinghua University, Infinigence-AI, Beihang University, University of Hong Kong, Chinatower, Shanghai Jiao Tong University

ビジョン-ランゲージモデル(VLM)は、さまざまな現実世界のアプリケーションを実現しました。VLMの大規模なパラメータサイズは、大きなメモリおよび計算オーバーヘッドをもたらし、デプロイメントにとって重要な課題となります。ポストトレーニン量子化(PTQ)は、メモリおよび計算オーバーヘッドを削減するための効果的な技術です。既存のPTQ手法は主に大規模言語モデル(LLM)に焦点を当てており、他のモダリティ間の違いを考慮していません。本論文では、大規模VLMにおける言語トークンと視覚トークンの感度には重要な違いがあることを発見しました。したがって、既存のPTQ手法のように異なるモダリティからのトークンを平等に扱うことは、感度の低いモダリティを過剰に重視する可能性があり、重要な精度損失を引き起こします。この問題に対処するために、私たちは大規模VLM用のシンプルでありながら効果的な手法、モダリティバランス量子化(MBQ)を提案します。具体的には、MBQはキャリブレーションプロセス中にモダリティ間の異なる感度を取り入れ、より良い量子化パラメータのために再構成損失を最小化します。広範な実験により、MBQは、SOTAベースラインと比較して、7Bから70BのVLMに対してW3およびW4A8量子化の下で最大4.4%および11.6%もタスク精度を大幅に向上させることができることが示されています。さらに、デクォンタイズとGEMV演算子を融合するW3 GPUカーネルを実装し、RTX 4090上のLLaVA-onevision-7Bで1.4倍のスピードアップを実現しました。コードはhttps://github.com/thu-nics/MBQで入手可能です。

2024-12-27T07:55:36


Hybrid Local Causal Discovery

http://arxiv.org/abs/2412.19507v1

Zhaolong Ling, Honghui Peng, Yiwen Zhang, Peng Zhou, Xingyu Wu, Kui Yu, Xindong Wu

Anhui University, Hong Kong Polytechnic University, Hefei University of Technology

ローカル因果発見は、観測データからターゲット変数の直接的な原因と効果を学習し、区別することを目的としています。既存の制約ベースのローカル因果発見方法は、ローカル因果スケルトンを構築する際にANDまたはORルールを使用していますが、いずれかのルールのみを使用すると、学習されたローカル因果スケルトンにカスケードエラーが発生する可能性があり、したがってローカル因果関係の推論に影響を与えます。一方で、スコアベースのグローバル因果発見方法をローカル因果発見に直接適用すると、ローカル同値クラスの存在により、誤った結果がランダムに返される可能性があります。これらの問題に対処するために、私たちはHLCDと呼ばれるハイブリッドローカル因果発見アルゴリズムを提案します。具体的には、HLCDは最初にORルールと組み合わせた制約ベースのアプローチを利用して候補スケルトンを取得し、その後、スコアベースの方法を使用して候補スケルトン内の冗長部分を排除します。さらに、ローカル因果の方向付け段階では、HLCDは2つのローカル構造スコアを比較することによってV構造と同値クラスを区別し、ローカル同値クラスによって引き起こされる方向付けの干渉を回避します。私たちは、14のベンチマークベイジアンネットワークデータセットで7つの最先端の競合他社との広範囲な実験を行い、実験結果はHLCDが既存のローカル因果発見アルゴリズムよりも大幅に優れていることを示しています。

2024-12-27T07:53:59


Multi-P$^2$A: A Multi-perspective Benchmark on Privacy Assessment for Large Vision-Language Models

http://arxiv.org/abs/2412.19496v1

Jie Zhang, Xiangkui Cao, Zhouyu Han, Shiguang Shan, Xilin Chen

Chinese Academy of Sciences, University of Chinese Academy of Sciences

大規模ビジョン・言語モデル(LVLMs)はさまざまなタスクで印象的な可能性を示していますが、同時に重大なプライバシーリスクにも直面しており、実用的な応用を制限しています。LVLMsのプライバシー評価に関する現在の研究は、範囲が限られており、評価の次元とプライバシーカテゴリの両方にギャップがあります。このギャップを埋めるために、私たちはMulti-P$^2$Aを提案します。これは、プライバシー意識と漏洩に関してLVLMsのプライバシー保護能力を評価するための包括的ベンチマークです。プライバシー意識は、入力データのプライバシー感度を認識するモデルの能力を測定し、プライバシー漏洩は、出力においてモデルが意図せずプライバシー情報を開示するリスクを評価します。私たちは、LVLMsが提供するモデルのプライバシー保護を徹底的に評価するために、さまざまなサブタスクを設計しました。Multi-P$^2$Aは、26の個人プライバシーカテゴリ、15の営業秘密カテゴリー、18の国家秘密カテゴリーをカバーし、合計で31,962のサンプルを含んでいます。Multi-P$^2$Aに基づいて、私たちは21のオープンソースと2のクローズドソースのLVLMsのプライバシー保護能力を評価しました。その結果、現在のLVLMsは一般にプライバシー侵害を助長する高いリスクを抱えており、個人プライバシー、営業秘密、国家秘密のカテゴリごとに脆弱性が異なることが明らかになりました。

2024-12-27T07:33:39


Disparate Model Performance and Stability in Machine Learning Clinical Support for Diabetes and Heart Diseases

http://arxiv.org/abs/2412.19495v1

Ioannis Bilionis, Ricardo C. Berrios, Luis Fernandez-Luque, Carlos Castillo

機械学習(ML)アルゴリズムは、バイオメディカルインフォマティクスにおける臨床意思決定をサポートするために重要です。しかし、彼らの予測性能は人口統計グループによって異なる場合があり、その多くはトレーニングデータセットにおける歴史的に疎外された人口の過少表現に起因しています。この調査により、慢性疾患データセットとその派生するMLモデルにおいて、性別および年齢に関連する広範囲な不平等が明らかになりました。そのため、正確性やデータの複雑さなどの従来の指標と体系的な恣意性を組み合わせた新しい分析フレームワークが導入されました。25,000人以上の慢性疾患を持つ個人からのデータの分析は、性別に関連するわずかな格差が示され、男性に対して予測精度が有利であり、年齢に関連する有意な違いがあり、若年患者に対してより良い精度が示されました。特に、高齢者は、データの複雑さが高く、モデルの性能が低いことに関連して、7つのデータセット全体で一貫した予測精度を示しませんでした。これは、トレーニングデータの代表性だけでは公平な結果が保証されず、臨床の場でモデルを展開する前にモデルの恣意性に対処する必要があることを強調しています。

2024-12-27T07:31:14


Optimizing Helmet Detection with Hybrid YOLO Pipelines: A Detailed Analysis

http://arxiv.org/abs/2412.19467v1

Vaikunth M, Dejey D, Vishaal C, Balamurali S

ヘルメット検出は、公共道路交通のダイナミクスにおける保護レベルの向上において重要です。この問題はオブジェクト検出タスクに変換されます。したがって、本論文では、ヘルメット検出の文脈において、信頼性と計算負荷の観点から最近のYou Only Look Once(YOLO)モデルを比較します。具体的には、YOLOv8、YOLOv9、および新たにリリースされたYOLOv11が使用されました。さらに、全体的なパフォーマンスを著しく改善する修正されたアーキテクチャパイプラインが本原稿で提案されています。このハイブリッドYOLOモデル(h-YOLO)は、分析のために独立したモデルと比較され、h-YOLOが通常のYOLOモデルに対してヘルメット検出に優れていることが証明されました。モデルは、再現率、精度、およびmAP(平均平均精度)などの標準的なオブジェクト検出ベンチマークを使用してテストされました。さらに、トレーニングとテストの時間も記録されており、リアルタイム検出シナリオにおけるモデルの全体的な範囲を提供しています。

2024-12-27T05:26:12


Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models

http://arxiv.org/abs/2412.19450v1

Hyeonseok Moon, Jaehyung Seo, Seungyoon Lee, Chanjun Park, Heuiseok Lim

Korea University

大規模言語モデル(LLM)の主要な強みの一つは、指示に応じて適切な応答を生成することで人間と相互作用できる能力です。この能力は、指示に従う能力として知られ、さまざまな分野でLLMを使用するための基盤を築き、彼らのパフォーマンスを評価するための重要な指標となります。数多くの評価ベンチマークが開発されていますが、ほとんどは明確で一貫した指示にのみ焦点を当てています。しかし、LLMは指示形式の文に容易に気を取られてしまうことがあるため、指示理解能力の見落としにつながることがあります。この問題に対処するため、私たちは「指示の意図(IoInst)」というベンチマークを導入しました。このベンチマークは、余計な指示に惑わされることなく、LLMが集中し指示を理解する能力を評価します。このベンチマークの主な目的は、与えられた文脈の生成を正確に導く適切な指示を特定することです。私たちの調査結果は、最近導入された最先端のモデルでさえも、依然として指示理解能力が欠けていることを示唆しています。本研究におけるIoInstの提案に加えて、IoInstに適用できる可能性のあるいくつかの戦略の広範な分析も示します。

2024-12-27T04:37:39


A Survey on Large Language Model Acceleration based on KV Cache Management

http://arxiv.org/abs/2412.19442v1

Haoyang Li, Yiming Li, Anxin Tian, Tianhao Tang, Zhanchao Xu, Xuejia Chen, Nicole Hu, Wei Dong, Qing Li, Lei Chen

The Hong Kong Polytechnic University, Hong Kong University of Science and Technology, Huazhong University of Science and Technology, The Chinese University of Hong Kong, Nanyang Technological University

大規模言語モデル(LLM)は、コンテキストを理解し論理的推論を行う能力のおかげで、自然言語処理、コンピュータビジョン、マルチモーダルタスクなど幅広い分野に革命をもたらしました。しかし、特に推論時のLLMに対する計算およびメモリの要求は、現実の長いコンテキストやリアルタイムアプリケーションにスケールする際に重要な課題を引き起こします。キー・バリュー(KV)キャッシュ管理は、冗長な計算を減らしメモリの利用効率を向上させることによって、LLMの推論を加速するための重要な最適化手法として浮上しています。この調査は、LLM加速のためのKVキャッシュ管理戦略の包括的な概要を提供し、それらをトークンレベル、モデルレベル、およびシステムレベルの最適化に分類しています。トークンレベルの戦略には、KVキャッシュの選択、予算配分、マージ、量子化、および低ランク分解が含まれ、一方、モデルレベルの最適化はKVの再利用を促進するためのアーキテクチャ革新と注意メカニズムに焦点を当てています。システムレベルのアプローチは、メモリ管理、スケジューリング、およびハードウェアを考慮した設計に取り組み、さまざまな計算環境での効率性を向上させます。加えて、この調査はこれらの戦略を評価するために使用されるテキストおよびマルチモーダルデータセットベンチマークの概要も提供しています。詳細な分類と比較分析を提示することにより、この研究は、効率的でスケーラブルなKVキャッシュ管理技術の開発を支援するための有用な洞察を研究者や実務者に提供することを目的としています。そして、LLMの実用的な展開に貢献します。KVキャッシュ管理のための厳選された論文リストは以下にあります:\href{https://github.com/TreeAI-Lab/Awesome-KV-Cache-Management}{https://github.com/TreeAI-Lab/Awesome-KV-Cache-Management}。

2024-12-27T04:17:57


DeepSeek-V3 Technical Report

http://arxiv.org/abs/2412.19437v1

DeepSeek-AI, Aixin Liu, Bei Feng, Bing Xue, Bingxuan Wang, Bochao Wu, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Daya Guo, Dejian Yang, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Haowei Zhang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Li, Hui Qu, J. L. Cai, Jian Liang, Jianzhong Guo, Jiaqi Ni, Jiashi Li, Jiawei Wang, Jin Chen, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, Junxiao Song, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Lei Xu, Leyi Xia, Liang Zhao, Litong Wang, Liyue Zhang, Meng Li, Miaojun Wang, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingming Li, Ning Tian, Panpan Huang, Peiyi Wang, Peng Zhang, Qiancheng Wang, Qihao Zhu, Qinyu Chen, Qiushi Du, R. J. Chen, R. L. Jin, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, Runxin Xu, Ruoyu Zhang, Ruyi Chen, S. S. Li, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shaoqing Wu, Shengfeng Ye, Shengfeng Ye, Shirong Ma, Shiyu Wang, Shuang Zhou, Shuiping Yu, Shunfeng Zhou, Shuting Pan, T. Wang, Tao Yun, Tian Pei, Tianyu Sun, W. L. Xiao, Wangding Zeng, Wanjia Zhao, Wei An, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, X. Q. Li, Xiangyue Jin, Xianzu Wang, Xiao Bi, Xiaodong Liu, Xiaohan Wang, Xiaojin Shen, Xiaokang Chen, Xiaokang Zhang, Xiaosha Chen, Xiaotao Nie, Xiaowen Sun, Xiaoxiang Wang, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xingkai Yu, Xinnan Song, Xinxia Shan, Xinyi Zhou, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, Y. K. Li, Y. Q. Wang, Y. X. Wei, Y. X. Zhu, Yang Zhang, Yanhong Xu, Yanhong Xu, Yanping Huang, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Li, Yaohui Wang, Yi Yu, Yi Zheng, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Ying Tang, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yu Wu, Yuan Ou, Yuchen Zhu, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yukun Zha, Yunfan Xiong, Yunxian Ma, Yuting Yan, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Z. F. Wu, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhen Huang, Zhen Zhang, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhibin Gou, Zhicheng Ma, Zhigang Yan, Zhihong Shao, Zhipeng Xu, Zhiyu Wu, Zhongyu Zhang, Zhuoshu Li, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Ziyi Gao, Zizheng Pan

私たちは、合計671Bパラメータを持つ強力なMixture-of-Experts(MoE)言語モデルであるDeepSeek-V3を発表します。このモデルは、各トークンに対して37Bのパラメータがアクティブになります。効率的な推論とコスト効果の高いトレーニングを実現するために、DeepSeek-V3はMulti-head Latent Attention(MLA)およびDeepSeekMoEアーキテクチャを採用しており、これらはDeepSeek-V2で十分に検証されています。さらに、DeepSeek-V3は、ロードバランシングのための補助損失フリー戦略を先駆けて導入し、より強力な性能を得るためのマルチトークン予測トレーニング目標を設定しています。私たちは14.8兆の多様で高品質なトークンでDeepSeek-V3を事前トレーニングした後、監視されたファインチューニングおよび強化学習ステージを経て、その能力を最大限に引き出しました。包括的な評価により、DeepSeek-V3は他のオープンソースモデルを上回り、主要なクローズドソースモデルと同等の性能を達成することが明らかになりました。優れた性能にもかかわらず、DeepSeek-V3はフルトレーニングにはわずか2.788M H800 GPU時間しか必要としません。さらに、そのトレーニングプロセスは驚くほど安定しています。トレーニング全体を通じて、回復不可能な損失のスパイクやロールバックを経験することはありませんでした。モデルのチェックポイントは、https://github.com/deepseek-ai/DeepSeek-V3 にて入手可能です。

2024-12-27T04:03:16


Residual Feature-Reutilization Inception Network for Image Classification

http://arxiv.org/abs/2412.19433v1

Yuanpeng He, Wenjie Song, Lijian Li, Tianxiang Zhan, Wenpin Jiao

特徴情報を効果的にキャプチャすることは、コンピュータビジョン分野において非常に重要です。畳み込みニューラルネットワーク(CNN)の発展に伴い、残差接続や複数のスケールといった概念が、さまざまな深層学習ビジョンタスクにおける継続的な性能向上を促進しています。本論文では、残差特徴再利用インセプション(ResFRI)または分割残差特徴再利用インセプション(Split-ResFRI)からなる新しいCNNアーキテクチャを提案します。このアーキテクチャは、特別に設計された情報相互作用通路で接続された異なる構造の4つの畳み込みの組み合わせで構成されており、マルチスケールの特徴情報を抽出し、モデルの受容野を効果的に増加させるために利用されます。さらに、上記のネットワーク構造に基づいて、Split-ResFRIは入力情報のセグメンテーション比率を調整できるため、パラメータの数を削減しつつ、モデルのパフォーマンスを保証します。具体的には、CIFAR10($97.94$\%)、CIFAR100($85.91$\%)、およびTiny Imagenet($70.54$\%)などの一般的なビジョンデータセットに基づく実験において、モデルサイズがほぼ同じで追加データを使用しない条件のもとで、他の現代的なモデルと比較して最先端の結果を得ることができました。

2024-12-27T03:55:25


A Self-Efficacy Theory-based Study on the Teachers Readiness to Teach Artificial Intelligence in Public Schools in Sri Lanka

http://arxiv.org/abs/2412.19425v1

Chathura Rajapakse, Wathsala Ariyarathna, Shanmugalingam Selvakan

この研究は、スリランカのICT教師が学校でAIを教えるための準備状況を自己効力感に焦点を当てて調査しています。1,300人以上の教師を対象にした調査では、バンデューラの理論に基づいて開発された尺度を使用して、自己効力感を評価しました。PLS-SEM分析の結果、教師の自己効力感は低く、主にAI指導に関連する感情的および生理的状態や想像的な経験に影響されていることが明らかになりました。マスタリー経験の影響は少なく、代理体験や口頭による説得には有意な効果は見られませんでした。この研究は、教師のAI専門知識や社会的資本の限界を考慮した、体系的な教師専門職の発展アプローチの必要性を強調しています。効果的なAI教師トレーニングのために、社会技術システムの視点からのさらなる研究が推奨されます。

2024-12-27T03:31:26


Revisiting PCA for time series reduction in temporal dimension

http://arxiv.org/abs/2412.19423v1

Jiaxin Gao, Wenbo Hu, Yuntian Chen

Shanghai Jiao Tong University, Ningbo Institute of Digital Twin, Eastern Institute of Technology, Hefei University of Technology

時間的次元における時系列縮小のためのPCAの再検討; ジアキン・ガオ, ウェンボ・フ, ユンティアン・チェン; 深層学習は、時系列分析(TSA)を著しく進展させており、分類、予測、回帰といったタスクのための複雑なパターンの抽出を可能にしています。次元削減は従来、変数空間に焦点を当てており、データの冗長性と計算の複雑さを最小化する上で顕著な成功を収めてきましたが、時間的次元の削減にはあまり注意が払われていませんでした。本研究では、古典的な次元削減手法である主成分分析(PCA)を再検討し、時系列データの時間的次元削減におけるその有用性を探ります。一般的には、時間的次元にPCAを適用することは時間的依存性を妨げると考えられており、この分野での探求は限られています。しかし、私たちの理論的分析と広範な実験は、スライディングシリーズウィンドウにPCAを適用することが、モデルの性能を維持するだけでなく、計算効率を向上させることを示しています。自己回帰予測において、時間的構造はウィンドウ化を通じて部分的に保存され、これらのウィンドウ内でPCAが適用されて時系列のノイズを除去しながら統計的情報を保持します。PCAを用いて時系列データを前処理することで、TSAモデル(線形、トランスフォーマー、CNN、RNNアーキテクチャなど)に入力する前に時間的次元を削減します。このアプローチは、トレーニングと推論を加速し、リソース消費を削減します。特に、PCAはInformerのトレーニングおよび推論速度を最大40%向上させ、TimesNetのGPUメモリ使用量を30%削減しますが、モデルの精度を犠牲にはしません。他の削減手法との比較分析は、TSAモデルの効率を向上させる上でPCAの効果的であることをさらに強調します。

2024-12-27T03:17:26


Gx2Mol: De Novo Generation of Hit-like Molecules from Gene Expression Profiles via Deep Learning

http://arxiv.org/abs/2412.19422v1

Chen Li, Yuki Matsukiyo, Yoshihiro Yamanishi

Nagoya University, Kyushu Institute of Technology

新規ヒット様分子の生成は、創薬プロセスにおいて挑戦的なタスクです。これまでの研究でのほとんどの手法は、分子グラフや簡略化された分子入力行列システム(SMILES)文字列を分析することによって、分子構造の意味と構文を学習しますが、遺伝子やタンパク質から成る生物学的システムの薬物応答を考慮していません。本研究では、任意の標的タンパク質に対して望ましい表現型を持つ分子構造を生成するために、遺伝子発現プロファイルを利用する深層生成モデルGx2Molを提案します。このアルゴリズムでは、変分オートエンコーダを特徴抽出器として利用し、遺伝子発現プロファイルの潜在的特徴分布を学習します。その後、ロングショートタームメモリを化学生成器として活用し、特徴抽出器によって抽出された遺伝子発現プロファイルの特徴条件を満たす、構文的に有効なSMILES文字列を生成します。実験結果およびケーススタディは、提案されたGx2Molモデルが潜在的な生物活性と薬物様特性を持つ新しい分子を生成できることを示しています。

2024-12-27T03:16:56


Introduction to Graph Neural Networks: A Starting Point for Machine Learning Engineers

http://arxiv.org/abs/2412.19419v1

James H. Tanis, Chris Giannella, Adrian V. Mariano

グラフニューラルネットワークは、ノードやエッジに属性が付与されたグラフ用に設計された深層ニューラルネットワークです。これらのモデルに関する研究論文の数は、幅広いタスクにおける素晴らしいパフォーマンスにより急速に増加しています。この調査では、エンコーダーデコーダーのフレームワークを通じてグラフニューラルネットワークを紹介し、さまざまなグラフ解析タスクのデコーダーの例を提供します。また、理論と同質グラフに関する多数の実験を用いて、さまざまなトレーニングサイズやグラフの複雑さの度合いに対するグラフニューラルネットワークの振る舞いを示します。

2024-12-27T03:13:02


Generalized Uncertainty-Based Evidential Fusion with Hybrid Multi-Head Attention for Weak-Supervised Temporal Action Localization

http://arxiv.org/abs/2412.19418v1

Yuanpeng He, Lijian Li, Tianxiang Zhan, Wenpin Jiao, Chi-Man Pun

弱監視型時間的アクションローカリゼーション(WS-TAL)は、完全なアクションインスタンスを特定し、動画レベルのラベルで分類するタスクです。アクションと背景の曖昧さは、主に集約とアクション内変動に起因する背景ノイズによって引き起こされ、既存のWS-TAL手法にとって重大な課題です。本論文では、この問題に対処するために、ハイブリッドマルチヘッドアテンション(HMHA)モジュールと一般化不確実性に基づく証拠融合(GUEF)モジュールを導入します。提案されたHMHAは、冗長情報をフィルタリングし、WS-TALタスクにより適合するように特徴分布を調整することにより、RGBおよびオプティカルフローフィーチャーを効果的に強化します。さらに、提案されたGUEFは、スニペットレベルの証拠を融合することによって背景ノイズの干渉を自動的に排除し、不確実性測定を洗練し、優れた前景フィーチャー情報を選択することで、モデルが全体のアクションインスタンスに集中できるようにし、より良いアクションローカリゼーションと分類性能を実現します。THUMOS14データセットで行った実験結果は、私たちの手法が最先端の手法を上回ることを示しています。私たちのコードは\url{https://github.com/heyuanpengpku/GUEF/tree/main}で入手可能です。

2024-12-27T03:04:57


Fully Data-driven but Interpretable Human Behavioural Modelling with Differentiable Discrete Choice Model

http://arxiv.org/abs/2412.19403v1

Fumiyasu Makinoshima, Tatsuya Mitomi, Fumiya Makihara, Eigo Segawa

Fujitsu Limited

離散選択モデルは、人間の行動におけるさまざまな意思決定プロセスをモデル化するために不可欠です。しかし、これらのモデルの特性は専門家からのドメイン知識に大きく依存しており、複雑な人間の行動を完全に自動化かつ解釈可能にモデル化することは長年の課題でした。本論文では、微分可能な離散選択モデル(Diff-DCM)を紹介します。これは、複雑な人間の行動の解釈可能なモデル化、学習、予測、制御のための完全にデータ駆動型の方法であり、微分プログラミングによって実現されています。Diff-DCMは、事前知識なしに入力特徴と選択結果からのみ、観察された行動を再現する解釈可能なクローズドフォームの効用関数を推定することができます。合成データと実世界データの両方を用いた包括的な実験では、Diff-DCMがさまざまなタイプのデータに適用でき、推定に必要な計算リソースが少量で済むことが示されました。推定は、加速器なしでラップトップ上で数十秒以内に完了することができます。これらの実験では、Diff-DCMがその微分可能性を利用して、効果的な行動変化のための最適な介入パスなど、人間の行動に関する有用な洞察を提供できることも示しています。この研究は、人間の行動の完全に自動化された信頼性の高いモデル化、予測、制御のための強力な基盤を提供します。

2024-12-27T01:53:18


Comparing Few to Rank Many: Active Human Preference Learning using Randomized Frank-Wolfe

http://arxiv.org/abs/2412.19396v1

Kiran Koshy Thekumparampil, Gaurush Hiranandani, Kousha Kalantari, Shoham Sabach, Branislav Kveton

私たちは限られた比較フィードバックから人間の好みを学習することを研究しています。このタスクは機械学習の中で広く行われています。その応用は、例えば人間のフィードバックに基づく強化学習など、変革的なものとなっています。私たちはこの問題を、通常 $K \ll N$ である $K$ の比較フィードバックから $N$ の選択肢の宇宙に対するプラケット・ルースモデルの学習として定式化します。私たちの解は、プラケット・ルース目的に対するD最適設計です。この設計は、全ての ${N \choose K}$ の実行可能な部分集合から最適に選ばれたポイントの小さなコレクションに対して比較フィードバックを引き出すデータ記録ポリシーを定義します。この作業における主なアルゴリズム上の課題は、D最適設計を解くための迅速な方法であっても $O({N \choose K})$ の時間計算量を持つということです。この問題に対処するために、私たちはランダムに選ばれた変数に対してFW(フランク・ウルフ)法の線形最大化サブプロブレムを解くランダム化フランク・ウルフ(FW)アルゴリズムを提案します。私たちはアルゴリズムを分析し、合成データセットおよびオープンソースNLPデータセットで実証的に評価します。

2024-12-27T01:10:17


An Engorgio Prompt Makes Large Language Model Babble on

http://arxiv.org/abs/2412.19394v1

Jianshuo Dong, Ziyuan Zhang, Qingjie Zhang, Han Qiu, Tianwei Zhang, Hao Wang, Hewu Li, Qi Li, Chao Zhang, Ke Xu

Tsinghua University, Nanyang Technological University

自己回帰型大規模言語モデル(LLM)は、多くの実世界のタスクで印象的な成果を上げています。しかし、これらのLLMの新しいパラダイムは、新たな脅威も明らかにします。本論文では、悪意のあるユーザーが計算コストと推論プロセスのレイテンシを意図的に増加させるために、エンゴルジオプロンプトを作成する推論コスト攻撃に対する脆弱性を探ります。私たちは、ターゲットLLMのサービス可用性に影響を与えるために、敵対的なエンゴルジオプロンプトを効率的に生成する新しい手法であるエンゴルジオを設計しました。エンゴルジオには、以下の2つの技術的貢献があります。(1) LLMの予測軌道を追跡するために、パラメータ化された分布を使用します。(2) LLMの推論プロセスの自己回帰的特性を対象に、LLMの生成プロセスを中断する< EOS >トークンの出現を安定して抑制するための新しい損失関数を提案します。私たちは、パラメータが125Mから30Bまでの13のオープンソースのLLMに対して広範な実験を実施しました。結果は、エンゴルジオプロンプトがLLMに異常に長い出力(すなわち、出力長の制限の90%+に到達するために約2-13倍長)を生成させることに成功することを示しています。さらに、私たちの実世界の実験は、限られた計算リソースを持つLLMに対するエンゴルジオの脅威を示しています。コードはhttps://github.com/jianshuod/Engorgio-promptで入手可能です。

2024-12-27T01:00:23


An In-Depth Analysis of Adversarial Discriminative Domain Adaptation for Digit Classification

http://arxiv.org/abs/2412.19391v1

Eugene Choi, Julian Rodriguez, Edmund Young

Princeton University

ドメイン適応は、実世界のデータで良好に動作する堅牢な機械学習モデルに対する需要の高まりによって推進される活発な研究分野です。深層ニューラルネットワーク(DNN)のための敵対的学習は、特に画像分類において一般化能力を向上させる有望なアプローチとして登場しました。本論文では、Adversarial Discriminative Domain Adaptation(ADDA)という特定の敵対的学習手法を実装し、元のADDA論文からの数字分類実験を再現します。私たちは、より広範なドメインシフトを検討することで彼らの発見を拡張し、ADDA後のドメイン内分類精度の詳細な分析を提供します。私たちの結果は、ADDAが特定のドメインシフトにおいて精度を大幅に向上させ、ドメイン内のパフォーマンスに対する影響が最小限であることを示しています。さらに、質的な分析を提供し、ADDAの成功があまり見られないドメインシフトにおける限界についての潜在的な説明を提案します。コードは https://github.com/eugenechoi2004/COS429_FINAL にあります。

2024-12-27T00:36:40


2024-12-29 arXiv論文リスト(cs.AI)

About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 34件

HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models

http://arxiv.org/abs/2412.20622v1

Ashish Seth, Dinesh Manocha, Chirag Agarwal

University of Maryland, College Park, University of Virginia

大規模ビジョン-言語モデル(LVLMs)は、複雑なマルチモーダルタスクを遂行する上で驚異的なパフォーマンスを示しています。しかし、依然としてオブジェクトの幻覚、すなわち画像に存在するオブジェクトの誤認識や誤分類に悩まされています。これを解決するために、私たちはHALLUCINOGENを提案します。これは、最新のLVLMにおけるオブジェクトの幻覚を評価するために多様な文脈的推論プロンプトを利用した新しい視覚質問応答(VQA)オブジェクト幻覚攻撃ベンチマークです。ターゲット画像内のオブジェクトを正確に特定する能力を評価するために、特定のオブジェクトに関連する識別や位置特定、視覚的推論を行うなどの多様なビジュアル-言語タスクを要求しながら、LVLMの文脈的推論幻覚プロンプトの一連を設計しました。さらに、私たちはこのベンチマークを高リスクの医療応用に拡張し、バイオメディカル領域に特化した幻覚攻撃であるMED-HALLUCINOGENを導入し、医療画像におけるLVLMの幻覚パフォーマンスを評価します。これは精度が非常に重要なクリティカルな領域です。最後に、私たちは八つのLVLMと二つの幻覚軽減戦略を複数のデータセットにわたって広範に評価し、現在の一般的な医療LVLMが依然として幻覚攻撃に対して感受性があることを示します。

2024-12-29T23:56:01


Towards Explaining Uncertainty Estimates in Point Cloud Registration

http://arxiv.org/abs/2412.20612v1

Ziyuan Qin, Jongseok Lee, Rudolph Triebel

Technical University of Munich (TUM), Karlsruhe Institute of Technology (KIT), Institute of Robotics and Mechatronics, German Aerospace Center (DLR)

反復最近点法(ICP)は、2つの点群の間の変換を推定するために一般的に使用されるアルゴリズムです。この作業の主なアイデアは、確率的ICP方法に対する不確実性の推定を提供するために、説明可能なAIの最近の進展を活用することです。具体的には、確率的ICP方法が特定の出力を生成した理由を説明できる方法を提案します。私たちの方法は、カーネルSHAP(SHapley Additive exPlanations)に基づいています。これにより、センサーのノイズ、遮蔽、あいまいな環境など、ICPにおける一般的な不確実性の情報源に重要度を割り当てます。実験の結果は、この説明方法が不確実性の情報源を合理的に説明できることを示しており、ロボットがいつ、なぜ失敗したかを人間が理解できる方法で知るための一歩を提供しています。

2024-12-29T23:03:44


MATEY: multiscale adaptive foundation models for spatiotemporal physical systems

http://arxiv.org/abs/2412.20601v1

Pei Zhang, M. Paul Laiu, Matthew Norman, Doug Stefanski, John Gounley

Oak Ridge National Laboratory, Bethel Valley Road, Oak Ridge, TN

空間-時間物理システムにおけるマルチスケール特徴の正確な表現には、視覚トランスフォーマー(ViT)アーキテクチャを使用する際に、非常に長く計算的に負担の大きいトークンシーケンスが必要です。この課題に対処するために、我々は局所的な特徴に基づいてパッチサイズを動的に調整する2つの適応的トークン化スキームを提案します。一つは均一なパッチの洗練に収束する動作を確保し、もう一つはより良い計算効率を提供します。さらに、時間的または軸方向の空間次元がデカップリングされる一連の空間-時間注意スキームを提示し、それらの計算およびデータ効率を評価します。我々は提案されたマルチスケール適応モデルMATEYの性能を一連の実験で評価しました。結果は、適応的トークン化スキームがトークンシーケンスの長さを大幅に増加させることなく精度を向上させることを示しています。完全な空間-時間注意スキームまたは時間次元のみをデカップリングするスキームと比較して、完全にデカップリングされた軸方向の注意は効率的ではなく、表現力も劣っており、同じ精度を達成するためにより多くのトレーニング時間とモデルウエイトを必要とすることが分かりました。最後に、異なる物理を特徴とする2つのファインチューニングタスクで、PDEBenchデータで事前訓練されたモデルがスクラッチから訓練されたモデルを上回ることが示され、特にフROZEN注意を使用した低データ環境でその傾向が顕著でした。

2024-12-29T22:13:16


Controlling Out-of-Domain Gaps in LLMs for Genre Classification and Generated Text Detection

http://arxiv.org/abs/2412.20595v1

Dmitri Roussinov, Serge Sharoff, Nadezhda Puchnina

University of Strathclyde, University of Leeds, Independent consultant

この研究は、現代の大規模言語モデル(LLMs、例:GPT-4)が、事前学習された言語モデル(PLMs、例:BERT)に関する以前の研究で観察された同様のドメイン外(OOD)パフォーマンスのギャップに苦しんでいることを示しています。我々は、2つの非トピカル分類タスク、すなわち1)ジャンル分類と2)生成されたテキストの検出においてこれを実証します。我々の結果は、コンテキスト内学習(ICL)のデモンストレーション例が1つのドメイン(例:旅行)から来る場合、システムが別のドメイン(例:歴史)でテストされると、分類パフォーマンスが著しく低下することを示しています。この問題に対処するため、我々は分類中に使用される予測指標を制御し、除外されるものを特定する方法を導入します。ここで研究した2つのタスクにおいて、これはトピカルな特徴を省きながら、モデルが内容ベースの属性ではなくスタイルに焦点を当てるように導きます。このアプローチは、少数のサンプル設定において最大20パーセントポイントまでOODギャップを削減します。ベースラインとして使用されるストレートフォワードな思考の連鎖(CoT)手法は不十分であることが証明される一方で、我々のアプローチはドメイン転送パフォーマンスを一貫して向上させます。

2024-12-29T21:54:39


Kryptonite-N: Machine Learning Strikes Back

http://arxiv.org/abs/2412.20588v1

Albus Li, Nathan Bailey, Will Sumerfield, Kira Kim

Quinnらは彼らの研究「Kryptonite-N」で挑戦的なデータセットを提案しています。これらのデータセットは、機械学習の普遍的関数近似の主張に対抗することを目的としており、「機械学習は任意の連続関数を近似できる」という表記を破っています\cite{original_paper}。私たちの研究はこの主張を否定し、普遍的関数近似が成功裏に適用可能であることを示しています。Kryptoniteデータセットは予測可能に構築されており、十分な多項式展開とL1正則化を用いたロジスティック回帰を用いることで、任意の次元Nを解決することができます。

2024-12-29T21:23:09


Bridging the Gap: A Decade Review of Time-Series Clustering Methods

http://arxiv.org/abs/2412.20582v1

John Paparrizos, Fan Yang, Haojun Li

The Ohio State University

時系列は、逐次データの最も基本的な表現の一つとして、コンピュータ科学、生物学、地質学、天文学、環境科学などの多様な学問領域で広く研究されてきました。高度なセンサー技術、ストレージ技術、およびネットワーキング技術の出現により、高次元の時系列データが生成されましたが、これは長期的な時間スケールでの潜在構造の分析において重要な課題を引き起こしています。時系列クラスタリングは、類似の時系列をグループ化する確立された教師なし学習戦略であり、これらの複雑なデータセットにおける隠れたパターンを明らかにするのに役立ちます。この調査では、古典的なアプローチから最近のニューラルネットワークの進展まで、時系列クラスタリング手法の進化を辿ります。これまでの調査が特定の方法論的カテゴリーに焦点を当てていたのに対し、私たちは伝統的なクラスタリング手法と新興の深層学習ベースのアルゴリズムのギャップを埋め、この研究分野のための包括的で統一された分類法を提供します。この調査は重要な進展を強調し、今後の時系列クラスタリング研究の指針となる洞察を提供します。

2024-12-29T21:04:35


A Survey on Time-Series Distance Measures

http://arxiv.org/abs/2412.20574v1

John Paparrizos, Haojun Li, Fan Yang, Kaize Wu, Jens E. d'Hondt, Odysseas Papapetrou

The Ohio State University, University of Chicago, Eindhoven University of Technology

距離測定は、時系列分析のタスクにおける基本的な構成要素の1つとして認識されています。例えば、クエリ処理、インデックス作成、分類、クラスタリング、異常検出、および類似性検索などです。さまざまな分野における時系列データの急増は、これらの距離測定の有効性と効率を評価する重要性を高めています。この分野を包括的に理解するために、本研究では、最新の距離測定法を100以上考慮し、7つのカテゴリーに分類しています。それは、ロックステップ測定、スライディング測定、弾性測定、カーネル測定、特徴ベースの測定、モデルベースの測定、および埋め込み測定です。包括的な数学的フレームワークを提供するだけでなく、この研究では、単変量および多変量のケースにおけるこれらのカテゴリー間の違いと応用にも深く掘り下げています。包括的なコレクションと洞察を提供することによって、この研究は革新的な時系列距離測定法の将来の発展への道を開きます。

2024-12-29T20:47:08


The intrinsic motivation of reinforcement and imitation learning for sequential tasks

http://arxiv.org/abs/2412.20573v1

Sao Mai Nguyen

この発展的認知ロボティクスの分野での研究は、強化学習と模倣学習の間の新しい領域を橋渡しすることを目指しています。この研究では、指導者からのガイダンスを受けながら複数のタスク、特に逐次タスクを学ぶ学習エージェントの内的動機モデルが提案されています。主な貢献は、学習エージェントが自動的に学習カリキュラムを選択するための内的動機の共通の定式化を提案することです。これにより、シンプルなタスクや逐次タスクのために、どのタスクを学ぶか、自律探査と模倣学習のどちらを選ぶか、低レベルのアクションとタスクの分解のどちらを選ぶか、さらには複数の指導者の中から選ぶかの学習戦略を能動的に選択します。独自性は、学習者が単に指導者が提供するデータから受動的に利益を得るのではなく、いつ指導を要求するか、何を誰に尋ねるかを能動的に選択することです。したがって、学習者は指導の質に対してより頑健であり、デモンストレーションの数が少なくてもより速く学習します。私たちは、受動的な方法や、単純および構成されたサブタスクのために最良の指導者からのデモンストレーションの要求を通じて、人間のデモンストレーションの一般化特性を利用して複数のタスクを学ぶための、社会的に導かれた内的動機のフレームワークを開発しました。後者は、構成プロセスのために提案されたサブタスク構成の表現に依存しており、日常生活の中での人間の動きや活動の観察プロセスで使用される表現によって洗練されるべきです。指導者との言語のようなコミュニケーションの展望を持って、我々は内的動機を使用して連続したセンサーモータースペースとタスクの象徴的な表現の出現を調査しました。我々は強化学習フレームワークの中で、自動的なカリキュラム学習のための指導者との相互作用のための報酬関数を提案しました。

2024-12-29T20:44:59


Segmentation of Muscularis Propria in Colon Histopathology Images Using Vision Transformers for Hirschsprung's Disease

http://arxiv.org/abs/2412.20571v1

Youssef Megahed, Anthony Fuller, Saleh Abou-Alwan, Dina El Demellawy, Adrian D. C. Chan

ヒルシュスプルング病(HD)は、結腸の筋層の中に神経節細胞が欠如していることを特定することにより診断される先天性欠陥です。特に腸間膜神経叢の領域で見られます。結腸の組織病理画像の定量的評価には、神経節のカウントやその空間的分布の評価などの利点があるかもしれませんが、これは病理学者にとって時間がかかり、コストがかかり、評価者間および評価者内の変動の影響を受ける可能性があります。以前の研究では、深層学習アプローチが組織病理画像分析を自動化する可能性を示しており、畳み込みニューラルネットワーク(CNN)を用いて筋層のセグメンテーションが行われています。最近、ビジョントランスフォーマー(ViT)が自己注意機構により強力な深層学習アプローチとして登場しました。本研究では、カルレトニンで染色された組織病理画像における筋層のセグメンテーションに対するViTの適用を探求し、その性能をCNNや浅層学習法と比較しています。ViTモデルはDICEスコア89.9%、神経叢含有率(PIR)100%を達成し、CNN(DICEスコア89.2%;PIR 96.0%)およびk-meansクラスタリング法(DICEスコア80.7%;PIR 77.4%)を上回りました。結果は、ViTがHD関連の画像分析を進展させる有望なツールであることを示しています。

2024-12-29T20:43:43


Enhancing autonomous vehicle safety in rain: a data-centric approach for clear vision

http://arxiv.org/abs/2412.20565v1

Mark A. Seferian, Jidong J. Yang

University of Georgia

自律走行車は、カメラベースのシステムによる視覚障害のため、特に雨の悪天候下でのナビゲーションにおいて重大な課題に直面しています。本研究では、これらの課題を軽減するために現代の深層学習技術を活用し、雨による視覚障害を除去し、晴れた状態のシーンに近い画像を生成するビジョンモデルの開発を目指しました。Car Learning to Act (CARLA) シミュレーション環境を使用して、モデルの訓練およびテスト用にクリアな画像と雨の画像の包括的なデータセットを生成しました。モデルには、スキップ接続と連結操作を持つ古典的なエンコーダ・デコーダアーキテクチャを採用しました。これは、高周波数の雨パターンと低周波数のシーン特徴を連続する画像フレーム間で効果的に区別するために設計された新しいバッチ方式を使用して訓練されました。モデルの性能を評価するために、前方ビュー画像を入力として処理するステアリングモジュールと統合しました。結果は、ステアリング精度の顕著な改善を示し、雨天時のナビゲーションの安全性と信頼性を向上させるモデルの潜在能力を強調しました。

2024-12-29T20:27:12


Attacks on the neural network and defense methods

http://arxiv.org/abs/2412.20529v1

  1. Korenev, G. Belokrylov, B. Lodonova, A. Novokhrestov

この記事では、音声データで訓練されたニューラルネットワークに対する攻撃の使用と、これらの攻撃に対する可能な保護方法について論じます。FGSM、PGD、CWの攻撃、およびデータポイズニングについて考察します。保護の枠組みの中では、Art-IBMおよびadvertorchライブラリが考慮されます。攻撃の適用における取得した精度指標が示されます。

2024-12-29T17:33:04


Game Theory and Multi-Agent Reinforcement Learning : From Nash Equilibria to Evolutionary Dynamics

http://arxiv.org/abs/2412.20523v1

Neil De La Fuente, Miquel Noguer i Alonso, Guim Casadellà

Computer Vision Center, UAB, AIFI, AllRead

この論文では、私たちの以前の研究を基に、複雑なマルチエージェントシステムにおける高度なトピックを探求します。私たちは、マルチエージェント強化学習(MARL)における4つの基本的な課題、すなわち非定常性、部分可観測性、大規模エージェント集団におけるスケーラビリティ、および分散学習を検討します。この論文では、これらの課題に対処するために設計された最近のアルゴリズムの進展に関する数学的な定式化と分析を提供し、特にゲーム理論的概念との統合に焦点を当てています。ナッシュ均衡、進化的ゲーム理論、相関平衡、および敵対的ダイナミクスが、MARLアルゴリズムにどのように効果的に組み込まれ、学習成果を改善できるかを調査します。この包括的な分析を通じて、ゲーム理論とMARLの統合が、複雑で動的な環境におけるマルチエージェントシステムの堅牢性と効果を向上させることができることを示します。

2024-12-29T17:15:40


Goal-Conditioned Data Augmentation for Offline Reinforcement Learning

http://arxiv.org/abs/2412.20519v1

Xingshuai Huang, Di Wu Member, Benoit Boulet

McGill University

オフライン強化学習(RL)は、事前に収集されたオフラインデータセットからポリシー学習を可能にし、環境と直接対話する必要を軽減します。しかし、オフラインデータセットの質に制約されるため、一般的にはサブオプティマルなデータセットで適切なポリシーをうまく学習することができません。最適なデモが不十分なデータセットに対処するために、私たちはGoal-cOnditioned Data Augmentation(GODA)を導入します。これは、より高品質のサンプルを拡張するための新しい目標条件付き拡散ベースの手法です。生成モデルの最近の進展を活用し、GODAはさまざまな選択メカニズムと共に新しいリターン指向の目標条件を組み込みます。具体的には、データサンプリング中のリターンに基づくガイダンスを強化するための制御可能なスケーリング技術を導入します。GODAは、元のオフラインデータセットの包括的な分布表現を学習しながら、選択的により高リターンの目標を持つ新たなデータを生成し、限られた最適デモの有用性を最大化します。さらに、ノイズのある入力と条件を処理するための新しい適応ゲート条件付け手法を提案し、目標指向のガイダンスのキャプチャを強化します。私たちは、D4RLベンチマークと実世界の課題、特に交通信号制御(TSC)タスクにおいて実験を行い、GODAがデータ品質を向上させ、さまざまなオフラインRLアルゴリズムにおける最先端のデータ拡張手法と比較して優れたパフォーマンスを発揮する効果を示します。

2024-12-29T16:42:30


Dive into Time-Series Anomaly Detection: A Decade Review

http://arxiv.org/abs/2412.20512v1

Paul Boniol, Qinghua Liu, Mingyi Huang, Themis Palpanas, John Paparrizos

Inria, DI ENS, PSL, CNRS, The Ohio State University, Université Paris Cité, IUF

データ収集技術の最近の進展と、ストリーミングデータの量と速度の急増は、時系列分析の重要性を強調しています。この点で、時系列の異常検知は重要な活動であり、サイバーセキュリティ、金融市場、法執行、医療などのさまざまな分野での応用を伴っています。従来の異常検知に関する文献は統計指標に中心を置いていますが、近年増加している機械学習アルゴリズムは、時系列異常検知の研究方法を体系的かつ一般的に特徴づける必要性を示唆しています。本調査では、時系列の文脈におけるプロセス中心の分類法の下で、既存の異常検知ソリューションをグループ化し、要約します。異常検知手法の独自の分類を提供するだけでなく、文献のメタ分析を行い、時系列異常検知研究の一般的なトレンドを概説します。

2024-12-29T16:11:46


Stratify: Unifying Multi-Step Forecasting Strategies

http://arxiv.org/abs/2412.20510v1

Riku Green, Grant Stevens, Zahraa Abdallah, Telmo M. Silva Filho

bristol.ac.uk

時間的領域の重要な側面の一つは、将来の複数の時間ステップにわたって予測を行う能力であり、これを多段階予測(MSF)と呼びます。このプロセスの核心には予測戦略の選択がありますが、既存の戦略の空間をマッピングするフレームワークが存在しないため、実務者は戦略選択のためにアドホックな方法に頼らざるを得ません。そこで本研究では、Stratifyというパラメトリックフレームワークを提案します。このフレームワークは、多段階予測に取り組み、既存の戦略を統合し、新しい改良された戦略を導入します。私たちはStratifyを18のベンチマークデータセット、5つの関数クラス、および短期から長期の予測ホライズン(10、20、40、80)で評価しました。1080の実験のうち84%以上で、Stratifyの新しい戦略が既存のすべての戦略と比較して性能を向上させました。重要なのは、単一の戦略がすべてのタスク設定で一貫して他の戦略を上回ることはないことが分かり、実務者に対してタスク特有の要求に基づいて慎重に予測戦略を探索し選択するためにStratify空間を活用する必要があることを強調しています。我々の結果は、知られている予測戦略と新しい予測戦略の中で最も包括的なベンチマーキングです。また、私たちの結果を再現するためのコードを公開します。

2024-12-29T16:06:46


Planning, Living and Judging: A Multi-agent LLM-based Framework for Cyclical Urban Planning

http://arxiv.org/abs/2412.20505v1

Hang Ni, Yuzhi Wang, Hao Liu

都市再生は、都市化の文脈において重要な課題を提示し、進化するニーズに対応するための適応的アプローチを必要とします。大規模言語モデル(LLMs)の進展を活用して、私たちは循環型都市計画(CUP)という新しいパラダイムを提案します。これは、都市計画を継続的に生成、評価、改善する閉ループのシステムです。具体的には、私たちのマルチエージェントLLMベースのフレームワークは、次の3つの主要要素から構成されています。(1)計画:LLMエージェントが文脈データに基づいて都市計画を生成し、洗練させるプロセス。(2)生活:エージェントが住民の行動や相互作用をシミュレーションし、都市環境における生活をモデル化します。(3)評価:計画の有効性を評価し、改善のための反復的フィードバックを提供します。この循環的なプロセスは、動的で応答性の高い計画アプローチを可能にします。実世界のデータセットに対する実験は、私たちのフレームワークが継続的かつ適応的な計画プロセスとして効果的であることを示しています。

2024-12-29T15:43:25


A Multiparty Homomorphic Encryption Approach to Confidential Federated Kaplan Meier Survival Analysis

http://arxiv.org/abs/2412.20495v1

Narasimha Raghavan Veeraragavan, Svetlana Boudko, Jan Franz Nygård

医療データの増加は共同研究の機会を広げていますが、厳格なプライバシー規制が機密性の高い患者記録の集約を阻害しています。私たちは、\emph{プライバシー保護型の連合Kaplan--Meier生存分析}のための\emph{多党同型暗号ベース}のフレームワークを提案します。これは、ネイティブの浮動小数点サポート、理論モデル、および明示的な再構成攻撃の緩和を提供します。従来の研究と比較して、私たちのフレームワークは、暗号化された連合生存推定が中央集計の結果に密接に一致することを確保しており、集約と復号化ノイズが減少するにつれて収束することを示す形式的な効用損失の境界があります。NCCTG肺癌および合成乳癌データセットに関する広範な実験では、低い\emph{平均絶対誤差(MAE)}および\emph{二乗平均平方根誤差(RMSE)}が確認され、暗号化された生存曲線と非暗号化された生存曲線の間にわずかな偏差があることを示しています。ログランク検定および数値的精度検定では、連合暗号化分析と非暗号化分析の間に\emph{有意差はない}ことが明らかになり、統計的妥当性を保持しています。再構成攻撃の評価では、重複データを持つ小規模な連合(2-3プロバイダー)が脆弱であることが示され、これは多党同型暗号によって緩和される課題です。大規模な連合(5-50サイト)は再構成精度をさらに悪化させますが、暗号化により機密性が向上します。8-19$\times$の計算オーバーヘッドにもかかわらず、しきい値ベースの同型暗号は\emph{中規模デプロイメントにとって実行可能}であり、安全性と実行時間のバランスを取ります。堅牢なプライバシー保証を高忠実度の生存推定とともに提供することで、私たちのフレームワークは安全な多機関生存分析における最先端を進めます。

2024-12-29T15:17:42


http://arxiv.org/abs/2412.20468v1

Sidra Nasir, Qamar Abbas, Samita Bai, Rizwan Ahmed Khan

Salim Habib University

この記事では、法曹界における人工知能(AI)の進化する役割について述べており、特に文書レビュー、研究、および契約書作成などのタスクを効率化する可能性に焦点を当てています。しかし、「幻覚」と呼ばれるAIモデルの発生などの課題が依然として存在しており、これにより不正確または誤解を招く情報が生成され、法的文脈における信頼性が損なわれています。これに対処するため、この記事では、専門的なシステムの混合と知識ベースのアーキテクチャを組み合わせた新しいフレームワークを提案しており、AI駆動の法的サービスの精度と文脈の関連性を改善します。このフレームワークは、特定の法的領域に焦点を当てた専門モジュールを活用し、意思決定を強化するための構造化された操作ガイドラインを組み込んでいます。さらに、システムの精度を向上させるために、リトリーバル強化生成(RAG)、知識グラフ(KG)、および人間のフィードバックからの強化学習(RLHF)などの高度なAI技術を活用しています。提案されたアプローチは、既存のAIモデルに対して大幅な改善を示し、法的タスクにおけるパフォーマンスの向上を実証し、よりアクセスしやすく、手頃な法的サービスを提供するためのスケーラブルな解決策を提供します。この記事では、方法論、システムアーキテクチャ、および法的分野におけるAIアプリケーションの将来の研究の有望な方向性についても述べています。

2024-12-29T14:00:11


Integrating Natural Language Processing Techniques of Text Mining Into Financial System: Applications and Limitations

http://arxiv.org/abs/2412.20438v1

Denisa Millo, Blerina Vika, Nevila Baci

金融セクターは経済発展において重要な役割を果たしており、自然言語処理などのインテリジェント技術を活用してデータ処理と洞察の抽出を向上させています。この研究論文は、2018年から2023年までの期間を対象に、資産価格設定、企業金融、デリバティブリスク管理、公共財政を含む金融システムのさまざまな構成要素における自然言語処理技術としてのテキストマイニングの使用を探求し、議論セクションで特定の問題に対処する必要性を強調しています。多くの研究資料が確率モデルとベクトル空間モデルを組み合わせ、テキストデータと数値データを統合していることに気づきました。情報処理に関して最もよく使用されている技術は情報分類技術であり、最も使用されているアルゴリズムには長短期記憶(LSTM)モデルと双方向エンコーダーモデルが含まれています。この研究では、新しい特定のアルゴリズムが開発されており、金融システムの焦点が主に資産価格設定コンポーネントにあることが確認されました。また、金融テキストを分析する必要がある研究者のために工学的観点からの道筋も提案しています。テキストマイニングの観点におけるデータ品質、コンテキスト適応、モデルの解釈可能性といった課題は、金融分析と予測を向上させるために高度な自然言語処理モデルと技術を統合するために解決する必要があります。キーワード: 金融システム(FS)、自然言語処理NLP)、ソフトウェアとテキスト工学、確率、ベクトル空間、モデル、技術、テキストデータ、金融分析。

2024-12-29T11:25:03


Multi-Scenario Reasoning: Unlocking Cognitive Autonomy in Humanoid Robots for Multimodal Understanding

http://arxiv.org/abs/2412.20429v1

Libo Wang

人型ロボットの認知的自律性を向上させるために、本研究ではこの分野におけるマルチモーダル理解の技術的欠点を解決するためのマルチシナリオ推論アーキテクチャを提案します。このアーキテクチャは、視覚、聴覚、触覚のマルチモーダル合成を採用したシミュレーションベースの実験デザインに基づいており、実験を行うためのシミュレーター「Maha」を構築しています。研究結果は、マルチモーダルデータにおけるこのアーキテクチャの実現可能性を示しています。これは、動的環境における人型ロボットのためのクロスモーダルインタラクション戦略の探求に対する参考経験を提供します。

2024-12-29T10:46:08


Comparative Performance of Advanced NLP Models and LLMs in Multilingual Geo-Entity Detection

http://arxiv.org/abs/2412.20414v1

Kalin Kopanov

高度な自然言語処理NLP)手法と大型言語モデル(LLM)の統合は、多言語テキストからの地理空間データの抽出と分析を大幅に強化し、国内および国際的な安全保障などの分野に影響を与えています。本論文では、先進的なNLPモデルであるSpaCy、XLM-RoBERTa、mLUKE、GeoLM、およびOpenAIのGPT 3.5とGPT 4というLLMについて、多言語の地理エンティティ検出の文脈内で包括的な評価を行います。英語、ロシア語、アラビア語のTelegramチャンネルからのデータセットを利用して、精度、適合率、再現率、F1スコアなどの指標を通じて、これらのモデルのパフォーマンスを検証し、地理空間の参照を正確に特定する上での効果を評価します。この分析は、各モデルの独自の利点と課題を明らかにし、多様な言語環境での正確な地理エンティティの特定を実現する際の複雑さを強調します。この実験から得られた結論は、より高度で包括的なNLPツールの向上と創出に向けた指針となり、地理空間分析の分野とその国際安全保障への応用を発展させることを目指しています。

2024-12-29T09:47:14


Multi-Objective Large Language Model Unlearning

http://arxiv.org/abs/2412.20412v1

Zibin Pan, Shuwen Zhang, Yuesheng Zheng, Chi Li, Yuheng Cheng, Junhua Zhao

CUHKSZ

大規模言語モデル(LLM)の分野における機械的な忘却は、最近大きな注目を集めており、完全に再学習することなくLLMから望ましくない行動を効果的に排除することを目的としています。本論文では、ターゲットデータに対するモデルの予測確率を減少させ、その影響を取り除くための積極的な方法である勾配上昇(GA)アプローチをLLMの忘却において探求します。プロセスを非実用的にする2つの課題、すなわち勾配の爆発と破滅的な忘却を分析します。これらの問題に対処するために、マルチオブジェクティブ大規模言語モデル忘却(MOLLM)アルゴリズムを提案します。まず、LLMの忘却をマルチオブジェクティブ最適化問題として定式化し、交差エントロピー損失を忘却バージョンに変更して勾配の爆発問題を克服します。次に、ターゲットデータを忘却しながらLLMの有用性を保持するための共通の降下更新方向を計算します。我々の実証結果は、MoLLMが忘却効果とモデルの有用性保持の観点でSOTA GAベースのLLM忘却手法を上回ることを検証しています。

2024-12-29T09:35:56


Natural Language Fine-Tuning

http://arxiv.org/abs/2412.20382v1

Jia Liu, Yue Wang, Zhiqi Lin, Min Chen, Yixue Hao, Long Hu

Huazhong University of Science and Technology, South China University of Technology, Pazhou Laboratory

大規模言語モデルのファインチューニング技術は、通常、膨大なラベル付きデータ、外部の指導、フィードバック(例えば、人間による整合性、スカラ報酬、デモンストレーションなど)に依存しています。しかし、実際の応用において、特定の知識の不足は、既存のファインチューニング技術に前例のない課題をもたらします。本論文では、限られたデータを用いた特定のドメインにおけるファインチューニングタスクに焦点を当て、自然言語を初めてファインチューニングに利用する自然言語ファインチューニング(NLFT)を紹介します。対象となる言語モデル(LM)の強力な言語理解能力を活用し、NLFTは自然言語による指導をトークンレベルの出力に付加します。その後、計算された確率に基づいて重要トークンが特定されます。NLFTでは言語的情報が効果的に活用されるため、提案された方法は訓練コストを大幅に削減します。また、訓練効率を大幅に向上させ、精度、時間の節約、リソースの保全において強化学習ファインチューニングアルゴリズムを包括的に上回ります。さらに、マクロレベルで見ると、NLFTはSFTのトークンレベルの微細最適化と見なすことができるため、SFTプロセスを効率的に置き換えられ、ウォームアップの必要がありません(ReFTはSFTとの複数ラウンドのウォームアップを必要とするのとは対照的に)。SFTと比較して、NLFTはアルゴリズムの複雑性を増加させず、O(n)を維持します。GSM8Kデータセットに関する広範な実験により、NLFTはわずか50データインスタンスでSFTを219%上回る精度向上を達成することが示されました。ReFTと比較すると、NLFTの時間複雑性と空間複雑性はそれぞれ78.27%、92.24%削減されています。NLFTの優れた技術は、ネットワークエッジでリソースが限られている場合に、さまざまな革新的なLLMファインチューニングアプリケーションの展開への道を開いています。私たちのコードはhttps://github.com/Julia-LiuJ/NLFTで公開されています。

2024-12-29T07:02:45


A Deep Subgrouping Framework for Precision Drug Repurposing via Emulating Clinical Trials on Real-world Patient Data

http://arxiv.org/abs/2412.20373v1

Seungyeon Lee, Ruoqi Liu, Feixiong Cheng, Ping Zhang

The Ohio State University, Cleveland Clinic

薬剤再利用は、既存の薬剤に対して新たな治療用途を見出すプロセスであり、従来の新薬開発と比較して時間とコストを削減します。実世界の患者データを用いた既存の薬剤再利用研究の多くは、全体集団を均質とみなし、患者のサブグループ間の治療反応の異質性を無視する傾向があります。このアプローチは、特定のサブグループに利益をもたらす有望な薬剤を見逃す可能性があり、全体集団において顕著な治療効果が見られない場合、再利用可能な候補の数が制限されるかもしれません。これに対処するために、私たちはサブグループ分析と治療効果の推定を統合した新しい薬剤再利用フレームワークであるSTEDRを提案します。私たちのアプローチでは、まず実世界の患者データに基づいて複数の臨床試験を模倣することによって再利用候補を特定し、次にサブグループ特有の治療効果を学習することで患者サブグループを特徴づけます。私たちは、承認された薬剤が少なく、治療反応における異質性が知られているアルツハイマー病(AD)に\modelを適用します。8百万以上の患者をカバーする大規模な実世界データベース上で、1,000以上の薬剤に対する試験を模倣し、特徴づけられたサブグループに対してADに有益な効果を持つ14の薬剤候補を特定しました。実験は、既存のアプローチと比較して再利用候補を特定するSTEDRの優れた能力を示しています。さらに、私たちの方法は、重要なAD関連リスク因子に関連する臨床的に関連する患者サブグループを特徴づけることができ、精密薬剤再利用への道を開きます。

2024-12-29T06:32:52


LLM2: Let Large Language Models Harness System 2 Reasoning

http://arxiv.org/abs/2412.20372v1

Cheng Yang, Chufan Shi, Siheng Li, Bo Shui, Yujiu Yang, Wai Lam

The Chinese University of Hong Kong, Tsinghua University

大規模言語モデル(LLM)は、多くのタスクで印象的な能力を示していますが、時折望ましくない出力をもたらすことがあります。私たちは、これらの制限はLLMの基礎となる自己回帰アーキテクチャに根ざしていると考えています。これは、本質的に望ましい結果と望ましくない結果を区別するメカニズムを欠いています。人間の認知に関する二過程理論からインスピレーションを受けて、私たちはLLM2という新しいフレームワークを提案します。このフレームワークは、LLM(システム1)とプロセスベースの検証器(システム2)を組み合わせたものです。LLM2内では、LLMが妥当な候補を生成する責任を負い、検証器は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供します。検証器は、私たちのトークン品質探索戦略を通じて生成された合成プロセス監視データに基づいてペアwise比較損失で訓練されています。数学的推論のベンチマークに関する実証結果は、LLM2の有効性を裏付けており、Llama3-1BのGSM8Kにおいて精度が50.3から57.8(+7.5)に向上しました。さらに、自己一貫性と組み合わせることで、LLM2は追加的な改善を達成し、major@20精度を56.2から70.2(+14.0)に引き上げました。

2024-12-29T06:32:36


Safe Multiagent Coordination via Entropic Exploration

http://arxiv.org/abs/2412.20361v1

Ayhan Alp Aydeniz, Enrico Marchesini, Robert Loftin, Christopher Amato, Kagan Tumer

多くの現実世界のマルチエージェント学習問題は、安全性に関する懸念を伴います。このような設定では、典型的な安全強化学習アルゴリズムはエージェントの行動を制約し、探索を制限します。探索は、効果的な協調的マルチエージェント行動を発見するための重要な要素です。さらに、マルチエージェントに関する文献は通常、各エージェントの個別の制約をモデル化しており、共同チーム制約を使用する利点はまだ調査されていません。本研究では、理論的および実践的な観点からこれらのチーム制約を分析し、制約付きマルチエージェント強化学習のためのエントロピー探索(E2C)を提案して探索の問題に対処します。E2Cは、観察のエントロピー最大化を活用して探索を促進し、安全で効果的な協調行動の学習を容易にします。ますます複雑な領域にわたる実験では、E2Cエージェントがタスクのパフォーマンスにおいて一般的な制約のないベースラインや制約のあるベースラインに匹敵するか、それを上回る結果を示しながら、安全でない行動を最大で50%削減することが確認されました。

2024-12-29T05:50:19


EmoReg: Directional Latent Vector Modeling for Emotional Intensity Regularization in Diffusion-based Voice Conversion

http://arxiv.org/abs/2412.20359v1

Ashishkumar Gudmalwar, Ishan D. Biyani, Nirmesh Shah, Pankaj Wasnik, Rajiv Ratn Shah

感情声変換(EVC)は、与えられた音声の発話において、ソースの感情状態からターゲットの感情状態へと離散的に変換しながら、言語的内容を保持することを目的としています。本論文では、拡散ベースのEVCフレームワークにおける感情の強度を正則化することを提案し、ターゲットの感情の精密な音声を生成します。従来のアプローチでは、発話内の感情状態の強度を感情クラスの確率や強度ラベルを通じて制御しており、これがしばしば不適切なスタイルの操作や品質の低下につながっています。これに対して、私たちは自己教師あり学習に基づく特徴表現と、拡散ベースのフレームワーク内での感情埋め込み空間における非監視型方向性潜在ベクトルモデリング(DVM)を使用して、感情の強度を調整することを目指します。これらの感情埋め込みは、与えられたターゲットの感情の強度および対応する方向ベクトルに基づいて修正できます。さらに、更新した埋め込みは逆拡散プロセスで融合され、望ましい感情と強度の音声を生成することができます。要約すると、本論文は拡散ベースのEVCフレームワークにおいて高品質な感情強度の正則化を達成することを目指しており、その点で先駆的な研究です。提案された手法の効果は、英語およびヒンディー語における主観的および客観的評価において、最先端(SOTA)ベースラインに対して示されています\footnote{デモサンプルは以下のURLで入手可能です: \url{https://nirmesh-sony.github.io/EmoReg/}}。

2024-12-29T05:30:06


HindiLLM: Large Language Model for Hindi

http://arxiv.org/abs/2412.20357v1

Sanjay Chouhan, Shubha Brata Nath, Aparajita Dutta

大規模言語モデル(LLM)の進展は、言語処理に関連するいくつかの問題を解決するのに役立っています。ほとんどの研究は英語にのみ焦点を当てており、その理由は英語の人気とインターネット上の豊富さにあります。しかし、文献においてヒンディー語や他のインド系言語向けの高性能な言語モデルは不足しています。本研究では、ヒンディー語のために2つの自己回帰型LLMモデル、ヒンディーLLM-SmallとヒンディーLLM-Mediumを事前訓練しました。私たちは、無監督の事前訓練と監督下のファインチューニングを含む二段階のプロセスを使用しています。まず、無監督の事前訓練用に大規模で高品質なテキストコーパスを作成します。次に、事前訓練のテキストデータを使用して、バイトペアエンコーディングに基づくヒンディーLLMトークナイザーをトレーニングします。その後、事前訓練ステップとして、ラベルなしデータを用いてトレーニングを行い、ヒンディーLLMの基本モデルを得ます。さらに、ヒンディーLLMの基本モデルをファインチューニングし、感情分析、テキスト分類、自然言語推論、複数選択式質問応答などの異なるタスクを実施し、人気のラベル付けされたデータセットで実世界のパフォーマンスを測定します。評価の結果、ヒンディーLLMベースのファインチューニングモデルは、ほとんどの言語関連タスクにおいていくつかのモデルを上回ることが示されました。

2024-12-29T05:28:15


Distilling Desired Comments for Enhanced Code Review with Large Language Models

http://arxiv.org/abs/2412.20340v1

Yongda Yu, Lei Zhang, Guoping Rong, Haifeng Shen, Jiahao Zhang, Haoxiang Yan, Guohao Shi, Dong Shao, Ruiqi Pan, Yuan Li, Qiushi Wang, Zhao Tian

Nanjing University, Southern Cross University, Huawei Technologies Co., Ltd.

大規模言語モデル(LLM)をコードレビューに使用することへの関心が高まっています。これは、彼らのコード理解力が証明されているためです。ほとんどのレビューシナリオの主な目的は、問題を明示的に特定し、コードの修正を促す望ましいレビューコメント(DRC)を生成することです。しかし、既存のLLMベースのソリューションは、幻覚などのさまざまな理由でDRCを生成するのにあまり効果的ではありません。コードレビュー能力を向上させるためには、理想的にはDRCで満たされたカスタマイズされたデータセットで微調整する必要があります。しかし、そのようなデータセットはまだ利用できず、DRCの手動アノテーションは実用的にはあまりにも手間がかかります。本論文では、コードレビューデータセットからDRCを特定することによって、自動的に濃縮データセットを構築できるデータセット蒸留法「Desiview」を提案します。150K以上のレビューエントリからなるCodeReviewerデータセットに対する実験では、Desiviewは精度、再現率、正確性、F1の各指標でそれぞれ88.93%、80.37%、86.67%、84.44%の印象的なパフォーマンスを達成し、最先端の手法を上回る結果を示しました。このような濃縮データセットがLLMのコードレビュー能力を向上させる効果を検証するため、最初に最新のLLaMAシリーズ(LLaMA 3およびLLaMA 3.1)を微調整してモデルDesiview4FTを構築しました。次に、非DRCとして特定されたレビューコメントをLLMに入力することでKTOアラインメントを通じてモデルのトレーニング効果を高め、モデルDesiview4FAを得ました。検証結果は、Desiview4FAがDesiview4FTをわずかに上回る一方で、両モデルともDRCの生成においてベースモデルと比較して大幅に改善されたことを示しています。人間の評価では、両モデルがより正確に問題を特定し、ベースLLMよりもコードに含まれる問題をよりよく説明するレビューコメントを生成する傾向があることが確認されました。

2024-12-29T03:49:13


Exploiting Hybrid Policy in Reinforcement Learning for Interpretable Temporal Logic Manipulation

http://arxiv.org/abs/2412.20338v1

Hao Zhang, Hao Wang, Xiucai Huang, Wenrui Chen, Zhen Kan

強化学習(RL)に基づく手法は、ロボット学習の分野でますます探求されています。しかし、RLに基づく手法は、特に長期的な操作タスクの探索フェーズにおいて、サンプリング効率が低いという問題があり、一般的にタスクレベルの意味情報を無視するため、収束が遅れたり、タスクが失敗したりすることがあります。これらの課題に対処するために、我々は時間論理に基づくハイブリッドポリシーフレームワーク(HyTL)を提案します。このフレームワークは、エージェントのパフォーマンスを向上させるために、三層の意思決定レイヤーを活用します。具体的には、タスク仕様は線形時間論理(LTL)を用いてエンコードされ、パフォーマンスの向上と解釈可能性を提供します。また、LTLでエンコードされたタスクレベルからのフィードバックを高レベルポリシーとして利用したウェイポイント計画モジュールが設計されています。中間レベルのポリシーは実行するビヘイビアプリミティブを選択し、低レベルのポリシーは環境と相互作用するための対応するパラメータを指定します。我々は、HyTLを4つの挑戦的な操作タスクで評価し、その効果と解釈可能性を実証します。プロジェクトの詳細は次のリンクでご覧いただけます: https://sites.google.com/view/hytl-0257/.

2024-12-29T03:34:53


Mind the Data Gap: Bridging LLMs to Enterprise Data Integration

http://arxiv.org/abs/2412.20331v1

Moe Kayali, Fabian Wenz, Nesime Tatbul, Çağatay Demiralp

University of Washington, TU Munich, MIT, Intel Labs, AWS AI Labs

大規模言語モデル(LLM)は公開データで訓練されています。しかし、世界のデータのほとんどは、主にプライベートな組織や企業データの形で非公開のダークデータです。我々は、LLMに基づく手法のパフォーマンスが実際の企業データセットでテストされた際に深刻に低下することを示します。現在のベンチマークは公開データに基づいており、LLMのパフォーマンスを過大評価しています。我々は、企業データ統合の発見を促進するために新しいベンチマークデータセットであるGOBYベンチマークを発表します。この企業ベンチマークの経験に基づいて、我々はLLMの企業データ上のパフォーマンスを向上させるための技術、具体的には(1) 階層的注釈、(2) ランタイムクラス学習、(3) オントロジー合成を提案します。これらの技術が導入されると、企業データのパフォーマンスが公開データと同等になることを示します。Gobyベンチマークは、https://goby-benchmark.github.io/ から取得できます。

2024-12-29T03:07:20


Protein Structure Prediction in the 3D HP Model Using Deep Reinforcement Learning

http://arxiv.org/abs/2412.20329v1

Giovanny Espitia, Yui Tik Pang, James C. Gumbart

The University of Texas at Austin, Georgia Institute of Technology

我々は、3D 疎水性-極性格子モデルにおけるタンパク質構造予測に、二つの新しい深層学習アーキテクチャを用いて取り組んでいます。36残基以下のタンパク質に対しては、固定されたランダム投影とトレーニング可能な深層を組み合わせたハイブリッドリザーバーベースのモデルを使用し、トレーニングエピソードを25%削減しながら最適な構造を達成しています。長い配列に対しては、マルチヘッドアテンションを備えた長短期記憶ネットワークを採用し、既知の最適なエネルギー値と一致します。両方のアーキテクチャは、経験再生とターゲットネットワークを備えた安定化された深層Q学習フレームワークを活用しており、既存の手法と比較してトレーニング効率を大幅に改善しながら、最適な構造の一貫した達成を示しています。

2024-12-29T02:55:54


Hypergraph-Based Dynamic Graph Node Classification

http://arxiv.org/abs/2412.20321v1

Xiaoxu Ma, Chen Zhao, Minglai Shao, Yujie Lin

Tianjin University, Baylor University

静的グラフにおけるノード分類は大きな成功を収めていますが、ノードのトポロジー、属性、ラベルが時間とともに変化する動的グラフにおける正確なノード分類の達成は十分に扱われていません。既存のRNNおよび自己注意に基づく手法は、異なる時間スライス間で同じノードの特徴を集約するだけであり、動的グラフにおける多様な動的変化を適切に捉えることができません。そこで、我々はハイパーグラフに基づく多粒度動的グラフノード分類(HYDG)という新しいモデルを提案します。GNNバックボーンを通じて各スライスの基本的なノード表現を取得した後、HYDGは動的グラフ内の各ノードの表現を二つのモジュールを通じてモデル化します。個別レベルのハイパーグラフは、個々のノード間の時空間的ノード表現を捉え、グループレベルのハイパーグラフは、同じクラスのノード間の多粒度のグループ時間表現を捉えます。各ハイパーエッジは、特定の時間範囲内の複数のノードを接続することによって、異なる長さの時間的依存関係を捉えます。ハイパーグラフニューラルネットワークによる重み付けされた情報伝播と集約を通じて、より正確な表現が得られます。二つのGNNバックボーンを用いた五つの実際の動的グラフデータセットにおける広範な実験は、我々の提案したフレームワークの優越性を示しています。

2024-12-29T02:19:44


EXAdam: The Power of Adaptive Cross-Moments

http://arxiv.org/abs/2412.20302v1

Ahmed M. Adly

この論文では、広く使用されているAdamオプティマイザに基づく新しい最適化アルゴリズム、EXAdam($\textbf{EX}$tended $\textbf{Adam}$)を紹介します。EXAdamは、3つの重要な強化を取り入れています:(1) モーメント推定を改善するための新しいバイアス補正項、(2) 現在の損失ランドスケープに対する応答性を高めるための勾配ベースの加速メカニズム、(3) トレーニング全体にわたって学習率の継続的な成長を可能にする動的ステップサイズの公式です。これらの革新は相互に作用し、元のAdamアルゴリズムの限界に対処することで、改善された収束特性、鞍点からの脱出能力の向上、およびハイパーパラメータ選択に対するより高いロバスト性を提供する可能性があります。私はEXAdamの構成要素とその相互作用の理論的分析を提供し、複雑な最適化ランドスケープをナビゲートする際のアルゴリズム潜在的な利点を強調します。実証評価はEXAdamがAdamを上回ることを示しており、CIFAR-10データセットで訓練されたCNNに適用した場合、収束が48.07%速く、訓練、検証、テストの精度がそれぞれ4.6%、4.13%、2.39%改善される結果をもたらします。これらの結果は期待を持たせますが、EXAdamの有効性を完全に評価するためには、多様なタスクにわたるさらなる実証的検証が不可欠です。それにもかかわらず、EXAdamは適応最適化技術の重要な進展を示しており、幅広い機械学習アプリケーションに対する有望な意味を持っています。この研究は、機械学習および人工知能の分野において、より効率的で適応的かつ普遍的に適用可能な最適化手法の開発に貢献することを目指しています。

2024-12-29T00:11:54


2024-12-30 arXiv論文リスト(cs.AI)

About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 48件

Action-Agnostic Point-Level Supervision for Temporal Action Detection

http://arxiv.org/abs/2412.21205v1

Shuhei M. Yoshida, Takashi Shibata, Makoto Terao, Takayuki Okatani, Masashi Sugiyama

NEC Corporation, Tohoku University, RIKEN Center for Advanced Intelligence Project, The University of Tokyo

私たちは、軽く注釈されたデータセットで正確なアクションインスタンス検出を達成するために、時間的アクション検出のためのアクション非依存ポイントレベル(AAPL)監視を提案します。提案されたスキームでは、ビデオフレームのごく一部が無監視の方法でサンプリングされ、ヒューマンアノテーターに提示され、その後、アクションカテゴリーでフレームにラベルが付けられます。アクションインスタンスをトリミングされていないビデオの中で探すことが求められるポイントレベルの監視とは異なり、AAPL監視では、注釈を付けるフレームが人間の介入なしに選択されます。また、AAPLラベルを効果的に利用するための検出モデルと学習方法も提案します。さまざまなデータセット(THUMOS '14、FineAction、GTEA、BEOID、ActivityNet 1.3)での広範な実験は、提案されたアプローチが注釈コストと検出性能のトレードオフに関して、ビデオレベルおよびポイントレベルの監視において以前の手法と競争力があり、またはそれを上回ることを示しています。

2024-12-30T18:59:55


Adversarial Attack and Defense for LoRa Device Identification and Authentication via Deep Learning

http://arxiv.org/abs/2412.21164v1

Yalin E. Sagduyu, Tugba Erpek

Nexcepta, IEEE

LoRaは、低消費電力の広域ネットワーク(LPWAN)の機能に依存するIoT(モノのインターネット)アプリケーションにおいて、長距離でエネルギー効率の良い通信を提供します。これらの利点にもかかわらず、特にデバイスの識別と認証がLoRaネットワークへの信頼性のあるアクセスを確保するために不可欠な状況において、LoRaネットワークのセキュリティに関する懸念が残っています。本論文では、これらの懸念に対処するための深層学習(DL)アプローチを探求し、(i)LoRaデバイスの識別と(ii)それらを合法デバイスと悪意のあるデバイスに分類するという2つの重要なタスクに焦点を当てています。これらのタスクに対して、実際のLoRa信号データを使用して、畳み込みニューラルネットワークフィードフォワードニューラルネットワークの両方を含む深層ニューラルネットワーク(DNN)が訓練されます。この設定において、攻撃者は、受信した合法デバイス信号に基づいてカーネル密度推定(KDE)法を通じて悪意のあるLoRa信号を偽装する可能性があります。2つのケースを考慮します:(i)2つのタスクそれぞれに対して別々の分類器を訓練すること、および(ii)両方のタスクのためのマルチタスク分類器を訓練することです。入力サンプルの操作に対する結果として得られたDNNの脆弱性は、Fast Gradient Sign Method(FGSM)を使用した非ターゲットおよびターゲットの敵対的攻撃の形で研究されます。LoRa信号分析に対する単一タスクおよびマルチタスク分類器に対して、個別および共通の摂動が考慮されます。このような攻撃に対する耐性を提供するために、敵対的訓練を用いて分類器の堅牢性を高める防御アプローチが示されています。結果は、LoRa信号分類タスクが敵対的攻撃にどれほど脆弱であるかを定量化し、これらの微妙でありながら効果的な脅威からIoTアプリケーションを強化する必要性を強調しています。

2024-12-30T18:43:21


Open RAN-Enabled Deep Learning-Assisted Mobility Management for Connected Vehicles

http://arxiv.org/abs/2412.21161v1

Maria Barbosa, Kelvin Dias

Universidade Federal de Pernambuco (UFPE)

接続された車両(CV)は、5Gおよび次世代6G/NextGネットワークのユニークな機能を活用して、インテリジェント交通システム(ITS)サービスを向上させることができます。しかし、携帯電話ネットワークの世代が進化しても、CVアプリケーションは、提供される基地局の頻繁な変更(ハンドオーバー、HO)により、高速移動シナリオで通信の中断を経験する可能性があります。本論文では、ハンドオーバーによるサービス品質(QoS)の低下を防ぎ、CVサービスに必要なタイムリーな接続性を確保するために、オープンラジオアクセスネットワーク(Open RAN/O-RAN)と意思決定のための深層学習モデルの採用を提案します。このソリューションは、O-RANアライアンスとLinux Foundationの共同開発によるオープンソースのO-RANプラットフォームであるO-RANソフトウェアコミュニティ(OSC)を活用して、OSCの近リアルタイムRICで実行されるxAppsを開発します。提案の効果を示すために、OMNeT++シミュレーターとOSCを組み合わせた統合フレームワークが作成されました。この評価では、ビデオストリーミング伝送やオーバー・ザ・エア(OTA)アップデートなどの都市アプリケーションシナリオにおける実世界のデータセットを使用しました。結果は、本提案が標準の3GPPハンドオーバー手続きに比べて優れた性能と低遅延を達成したことを示しています。

2024-12-30T18:41:29


Aviary: training language agents on challenging scientific tasks

http://arxiv.org/abs/2412.21154v1

Siddharth Narayanan, James D. Braza, Ryan-Rhys Griffiths, Manu Ponnapati, Albert Bou, Jon Laurent, Ori Kabeli, Geemi Wellawatte, Sam Cox, Samuel G. Rodriques, Andrew D. White

FutureHouse Inc., University of Rochester, Francis Crick Institute

複雑な現実世界のタスクを解決するには、行動と観察のサイクルが必要です。これは特に科学において当てはまり、タスクには分析、ツール使用、実験の多くのサイクルが必要です。言語エージェントは、自然言語やコードを介してツールと対話できるため、科学における知的タスクの自動化において有望です。しかし、彼らの柔軟性は、内部的な推論、計画、ツールの使用などの非標準コンポーネントを含む可能性があるため、ソフトウェアの実装に対して概念的および実践的な課題を生み出します。また、温度サンプリングされた言語モデルの固有の確率性もあります。ここでは、Aviaryという言語エージェントの拡張可能なジムナジウムを紹介します。エージェントを言語に基づく部分観測可能マルコフ決定過程として定義し、これを言語決定過程と呼びます。次に、DNA構造体の操作による分子クローン作成 (1)、科学文献にアクセスして研究質問に答える (2)、タンパク質の安定性を工学する (3) の3つの挑戦的な科学環境を含む5つの環境を実装します。これらの環境は、複数のステップの推論に重点を置いており、現代の生物学研究に関連するため選ばれました。最後に、オンライントレーニングと推論時の計算のスケーリングにより、オープンソースで最前線ではないLLMに支えられた言語エージェントが、最前線のLLMエージェントや人間の専門家と比較して、最大で100倍低い推論コストで複数のタスクで匹敵し、超えることができることを示します。

2024-12-30T18:33:28


PyG-SSL: A Graph Self-Supervised Learning Toolkit

http://arxiv.org/abs/2412.21151v1

Lecheng Zheng, Baoyu Jing, Zihao Li, Zhichen Zeng, Tianxin Wei, Mengting Ai, Xinrui He, Lihui Liu, Dongqi Fu, Jiaxuan You, Hanghang Tong, Jingrui He

University of Illinois Urbana-Champaign, Wayne State University, Meta AI

グラフ自己教師あり学習SSL)は、近年、研究の重要な分野として浮上しています。ラベルのないデータを使用してグラフの複雑なトポロジー構造や特性を学ぶための予備タスクに従事することで、これらのグラフSSLモデルはパフォーマンスの向上、一般化の改善、および堅牢性の向上を達成しています。これらのグラフSSL手法の顕著な成果にもかかわらず、現在の実装は、グラフ構造の複雑さ、一貫性のない評価指標、再現性に関する懸念のために初心者や実務家にとって重大な課題を提起しています。研究コミュニティ内での関心の高まりを認識し、最も代表的なグラフSSLアルゴリズムから構成される包括的で初心者に優しくアクセス可能なツールキットの緊急な需要があります。これらの課題に対処するために、私たちはPyTorchに基づいて構築され、さまざまな深層学習および科学計算バックエンドと互換性のある「PyG-SSL」というグラフSSLツールキットを提案します。このツールキットでは、データセットの読み込み、ハイパーパラメータの設定、モデルのトレーニング、および多様なダウンストリームタスクの包括的なパフォーマンス評価を包含する統一フレームワークを提供します。さらに、異なるグラフデータセットにおける各グラフSSLアルゴリズムの初心者向けチュートリアルと最適なハイパーパラメータを提供し、結果の再現を容易にします。このライブラリのGitHubリポジトリは、https://github.com/iDEA-iSAIL-Lab-UIUC/pyg-ssl です。

2024-12-30T18:32:05


Facilitating large language model Russian adaptation with Learned Embedding Propagation

http://arxiv.org/abs/2412.21140v1

Mikhail Tikhomirov, Daniil Chernyshev

Lomonosov Moscow State University

大型言語モデル(LLM)技術の急速な進歩により、GPT-4などの最先端の対抗モデルと同等のテキスト生成品質を持つ強力なオープンソースの指示調整済みLLMが導入されました。このようなモデルの出現は、センシティブな情報環境におけるLLM技術の採用を加速させますが、これらのモデルの著者は結果の再現に必要な訓練データを開示しないため、成果はモデル専有のものとなってしまいます。また、これらのオープンソースモデルは多言語対応であるため、言語特定のLLMを訓練する利点が減少し、改善された推論計算効率がこの高コストな手順の唯一の保障された利点となります。語彙の拡張やその後の継続的な事前訓練などのコスト効率の良い選択肢も、高品質の指示調整データへのアクセス不足によって制約されます。これは、結果として得られるLLMのタスク解決能力の主要な要因となるからです。言語適応パイプラインの制約を解消し、コストを削減するために、私たちは学習埋め込み伝播(LEP)を提案します。既存のアプローチとは異なり、私たちの方法は、既存のLLM知識への影響が最小限であるため、訓練データのサイズ要件が低くなります。このプロセスを強化するために、新しい言語知識を既存の指示調整モデルに直接埋め込むことを可能にする新規のアドホック埋め込み伝播手法を使用します。私たちはLLaMa-3-8BとMistral-7Bのために4つのロシア語語彙適応を評価し、LEPが伝統的な指示調整手法と競争力を持つことを示しました。OpenChat 3.5やLLaMa-3-8B-Instructに匹敵するパフォーマンスを達成し、自己キャリブレーションや継続的な調整によってタスク解決能力の向上を図りました。

2024-12-30T18:15:45


http://arxiv.org/abs/2412.21104v1

ior Siag, Shahaf S. Shperberg, Ariel Felner, Nathan R. Sturtevant

Ben-Gurion University of the Negev, University of Alberta, Alberta Machine Intelligence Institute

並列化および外部メモリ(PEM)技術は、大規模な問題を解決する際の検索アルゴリズムの能力を大幅に向上させました。PEMに関する以前の研究は主に一方向のアルゴリズムに焦点を当てており、メート・イン・ザ・ミドル(MM)アルゴリズムに焦点を当てた双方向PEMに関する出版物は1件のみです。この基盤の上に、本論文では一方向および双方向の最良優先探索アルゴリズムを統合したフレームワークを提案します。次に、最先端の双方向ヒューリスティック探索(\BiHS)アルゴリズム BAE のPEMバリエーション(PEM-BAE)を開発します。前述の\BiHSに関する研究は問題サイズのスケーリングに焦点を当てていなかったため、この研究により、難しい問題に対する双方向アルゴリズムの評価が可能になります。実証的評価の結果、PEM-BAEはAおよびMMアルゴリズムのPEMバリエーション、さらにIDA*の並列バリエーションを上回ることが示されました。これらの発見は重要なマイルストーンを示しており、双方向探索アルゴリズムが最先端のヒューリスティックを備えていても、複数のドメインにわたって明らかに一方向探索アルゴリズムを上回ることを明らかにしています。

2024-12-30T17:29:51


Exploring and Controlling Diversity in LLM-Agent Conversation

http://arxiv.org/abs/2412.21102v1

KuanChao Chu, Yi-Pei Chen, Hideki Nakayama

多様性はマルチエージェントコミュニケーションの重要な側面です。本論文では、特に世界シミュレーションアプリケーションにおけるオープンドメインのマルチエージェント会話の文脈で、多様性の制御と探求に焦点を当てています。私たちは、適応型プロンプトプルーニング(APP)という新しい手法を提案します。これは、単一のパラメータであるラムダを使用して、発話生成プロンプトの内容を動的に調整し、多様性を制御します。広範な実験を通じて、APPがモデルとデータセット全体で出力の多様性を効果的に制御し、情報をより多くプルーニングすることで、より多様な出力を生み出すことを示しています。私たちは、プロンプトの内容と会話の多様性との関係を包括的に分析します。私たちの発見は、プロンプトのすべてのコンポーネントからの情報が一般的に出力の多様性を制約することを明らかにし、メモリブロックが最も大きな影響を与えることを示しています。APPは、温度サンプリングやトップpサンプリングなどの既存の技術と互換性があり、多様性管理のための多用途なツールを提供します。省略された情報との不一致など、多様性を高めることによるトレードオフに対処するために、生成後の補正ステップを組み込み、多様性の向上と出力の一貫性を効果的にバランスさせます。さらに、コンポーネントの順序や長さを含むプロンプト構造が多様性に与える影響を検討します。この研究は、マルチエージェント世界シミュレーションにおける多様性に関する重要な質問に対処し、その制御、影響要因、および関連するトレードオフに関する洞察を提供します。我々の貢献は、LLMベースのマルチエージェントコラボレーションにおける多様性を体系的に設計するための基盤を築き、実世界のアプリケーションにおけるその効果を高めることに寄与します。

2024-12-30T17:25:58


Towards Effective Discrimination Testing for Generative AI

http://arxiv.org/abs/2412.21052v1

Thomas P. Zollo, Nikita Rajaneesh, Richard Zemel, Talia B. Gillis, Emily Black

Columbia University, New York University

生成AI(GenAI)モデルは、差別的行動に対する規制において新たな課題を提示しています。本稿では、GenAIの公平性に関する研究がこれらの課題にまだ対処できていないと主張します。むしろ、既存のバイアス評価手法と規制の目標との間には重要なギャップが存在します。このため、報告された公平性があるものの、実際には差別的なGenAIシステムの展開を許すような、効果的でない規制が生じます。この問題を解決するために、私たちはGenAIのバイアス評価に関する法的および技術的文献を結びつけ、ミスアラインメントの領域を特定します。4つのケーススタディを通じて、公平性テスト技術と規制目標との間のこのミスアラインメントが、特に適応的または複雑な環境において、実際の展開において差別的な結果をもたらす可能性があることを示します。将来の展開における公平性の評価の信頼性を高め、規制目標とよりよく整合させるための差別テストの改善に関する実用的な推奨事項を提供します。

2024-12-30T16:09:33


Toward Intelligent and Secure Cloud: Large Language Model Empowered Proactive Defense

http://arxiv.org/abs/2412.21051v1

Yuyang Zhou, Guang Cheng, Kang Du, Zihan Chen

Southeast University, Purple Mountain Laboratories, Jiangsu Province Engineering Research Center of Security for Ubiquitous Network

クラウドコンピューティング技術の急速な進化とクラウドアプリケーションの増加は、日常生活に多くの利点をもたらしています。しかし、さまざまなコンポーネントの多様性と複雑さは、特に高度で洗練されたサイバー攻撃に対処する際に、クラウドセキュリティに重大な課題を提起します。生成的基盤モデル(GFM)の最近の進展、特に大規模言語モデル(LLM)においては、セキュリティインテリジェンスのための有望な解決策が提供されています。言語理解、データ分析、タスク推論、アクション計画、コード生成における強力な能力を活用することで、私たちはLLM-PDという新しいプロアクティブ防御アーキテクチャを提案します。これは、さまざまな脅威をプロアクティブな方法で撃退します。LLM-PDは、包括的なデータ分析と連続的な推論を通じて効率的に意思決定を行い、またターゲットクラウド上で実行可能な防御メカニズムを動的に作成および展開することができます。さらに、それは過去の相互作用から得た経験に基づいて柔軟に自己進化し、新たな攻撃シナリオに追加のトレーニングなしで適応することができます。実験結果は、防御の効果と効率に関してその素晴らしい能力を示しており、特に他の既存の方法と比較して優れた成功率を強調しています。

2024-12-30T16:09:28


TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

http://arxiv.org/abs/2412.21037v1

Chia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria

Singapore University of Technology and Design (SUTD), NVIDIA

TangoFluxを紹介します。これは、515Mパラメータを持つ効率的なテキストからオーディオ(TTA)生成モデルであり、単一のA40 GPU上でわずか3.7秒で最大30秒の44.1kHzオーディオを生成することができます。TTAモデルの整合性を取る上での主な課題は、TTAには大規模言語モデル(LLM)に利用可能な検証可能な報酬やゴールドスタンダードの回答のような構造化されたメカニズムが欠けているため、好みのペアを作成することの難しさにあります。これに対処するために、私たちはCLAP-Ranked Preference Optimization(CRPO)という新しいフレームワークを提案します。これは、好みのデータを反復的に生成・最適化し、TTAの整合性を向上させるものです。CRPOを使用して生成されたオーディオ好みデータセットが、既存の代替手段を上回ることを示します。このフレームワークを使って、TangoFluxは客観的および主観的ベンチマークの両方で最先端のパフォーマンスを達成します。私たちは、TTA生成のさらなる研究を支援するために、すべてのコードとモデルをオープンソースとして提供します。

2024-12-30T16:02:44


Plancraft: an evaluation dataset for planning with LLM agents

http://arxiv.org/abs/2412.21033v1

Gautier Dagan, Frank Keller, Alex Lascarides

University of Edinburgh

Plancraftを紹介します。これはLLMエージェントのためのマルチモーダル評価データセットです。Plancraftには、MinecraftのクラフティングGUIに基づいたテキスト専用インターフェースとマルチモーダルインターフェースの両方が含まれています。ツールの使用と情報を評価するためにMinecraft Wikiを含むほか、オラクルプランナーとオラクルRAG情報抽出器も用意しており、現代のエージェントアーキテクチャの異なる構成要素を明示化します。意思決定を評価するために、Plancraftには意図的に解けないサブセットの例も含まれており、エージェントがタスクを完了させるだけでなく、それらが解決可能かどうかを判断する必要がある現実的な課題を提供します。私たちは、オープンソースおよびクローズドソースのLLMと戦略を私たちのタスクでベンチマークし、それらの性能を手作りのプランナーと比較します。私たちは、LLMやVLMがPlancraftが提示する計画問題に苦労していることを発見し、彼らの能力を向上させるための提案を行います。

2024-12-30T15:58:41


Verbosity-Aware Rationale Reduction: Effective Reduction of Redundant Rationale via Principled Criteria

http://arxiv.org/abs/2412.21006v1

Joonwon Jang, Jaehee Kim, Wonbin Kweon, Hwanjo Yu

POSTECH, Seoul National University

大規模言語モデル(LLM)は、広範な複雑なタスク全体で最終的な応答の質を向上させるために、広範な中間推論ユニット(例:トークン、文)を生成することに依存しています。複数の推論経路を生成したり、反復的に根拠を洗練したりすることは、パフォーマンス向上に効果があることが証明されていますが、これらのアプローチは必然的に大幅に高い推論コストをもたらします。本研究では、冗長な推論文を特定し削除するために、尤度に基づく基準(冗長性)を活用した新しい文レベルの根拠削減トレーニンフレームワークを提案します。トークンレベルの削減を利用した以前のアプローチとは異なり、我々の文レベルの削減フレームワークは、生成の長さを削減しながらモデルのパフォーマンスを維持します。これにより、LLMの元の推論能力を保持し、さまざまなモデルとタスクで平均17.15%の生成コスト削減を実現します。

2024-12-30T15:15:08


LEASE: Offline Preference-based Reinforcement Learning with High Sample Efficiency

http://arxiv.org/abs/2412.21001v1

Xiao-Yin Liu, Guotao Li, Xiao-Hu Zhou, Zeng-Guang Hou

Chinese Academy of Sciences, University of Chinese Academy of Sciences, Macau University of Science and Technology

オフラインの選好ベース強化学習(PbRL)は、報酬設計の課題やオンラインインタラクションの高コストを克服するための効果的な手段を提供します。しかし、選好ラベル付けにはリアルタイムの人間のフィードバックが必要であるため、十分な選好ラベルを取得することは困難です。これを解決するために、本論文では、高いサンプル効率を持つオフライン選好ベース強化学習(LEASE)アルゴリズムを提案します。このアルゴリズムでは、学習した遷移モデルを利用してラベルのない選好データを生成します。また、事前に学習された報酬モデルがラベルのないデータに対して不正確なラベルを生成する可能性があることを考慮し、報酬モデルのパフォーマンスを確保するための不確実性意識メカニズムを設計しました。このメカニズムでは、自信が高くばらつきの少ないデータのみが選択されます。さらに、報酬モデルの一般化境界を提供して、報酬精度に影響を与える要因を分析し、LEASEによって学習されたポリシーには理論的な改善保証があることを示しています。編纂された理論は状態-行動ペアに基づいており、他のオフラインアルゴリズムと簡単に組み合わせることができます。実験結果は、LEASEがオンラインインタラクションなしでより少ない選好データでベースラインに匹敵するパフォーマンスを達成できることを示しています。

2024-12-30T15:10:57


KARPA: A Training-free Method of Adapting Knowledge Graph as References for Large Language Model's Reasoning Path Aggregation

http://arxiv.org/abs/2412.20995v1

Siyuan Fang, Kaijing Ma, Tianyu Zheng, Xinrun Du, Ningxuan Lu, Ge Zhang, Qingkun Tang

大規模言語モデル(LLM)は、さまざまなタスクで優れた性能を示していますが、幻覚や知識のタイムリーさに影響を受けることがよくあります。外部知識源として知識グラフ(KG)を活用することが実行可能な解決策として浮上していますが、既存のLLMベースの知識グラフ質問応答(KGQA)手法は、しばしばKGに対するステップバイステップの意思決定に制限され、LLMのグローバルな計画と推論機能を制限したり、特定のKGに対するファインチューニングまたは事前トレーニングを必要とします。これらの課題に対処するために、私たちは知識グラフ支援推論パス集約(KARPA)という新しいフレームワークを提案します。これは、LLMのグローバルな計画能力を活用して効率的かつ正確なKG推論を行うものです。KARPAは三つのステップで動作します:LLMのグローバルな計画能力を用いて関係パスを前計画し、埋め込みモデルを介して意味的に関連するパスを照合し、これらのパスを推論して回答を生成します。既存のKGQA手法とは異なり、KARPAはステップバイステップの移動を避け、追加のトレーニングを必要とせず、さまざまなLLMアーキテクチャに適応可能です。広範な実験結果は、KARPAがKGQAタスクで最先端の性能を達成し、高効率と高精度の両方を提供することを示しています。私たちのコードはGithubで利用可能になります。

2024-12-30T14:58:46


UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI

http://arxiv.org/abs/2412.20977v1

Fangwei Zhong, Kui Wu, Churan Wang, Hao Chen, Hai Ci, Zhoujun Li, Yizhou Wang

Beijing Normal University, Beihang University, Peking University, City University of Macau, National University of Singapore, BIGAI

UnrealZooを導入します。これは、Unreal Engineを基に構築されたフォトリアルな3Dバーチャルワールドの豊富なコレクションであり、オープンワールドの複雑さと多様性を反映するように設計されています。さらに、具現化されたAIエージェントのために、さまざまなプレイ可能なエンティティを提供します。UnrealCVに基づいて、データ収集、環境拡張、分散トレーニング、ベンチマーキングなどのさまざまな潜在的なアプリケーションのための使いやすいPython APIとツールのセットを提供します。高度なアプリケーション(例えば、マルチエージェント相互作用)をサポートするために、UnrealCVのレンダリングと通信効率を最適化します。我々の実験では、視覚的ナビゲーションと追跡に焦点を当て、さまざまな複雑なシーンでエージェントのベンチマークを行います。これらは具現化された視覚知能の基本的な能力です。結果は、強化学習(RL)エージェントのための多様なトレーニング環境の利点と、RLおよび大規模視覚言語モデル(VLM)に基づく現在の具現化された視覚エージェントがオープンワールドで直面する課題についての貴重な洞察を提供します。これらの課題には、動的シーンにおけるクローズドループ制御の遅延や、非構造的な地形における3D空間構造の推論が含まれます。

2024-12-30T14:31:01


Conservation-informed Graph Learning for Spatiotemporal Dynamics Prediction

http://arxiv.org/abs/2412.20962v1

Yuan Mi, Pu Ren, Hongteng Xu, Hongsheng Liu, Zidong Wang, Yike Guo, Ji-Rong Wen, Hao Sun, Yang Liu

Renmin University of China, Northeastern University, Huawei Technologies, HKUST, University of Chinese Academy of Sciences

データ中心の手法は、空間的および時間的なダイナミクスを理解し予測する上で大きな潜在能力を示しており、物体システムの設計や制御をより良く行うことを可能にしています。しかし、純粋な深層学習モデルはしばしば解釈可能性を欠き、内在する物理法則を遵守せず、さまざまなドメインに対処するのに苦労しています。グラフニューラルネットワーク(GNN)などの幾何学ベースの手法がこれらの課題に対処するために提案されているものの、大規模データセットから暗黙の物理法則を見つける必要があり、豊富なラベル付きデータに過度に依存しています。本論文では、限られたトレーニングデータに基づいて空間的および時間的ダイナミクスを学習するためのエンドツーエンドの説明可能な学習フレームワークである保存則に基づくGNN(CiGNN)を紹介します。このネットワークは、対称性を通じて一般的な保存法則に従うように設計されており、保存情報と非保存情報は、潜在的な時間的進行戦略によって強化されたマルチスケール空間を通じて伝達されます。我々のモデルの有効性は、合成データセットおよび実世界のデータセットに基づくさまざまな空間的・時間的システムで検証され、ベースラインモデルに対する優位性が示されています。結果は、CiGNNが顕著な精度と一般化能力を示し、複雑な幾何学を持つ空間領域におけるさまざまな空間的・時間的ダイナミクスの予測学習に簡単に適用できることを示しています。

2024-12-30T13:55:59


Rise of Generative Artificial Intelligence in Science

http://arxiv.org/abs/2412.20960v1

Liangping Ding, Cornelia Lawson, Philip Shapira

生成的人工知能(GenAI、生成AI)は、科学研究のツールとして急速に利用可能になっています。科学における生成AIの使用を探るため、OpenAlexを使用して実証的な分析を行います。2017年から2023年までのGenAIに関する出版物とその他のAIに関する出版物を分析し、成長パターン、研究分野におけるGenAI出版物の普及状況、生成AIに関する科学研究の地理的広がりをプロファイリングします。また、チームサイズと国際協力を調査し、新興科学研究分野としてのGenAIが、他のAI技術と比較して異なる協力パターンを示すかどうかを探ります。結果は、生成AIが急速に成長し、科学出版物において存在感を増していることを示しています。GenAIの使用は、コンピュータ科学だけでなく、他の科学研究分野にも広がっています。調査期間中、米国の研究者は世界のGenAI出版物のほぼ2/5を占めています。米国に続いて中国があり、いくつかの中小型の先進経済国も研究出版物において比較的高いレベルのGenAIの導入を示しています。科学研究全体がますます専門化し協力的になっている一方で、私たちの結果は、GenAI研究グループは他のAI分野よりもやや小さいチームサイズを持つ傾向があることを示唆しています。さらに、最近の地政学的緊張にもかかわらず、GenAI研究は他のAI技術と同様の国際的な協力レベルを示し続けています。

2024-12-30T13:55:28


Ontology-grounded Automatic Knowledge Graph Construction by LLM under Wikidata schema

http://arxiv.org/abs/2412.20942v1

Xiaohan Feng, Xixin Wu, Helen Meng

Chinese University of Hong Kong

私たちは、大規模言語モデル(LLM)を使用して知識ベースに基づく知識グラフ(KG)構築のためのオントロジーに基づくアプローチを提案します。オントロジーは、知識スコープを発見するために知識ベースに対して能力質問(CQ)を生成し、CQから関係を抽出し、同等の関係をウィキデータの対応するものに置き換えることを試みることによって作成されます。結果として得られるKGにおける一貫性および解釈可能性を確保するために、抽出された関係に基づいて作成されたオントロジーを用いてKGの生成を基盤としています。ベンチマークデータセットでの評価は、知識グラフ構築タスクにおける競争力のあるパフォーマンスを示しています。私たちの研究は、高品質で人間が解釈可能なKGを生成し、ウィキデータのセマンティクスと相互運用可能であるため、潜在的な知識ベースの拡張のためのスケーラブルなKG構築パイプラインの有望な方向性を示しています。

2024-12-30T13:36:05


HisynSeg: Weakly-Supervised Histopathological Image Segmentation via Image-Mixing Synthesis and Consistency Regularization

http://arxiv.org/abs/2412.20924v1

Zijie Fang, Yifeng Wang, Peizhang Xie, Zhi Wang, Yongbing Zhang

Tsinghua University, Harbin Institute of Technology (Shenzhen)

組織のセマンティックセグメンテーションは、計算病理学における重要な作業の一つです。ピクセルレベルのアノテーション取得の高コストかつ労力のかかる作業を避けるために、さまざまな研究がクラスアクティベーションマップ(CAM)、つまり弱教師あり学習スキームを採用してピクセルレベルの組織セグメンテーションを実現しようとしています。しかし、CAMベースの方法は、アンダーアクティベーションやオーバーアクティベーションの問題に悩まされやすく、結果としてセグメンテーションの性能が低下します。この問題に対処するために、我々はヒストパトロジー画像のための新しい弱教師ありセマンティックセグメンテーションフレームワーク、HisynSegを提案します。具体的には、ピクセルレベルのマスクを持つ合成されたヒストパトロジー画像が完全教師ありモデルのトレーニングのために生成され、このプロセスのためにモザイク変換とベジエマスク生成に基づく2つの合成戦略が提案されます。また、合成画像の真実性を保証するための画像フィルタリングモジュールも開発されています。さらに、モデルが偶発的な合成アーティファクトに過剰適合することを避けるために、我々は新しい自己教師あり一貫性正則化を提案し、セグメンテーションマスクのない実画像がセグメンテーションモデルのトレーニングを監督できるようにします。提案された技術を統合することにより、HisynSegフレームワークは弱教師ありセマンティックセグメンテーション問題を完全教師ありのものに変換し、セグメンテーション精度を大幅に向上させます。3つのデータセットにおける実験結果は、提案された方法が最先端の性能を達成することを証明しています。コードはhttps://github.com/Vison307/HisynSegで入手可能です。

2024-12-30T13:10:48


WalkVLM:Aid Visually Impaired People Walking by Vision Language Model

http://arxiv.org/abs/2412.20903v1

Zhiqiang Yuan, Ting Zhang, Jiapei Zhang, Jie Zhou, Jinchao Zhang

Pattern Recognition Center, WeChat AI, Tencent Inc

世界中で約2億人がさまざまな程度の視覚障害に苦しんでおり、これらの人々のために歩行支援を提供するためにAI技術を活用することが重要です。最近の視覚と言語のモデル(VLM)の進展により、この分野を改善するためにVLMを利用することが人気のある研究テーマとして浮上しています。しかし、既存の手法のほとんどは、自ら構築した質問応答データセットで研究されており、歩行ガイダンスのための統一されたトレーニングおよびテストのベンチマークが欠けています。さらに、盲目的な歩行タスクでは、リアルタイムのストリーミングビデオ解析を行い、簡潔でありながら情報を提供するリマインダーを生成する必要があり、冗長な応答や低い推論効率に悩まされるVLMにとって大きな挑戦となります。本論文では、まず、盲目の歩行タスクに対する公正なトレーニングおよびテストベンチマークを提供するために、ヨーロッパとアジアからの12,000のビデオ-マニュアルアノテーションペアを含む多様で広範、かつ偏りのない歩行意識データセットを公開します。さらに、簡潔でありながら情報を提供するリマインダーを生成するための階層的計画のために思考の連鎖を用い、リマインダーの時間的冗長性を減少させるために時間認識型適応予測を利用するWalkVLMモデルを提案します。最後に、盲目の歩行タスクのための十分なベンチマークを確立し、このタスクにおけるストリームビデオ処理におけるWalkVLMの利点を他のVLMと比較して検証しました。私たちのデータセットとコードは、匿名リンクhttps://walkvlm2024.github.ioで公開されます。

2024-12-30T12:29:02


ILDiff: Generate Transparent Animated Stickers by Implicit Layout Distillation

http://arxiv.org/abs/2412.20901v1

Ting Zhang, Zhiqiang Yuan, Yeshuang Zhu, Jinchao Zhang

Tencent, Wechat AI

高品質なアニメーションステッカーは通常、透明なチャンネルを含んでいますが、これは現在のビデオ生成モデルではしばしば無視されています。微細化されたアニメーション透明チャンネルを生成するために、既存の方法は大きくビデオマッティングアルゴリズムと拡散ベースのアルゴリズムに分けられます。ビデオマッティングに基づく方法は、ステッカーの半開領域を扱う際のパフォーマンスが良くありません。一方、拡散ベースの方法は通常、単一の画像をモデル化するために使用され、アニメーションステッカーをモデル化する際に局所的なちらつきを引き起こすことがあります。本論文では、まずILDiffという手法を提案し、暗黙のレイアウト蒸留を通じてアニメーション透明チャンネルを生成します。これにより、既存の方法で発生する半開領域の崩壊や時間情報を考慮しない問題が解決されます。次に、透明チャンネルを持つ32万の高品質なサンプルを含む透明アニメーションステッカーデータセット(TASD)を作成し、関連分野へのデータ支援を提供します。広範な実験により、ILDiffはMatting AnythingやLayer Diffusionなどの他の方法に比べて、より細かく滑らかな透明チャンネルを生成できることが実証されました。私たちのコードとデータセットは、リンク https://xiaoyuan1996.github.io で公開される予定です。

2024-12-30T12:27:35


Holistic Construction Automation with Modular Robots: From High-Level Task Specification to Execution

http://arxiv.org/abs/2412.20867v1

Jonathan Külz, Michael Terzer, Marco Magri, Andrea Giusti, Matthias Althoff

Technical University of Munich, Fraunhofer Italia Research

建設におけるインシチュロボット自動化は、常に変化する環境、ロボット専門家の不足、ロボットと建設実践をつなぐ標準化されたフレームワークの欠如により困難です。この研究では、建設作業の仕様、ロボット形態の最適化、およびモバイルモジュラー再構成ロボットを使用したミッション実行のためのホリスティックなフレームワークを提案します。ユーザーはグラフィカルインターフェースを通じて望ましいロボットの動作を指定し、監視することができます。私たちのフレームワークは、最適なロボット形態を特定し、ビルディングインフォメーションモデリング(BIM)を統合することで現実世界での自動実行を可能にします。モジュラーロボットコンポーネントを活用することで、建設作業の特定の要求に迅速かつシームレスに適応できることを保証します。実験的検証により、私たちのアプローチがロボットによる自律的なドリル実行を頑強に可能にすることが示されました。

2024-12-30T11:11:13


Enhancing Annotated Bibliography Generation with LLM Ensembles

http://arxiv.org/abs/2412.20864v1

Sergio Bermejo

この研究は、大規模言語モデル(LLM)のアンサンブルを通じて注釈付き文献目録生成を向上させる新しいアプローチを提案します。特に、制御可能なテキスト生成、評価、要約という異なる役割を持つ複数のLLMが導入され、学術的なタスクにおけるモデルのパフォーマンスを向上させるための体系的な方法論を用いて検証されます。テキストを生成するアンサンブル間の出力の多様性は、異なるLLMパラメータを使用することで得られ、その後、関連性、正確性、一貫性を評価するためにJJLMが判定者として機能します。複数の統合戦略によって選択された応答は、その後、要約と冗長性除去技術を通じて統合および洗練されます。初歩的な実験的検証は、LLMアンサンブルからの組み合わせた出力が、個別の応答に比べて一貫性と関連性を改善し、注釈品質が38%向上し、コンテンツの冗長性が51%削減されることを示しています。これにより、高い品質基準を維持しながら複雑な学術的タスクを自動化する可能性が強調されます。

2024-12-30T11:07:05


About rectified sigmoid function for enhancing the accuracy of Physics-Informed Neural Networks

http://arxiv.org/abs/2412.20851v1

Vasiliy A. Es'kin, Alexey O. Malkhanov, Mikhail E. Smorkalov

University of Nizhny Novgorod, Huawei Nizhny Novgorod Research Center, Skolkovo Institute of Science and Technology

この記事は、物理問題を解決するための一つの隠れ層を持つニューラルネットワークと修正された活性化関数の研究に関するものです。物理問題をODEで表現するために、修正シグモイド活性化関数が提案されました。この活性化関数を持つニューラルネットワークのために、物理に基づいたデータ駆動型の初期化アルゴリズムと、ニューロンごとの勾配フリー適合法が提示されました。数値実験の結果、修正シグモイド関数を持つニューラルネットワークが、シグモイド関数を持つニューラルネットワークに比べて、物理問題(調和振動子、相対論的スリングショット、ローレンツ系)の解法の精度において優れていることが示されました。

2024-12-30T10:42:28


Analog Alchemy: Neural Computation with In-Memory Inference, Learning and Routing

http://arxiv.org/abs/2412.20848v1

Yigit Demirag

神経計算が人工知能(AI)の分野に革命をもたらす中、理想的な神経ハードウェアを再考することが次のフロンティアになりつつあります。迅速かつ信頼性の高いフォン・ノイマンアーキテクチャは、神経計算のホスティングプラットフォームとして使用されてきました。能力は高いものの、メモリと計算の分離は神経計算のエネルギー効率にボトルネックを生み出し、生物の脳とは対照的です。課題は残っています:どのようにメモリと計算を効率的に組み合わせ、基盤の物理特性を利用して知能システムを構築するか?本論文では、メモリスティブデバイスを用いた神経計算の代替方法を探求し、デバイスの特有の物理動的特性を推論、学習、ルーティングに利用します。勾配ベースの学習の原則に導かれ、具象化する必要のある関数を選定し、効率的な配線のためのコネクトミクスの原則を分析しました。アナログ物理に内在する非理想性やノイズにもかかわらず、私はメモリスティブ基板へのローカル学習の適応性、新しい材料スタック、そしてスケーラブルなアーキテクチャのためのアナログクロスバー間の効率的なルーティングを支援する回路ブロックのハードウェア証拠を提供します。

2024-12-30T10:35:03


Dual-Space Augmented Intrinsic-LoRA for Wind Turbine Segmentation

http://arxiv.org/abs/2412.20838v1

Shubh Singhal, Raül Pérez-Gonzalo, Andreas Espersen, Antonio Agudo

風力タービンブレード(WTB)画像の正確なセグメンテーションは、効果的な評価のために重要であり、自動損傷検出システムの性能に直接影響を与えます。大規模な汎用ビジョンモデルの進歩にもかかわらず、これらのモデルはWTBセグメンテーションのようなドメイン特化型タスクではしばしばパフォーマンスが低下します。この課題に対処するために、我々は画像セグメンテーションのためにIntrinsic LoRAを拡張し、画像レベルと潜在空間の拡張を統合した新しいデュアルスペース拡張戦略を提案します。画像空間の拡張は画像ペア間の線形補間を通じて実現され、潜在空間の拡張はノイズベースの潜在確率モデルを導入することで達成されます。我々のアプローチはセグメンテーションの精度を大幅に向上させ、WTB画像セグメンテーションにおいて現在の最先端手法を超えています。

2024-12-30T10:06:02


Disentangling Preference Representation and Text Generation for Efficient Individual Preference Alignment

http://arxiv.org/abs/2412.20834v1

Jianfei Zhang, Jun Bai, Bei Li, Yanmeng Wang, Rumei Li, Chenghua Lin, Wenge Rong

Beihang University, Beijing Institute for GAI, Meituan Inc., Ping An Technology, University of Manchester

大規模言語モデル(LLM)を一般的な人間の好みに合わせることは、LLMと人間の間の相互作用の質を向上させるために重要であることが証明されています。しかし、人間の価値観は個々の間で本質的に多様であるため、LLMを一般的な好みにのみ合わせることでは不十分です。これに対処するために、個々のフィードバックに基づいてLLMをパーソナライズすることが有望な解決策として浮上しています。しかし、このアプローチは、適合アルゴリズムの効率に関して課題を呈しています。本稿では、個々の好みの適合に向けた柔軟なパラダイムを導入します。我々の方法は、LLMにおけるテキスト生成から好みの表現を分離することによって、効率を根本的に改善します。我々は、複数のテキスト生成タスクにおいてアプローチを検証し、我々の方法がPEFTベースの方法と同等またはそれ以上の適合品質を提供できること、そして新しい個別の好みに対する追加のトレーニング時間を80\%から90\%削減できることを示します。

2024-12-30T09:58:31


Fine-Tuning TransMorph with Gradient Correlation for Anatomical Alignment

http://arxiv.org/abs/2412.20822v1

Lukas Förner, Kartikay Tehlan, Thomas Wendler

無監視深層学習は、解剖学的ラベルへの依存を減らしながら、解剖学的に正確な変換を実現する脳MRI登録において有望な手法です。Learn2Reg2024 LUMIRチャレンジに向けて、収束の安定性と変形の滑らかさを改善するために、事前に学習したTransMorphモデルのファインチューニングを提案します。前者はFAdamオプティマイザーを通じて実現され、構造変化の一貫性は、類似度測定における勾配相関の追加を通じて組み込まれ、解剖学的整合性を向上させます。結果は、DiceおよびHdDist95スコアのわずかな改善と、ベースラインのTransMorphモデルと比較してNDVの顕著な減少を示しています。これらは、組織の境界を検査することで確認されます。私たちの提案する手法は、患者間の脳MRI登録に対して、滑らかで構造的に一貫した変形を達成するために勾配相関を含めることの効果を強調しています。

2024-12-30T09:32:04


Length-Aware DETR for Robust Moment Retrieval

http://arxiv.org/abs/2412.20816v1

Seojeong Park, Jiho Choi, Kyungjune Baek, Hyunjung Shim

Korea Advanced Institute of Science and Technology (KAIST), Twelve Labs

ビデオモーメントリトリーバル(MR)は、与えられた自然言語クエリに基づいてビデオ内のモーメントを特定することを目的としています。情報検索のためのYouTubeのようなプラットフォームの普及に伴い、MR技術の需要は大きく増加しています。最近のDETRベースのモデルは性能の顕著な進歩を遂げていますが、短いモーメントを正確に特定することには依然として苦労しています。データ分析を通じて、短いモーメントにおける特徴の多様性が制限されていることを特定し、これがMomentMixの開発を促す要因となりました。MomentMixは、前景と背景の特徴表現をそれぞれ強化する2つの拡張戦略、ForegroundMixとBackgroundMixを採用しています。さらに、予測バイアスの分析により、短いモーメントがその中心位置を正確に予測するのに特に苦労していることが明らかになりました。これに対処するために、新しい二部マッチングプロセスを通じて長さを条件付ける長さ対応デコーダーを提案します。我々の広範な研究は、特に短いモーメントの特定における長さ対応アプローチの有効性を示しており、全体的な性能の向上につながっています。我々の方法は、ベンチマークデータセットにおいて最新のDETRベースの手法を上回り、QVHighlightsでは最高のR1とmAPを達成し、TACoSおよびCharades-STAでは最高のR1@0.7(QVHighlightsではR1@0.7で2.46%、mAP平均で2.57%の向上)を記録しました。コードはhttps://github.com/sjpark5800/LA-DETRで入手可能です。

2024-12-30T09:11:14


Two Heads Are Better Than One: Averaging along Fine-Tuning to Improve Targeted Transferability

http://arxiv.org/abs/2412.20807v1

Hui Zeng, Sanshuai Cui, Biwei Chen, Anjie Peng

最適化時間が無攻撃型攻撃よりも遥かに長いにもかかわらず、対象型攻撃の転送可能性はまだ満足のいくものではありません。最近の研究では、特徴空間で既存の敵対的例(AE)をファインチューニングすることで、その対象型転送可能性を効率的に向上させることができることが明らかになっています。しかし、既存のファインチューニング手法はエンドポイントを利用するだけで、ファインチューニングの軌跡にある貴重な情報を無視しています。通常のファインチューニングの軌跡は損失面の平坦な領域の周辺で揺れ動く傾向があることに注目し、作成したAEをより中心的な領域に引き寄せるためにファインチューニングの軌跡を平均化することを提案します。提案された手法を、さまざまな攻撃シナリオでの最先端の対象型攻撃と統合することによって、既存のファインチューニング手法と比較します。実験結果は、対象型転送可能性を向上させる上での提案手法の優位性を支持します。コードはgithub.com/zengh5/Avg_FTで入手可能です。

2024-12-30T09:01:27


A Tale of Two Imperatives: Privacy and Explainability

http://arxiv.org/abs/2412.20798v1

Supriya Manna, Niladri Sett

SRM University AP

ディープラーニングが科学分野全体で広く用いられるようになったことで、高リスクの意思決定が再形成され、プライバシーの権利(RTP)と説明の権利(RTE)の両方を含む厳格な運用フレームワークに従うことが不可欠となっています。本論文では、これら2つの要件を組み合わせる際の複雑さを検討します。RTPに関しては、プライバシー保護の機械学習において現在のゴールドスタンダードと見なされる「差分プライバシー」(DP)に焦点を当てます。RTEについては、モデルの監査において独立して動作するため、一般的に用いられる後付け説明手法に注目します。私たちは、DPモデルとさまざまな一般的な後付け説明手法を正式に調査し、RTPに従ったこれらの説明手法を評価する方法や、DPモデルとこれらの説明手法との固有の相互作用を分析します。さらに、私たちの研究は、高リスクのアプリケーションにおいてRTPとRTEを効果的に組み合わせる方法に光を当てます。私たちの研究は、RTPとRTEの要件の両方を尊重する、よく使用されるユースケースの例を挙げた産業用ソフトウェアパイプラインの概要を示すことで結論を築きます。

2024-12-30T08:43:28


Frequency-Masked Embedding Inference: A Non-Contrastive Approach for Time Series Representation Learning

http://arxiv.org/abs/2412.20790v1

En Fu, Yanyan Hu

コントラスト学習は、現在の自己教師あり時系列表現手法のほとんどの基盤となっています。正および負のサンプルペアを構築する戦略は、最終的な表現品質に大きな影響を与えます。しかし、時系列セマンティクスの連続的な特性のために、コントラスト学習のモデリングアプローチは、時系列データの特性に適応するのに苦労しています。この結果、ハードネガティブサンプルの構築の難しさや、ポジティブサンプル構築中の不適切なバイアスの導入の可能性などの問題が発生します。最近のいくつかの研究では、効果的に正負のサンプルペアを構築するためのいくつかの科学的戦略が開発されていますが、それでもコントラスト学習フレームワークによって制約されています。コントラスト学習の制限を根本的に克服するために、本論文では、ポジティブおよびネガティブサンプルの必要性を完全に排除する新しい非コントラスト手法、周波数マスク埋め込み推論(FEI)を紹介します。提案されたFEIは、プロンプティング戦略に基づいて2つの推論ブランチを構築します:1)周波数マスキングをプロンプトとして使用して、埋め込み空間における欠損周波数帯域を持つターゲットシリーズの埋め込み表現を推論し、2)ターゲットシリーズをプロンプトとして使用して、その周波数マスキング埋め込みを推論します。このようにして、FEIは時系列の連続的なセマンティック関係モデリングを可能にします。分類および回帰タスクのために広く使用される8つの時系列データセットに対する実験では、線形評価とエンドツーエンドのファインチューニングを使用して、FEIが一般化において既存のコントラストベースの手法を大幅に上回ることが示されました。この研究は、時系列の自己教師あり表現学習に新しい見解を提供します。コードはhttps://github.com/USTBInnovationPark/Frequency-masked-Embedding-Inferenceで入手可能です。

2024-12-30T08:12:17


SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity

http://arxiv.org/abs/2412.20787v1

Pengfei Jing, Mengyun Tang, Xiaorong Shi, Xing Zheng, Sen Nie, Shi Wu, Yong Yang, Xiapu Luo

The Hong Kong Polytechnic University, Tencent Security Keen Lab, Tencent Zhuque Lab, Tencent Security Platform and Department

大規模言語モデル(LLM)の評価は、自然言語処理やコード生成を含むさまざまなアプリケーションにおけるそれらの能力と限界を理解するために重要です。既存のベンチマークであるMMLU、C-Eval、HumanEvalは一般的なLLMのパフォーマンスを評価していますが、サイバーセキュリティなどの特定の専門領域に焦点を当てていません。サイバーセキュリティデータセットを作成するための前回の試みは、データ量が不十分であり、選択肢問題(MCQ)に依存しているという限界に直面しました。これらのギャップに対処するために、私たちはSecBenchを提案します。これは、サイバーセキュリティ分野におけるLLMを評価するために設計された多次元のベンチマークデータセットです。SecBenchには、さまざまな形式(MCQと短答式問題(SAQ))で、異なる能力レベル(知識保持と論理的推論)で、複数の言語(中国語と英語)で、さまざまなサブドメインにわたる質問が含まれています。このデータセットは、オープンソースから高品質なデータを収集し、サイバーセキュリティ質問デザインコンテストを開催することによって構築され、44,823のMCQと3,087のSAQが得られました。特に、私たちは強力で低コストなLLMを使用して(1)データにラベルを付け、(2)SAQの自動評価のための採点エージェントを構築しました。13の最先端(SOTA)LLMにおけるベンチマーク結果は、SecBenchの有用性を示しており、サイバーセキュリティにおけるLLMのための最大かつ最も包括的なベンチマークデータセットであると考えられます。SecBenchに関する詳細は私たちのウェブサイトで確認でき、データセットにはアーティファクトリンクを介してアクセスできます。

2024-12-30T08:11:54


Sample Correlation for Fingerprinting Deep Face Recognition

http://arxiv.org/abs/2412.20768v1

Jiyang Guan, Jian Liang, Yanbo Wang, Ran He

顔認識は、深層学習技術の発展により、近年目覚ましい進歩を遂げています。しかし、市販の顔認識モデルはモデル盗用攻撃により盗まれる可能性があり、モデルの所有者の権利に対して大きな脅威をもたらします。モデル指紋は、モデル盗用検出手法として、疑わしいモデルが被害者モデルから盗まれたかどうかを検証することを目的としており、最近ますます注目されています。従来の手法は、転送可能な敵対的サンプルをモデル指紋として利用していますが、この方法は敵対的防御や転移学習技術に対して敏感であることが知られています。この問題に対処するために、私たちはサンプル間のペアワイズ関係に着目し、SAmple Correlation(SAC)に基づいた新しいかつシンプルなモデル盗用検出手法を提案します。具体的には、JPEG圧縮サンプルをモデル入力として選択し、それらのモデル出力間の相関行列を計算するSAC-JCを示します。広範な結果は、SACが顔認証や顔感情認識を含む深層顔認識においてさまざまなモデル盗用攻撃に対して成功裏に防御することを検証し、AUC、p値およびF1スコアの観点から最高のパフォーマンスを示しています。さらに、私たちはSAC-JCの評価をTiny-ImageNetやCIFAR10などの物体認識データセットに拡張し、従来の手法に対してSAC-JCの優れたパフォーマンスも示します。コードは以下のURLで入手可能です。 \url{https://github.com/guanjiyang/SAC_JC}

2024-12-30T07:37:06


KeyGS: A Keyframe-Centric Gaussian Splatting Method for Monocular Image Sequences

http://arxiv.org/abs/2412.20767v1

Keng-Wei Chang, Zi-Ming Wang, Shang-Hong Lai

スパースな2D画像から高品質な3Dモデルを再構築することは、コンピュータビジョンの分野で重要な関心を集めています。最近では、3Dガウススプラッティング(3DGS)が、効率的なトレーニング速度とリアルタイムレンダリング能力を備えた明示的な表現により注目を集めています。しかし、既存の手法は依然として正確なカメラポーズに依存しており、再構築を行っています。最近のいくつかのアプローチは単眼ビデオデータセットからの動きの構造(SfM)事前処理なしで3DGSモデルを訓練しようとしていますが、これらの手法は長時間のトレーニングを必要とするため、多くのアプリケーションには実用的ではありません。この論文では、深度やマッチングモデルを使用せずに動作する効率的なフレームワークを提案します。我々のアプローチは最初にSfMを使用して数秒以内に粗いカメラポーズを迅速に取得し、その後、3DGSの高密度な表現を活用してこれらのポーズを精緻化します。このフレームワークは長時間のトレーニング時間の問題に効果的に対処します。さらに、我々は密度化プロセスを共同精緻化と統合し、異なる詳細レベルを再構築するために粗から細への周波数対応密度化を提案します。このアプローチにより、カメラポーズ推定が局所的な最小値に陥ったり、高周波信号によって漂流したりすることを防ぎます。我々の手法は、従来の手法と比較して、トレーニング時間を数時間から数分に大幅に短縮し、より正確な新しい視点合成とカメラポーズ推定を実現します。

2024-12-30T07:32:35


Attributing Culture-Conditioned Generations to Pretraining Corpora

http://arxiv.org/abs/2412.20760v1

Huihan Li, Arnav Goel, Keyu He, Xiang Ren

University of Southern California, IIIT Delhi

オープンエンドの生成タスク、例えば物語の執筆や対話において、大規模言語モデルはしばしば文化的バイアスを示し、あまり一般的でない文化に対して限られた知識を持ち、テンプレート化された出力を生成します。最近の研究では、これらのバイアスは事前学習コーパスにおける文化的表現の不均衡から生じる可能性があることが示されています。本研究は、事前学習がどのようにバイアスのある文化条件生成を引き起こすかを調査し、モデルが事前学習データのパターンに基づいてエンティティを文化と関連付ける方法を分析します。私たちは、文化に対する生成が暗記から生じるかどうかを判断するために、MEMOedフレームワーク(事前学習文書からのMEMOrization)を提案します。110の文化について、食物や衣服に関する文化条件生成にMEMOedを使用したところ、事前学習データにおける高頻度文化が記憶されたシンボルを持つ生成をより多く生む一方で、いくつかの低頻度文化はまったく生成しないことがわかりました。さらに、モデルは条件文化に関係なく異常に高い頻度のエンティティ生成を好む傾向があり、関連性にかかわらず高頻度の事前学習用語に対するバイアスを反映しています。私たちは、MEMOedフレームワークと私たちの洞察が、事前学習データに基づくモデルのパフォーマンスをより探求するためのインスピレーションとなることを期待しています。

2024-12-30T07:09:25


Solar Filaments Detection using Active Contours Without Edges

http://arxiv.org/abs/2412.20749v1

Sanmoy Bandyopadhyay, Vaibhav Pant

この記事では、H-α全体画像の太陽フィラメント検出のために、エッジなしのアクティブ輪郭(ACWE)に基づくアルゴリズムが提案されています。このアルゴリズムは、画像処理の3つの主要なステップで構成されています。これらは、画像の前処理、画像のセグメンテーション、および画像の後処理です。ここでの作業では、太陽画像上に輪郭が初期化され、エネルギー関数に基づいて変形を許可します。輪郭が対象物の境界に達すると、エネルギー関数が減少し、輪郭の進化が停止します。提案されたアルゴリズムは、いくつかのベンチマークデータセットに適用され、従来の物体検出技術と比較されました。結果の分析は、提案されたアルゴリズムが既存の従来の物体検出アルゴリズムを使用して得られた結果を上回っていることを示しています。

2024-12-30T06:43:22


Advancing Parkinson's Disease Progression Prediction: Comparing Long Short-Term Memory Networks and Kolmogorov-Arnold Networks

http://arxiv.org/abs/2412.20744v1

Abhinav Roy, Bhavesh Gyanchandani, Aditya Oza, Abhishek Sharma

パーキンソン病(PD)は、運動機能と非運動機能を損なう神経変性疾患であり、生活の質を大きく低下させ、死亡リスクを増加させます。PDの進行を早期かつ正確に検出することは、効果的な管理及び患者の転帰を改善するために非常に重要です。しかし、現在の診断方法は、しばしば高コストで時間がかかり、専門的な機器や専門知識を必要とします。本研究は、回帰法、長短期記憶(LSTM)ネットワーク、コルモゴロフ・アルノルトネットワーク(KAN)を用いたPD進行の予測に関する革新的なアプローチを提案します。KANはスプラインパラメータ化された単変数関数を活用し、従来の線形モデルとは異なり、活性化パターンの動的学習を可能にします。運動障害学会がスポンサーとなる統一パーキンソン病評価尺度(MDS-UPDRS)は、PDの症状を評価するための包括的なツールであり、病気の進行を測定するために一般的に使用されています。さらに、タンパク質またはペプチドの異常は、PDの発症と進行に関連しています。これらの関連を特定することで、病気の進行を予測し、分子変化を理解する手助けとなります。LSTMやKANを含む複数のモデルを比較し、この研究は最も高い指標を提供する方法を特定することを目指しています。分析の結果、KANはその動的な学習能力により、PDの進行予測において他のアプローチよりも優れていることが明らかになりました。この研究は、医療におけるAIと機械学習の可能性を強調し、PD管理における臨床予測を向上させ、患者ケアと治療戦略を改善するための高度な計算モデルの道を開きます。

2024-12-30T06:36:05


HUNYUANPROVER: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving

http://arxiv.org/abs/2412.20735v1

Yang Li, Dong Du, Linfeng Song, Chen Li, Weikang Wang, Tao Yang, Haitao Mi

Tencent

HunyuanProverを紹介します。これは、LEAN4を用いたインタラクティブな自動定理証明のためにHunyuan 7Bからファインチューニングされた言語モデルです。データのスパース性の問題を軽減するために、低コストでデータを反復的に合成するスケーラブルなフレームワークを設計しました。その上、証明者が効果的に「システム2思考」を行えるように、ガイド付き木探索アルゴリズムを設計しました。HunyuanProverは主要なベンチマークで最先端(SOTA)のパフォーマンスを達成しています。具体的には、現在のSOTAの結果である65.9%に対して、miniF2F-testで68.4%の合格率を達成しました。また、miniF2F-testで4つのIMOステートメント(imo_1960_p2、imo_1962_p2、imo_1964_p2、imo_1983_p6)を証明しました。コミュニティに貢献するために、30,000の合成インスタンスからなるデータセットオープンソースする予定であり、それぞれのインスタンスには自然言語での元の質問、自動形式化によって変換されたステートメント、HunyuanProverによる証明が含まれています。

2024-12-30T06:18:33


Towards nation-wide analytical healthcare infrastructures: A privacy-preserving augmented knee rehabilitation case study

http://arxiv.org/abs/2412.20733v1

Boris Bačić, Claudiu Vasile, Chengwei Feng, Marian G. Ciucă

この論文の目的は、患者からのストリーミングまたはアップロードされた時系列データやビデオを処理できる、プライバシーを保護したビッグデータ分析の医療プラットフォームの近い将来への貢献です。実験作業には、スポーツへの復帰を目指したシンプルでパーソナライズされた運動から、より一般的で難易度の高い運動までの一連の運動をキャプチャした実際の膝リハビリテーションのビデオデータセットが含まれています。モバイルデバイスからのビデオをプライバシーを保護した診断用時系列データに変換するために、Google MediaPipeの姿勢推定を利用しました。開発された概念実証アルゴリズムは、患者にスティックフィギュアイメージを重ね合わせることで膝の運動ビデオを強化し、膝の角度推定をCSVファイル形式でストリーミングしながら生成された時系列プロットを更新することができます。患者や理学療法士のために、側面からの時系列データが過度の膝屈曲や不安定な膝の動き、またはスティックフィギュアのオーバーレイエラーなどの潜在的な問題を視覚的に示すビデオが、事前に設定された膝の角度パラメータを使用することで可能です。リハビリテーションプログラムへの遵守を促進し、運動セットや繰り返し回数を定量化するために、私たちの適応アルゴリズムは側面および正面からのビデオからすべての運動を正確に特定することができます(91.67%-100%の正確度)。さまざまな膝の運動パターンの適応的視覚分析のための透明なアルゴリズム設計は、解釈可能なAIに貢献し、近い将来のプライバシー保護、ベンダーロックインのないオープンソースの発展を促進し、エンドユーザーのコンピューティングデバイスおよび国家医療システム内で展開可能な非独占的なオンプレミスのクラウドプラットフォームに情報を提供します。

2024-12-30T06:14:48


M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs

http://arxiv.org/abs/2412.20718v1

Bei Yan, Jie Zhang, Zhiyuan Chen, Shiguang Shan, Xilin Chen

最近、大規模な基盤モデル、特に大規模言語モデル(LLMs)や大規模視覚言語モデル(LVLMs)が、法務、金融、医療などの重要な分野で欠かせないツールとなっています。これらのモデルが日常生活にますます統合されるにつれて、その出力が人間の価値観に合致し、道徳的境界内に留まることを確保するために、道徳的評価を行う必要があります。これまでの研究は主にLLMsに焦点を当てており、テキストモダリティに限定された道徳データセットベンチマークを提案しています。しかし、LVLMsの急速な発展を考慮すると、マルチモーダルな道徳評価手法はまだ不足しています。このギャップを埋めるために、私たちはLVLMsのための初のマルチモーダル道徳ベンチマークであるM$^3$oralBenchを紹介します。M$^3$oralBenchは、道徳基盤のシナリオを拡張し、テキストから画像への拡散モデルであるSD3.0を使用して、対応するシナリオ画像を作成します。また、道徳基盤理論(MFT)の6つの道徳基盤にわたって道徳評価を行い、道徳判断、道徳分類、道徳的応答に関するタスクを網羅し、マルチモーダルな道徳理解と推論におけるモデルのパフォーマンスを包括的に評価します。10の人気のあるオープンソースとクローズドソースのLVLMsに対する広範な実験により、M$^3$oralBenchが難しいベンチマークであり、現在のモデルにおける顕著な道徳的限界を明らかにしていることが示されました。私たちのベンチマークは公開されています。

2024-12-30T05:18:55


UBER: Uncertainty-Based Evolution with Large Language Models for Automatic Heuristic Design

http://arxiv.org/abs/2412.20694v1

Zijie Chen, Zhanchao Zhou, Yu Lu, Renjun Xu, Lili Pan, Zhenzhong Lan

NP困難問題の解決は従来、ヒューリスティックに依存していますが、複雑な問題に対して効果的なヒューリスティックを手作業で作成することは依然として困難です。最近の研究であるFunSearchは、大規模言語モデル(LLM)を進化的アルゴリズム(EA)フレームワークにおけるヒューリスティック設計に活用できることを示していますが、その利点は、探査と利用の欠点により十分に活用されていません。私たちは、FunSearchフレームワークの上に不確実性を統合することにより、自動ヒューリスティック設計のためのLLM+EA手法を強化する方法であるUBER(不確実性に基づく進化的洗練)を提案します。UBERは、適応的な探査・利用バランスのための不確実性を包括した進化プロセス(UIEP)と、集団の多様性を維持するための原則に基づく不確実性を包括した島のリセット(UIIS)戦略という二つの重要な革新を導入します。難しいNP完全問題に対する広範な実験を通じて、UBERはFunSearchに対して著しい改善を示します。我々の研究は、LLMとEAの相乗効果への新たな方向性を提供し、自動ヒューリスティック設計の分野を前進させます。

2024-12-30T04:05:22


Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner

http://arxiv.org/abs/2412.20662v1

Yitong Zhou, Mingyue Cheng, Qingyang Mao, Qi Liu, Feiyang Xu, Xin Li, Enhong Chen

University of Science and Technology of China, iFLYTEK Co., Ltd

事前に学習された基盤モデルは、最近、構造化されたテーブルの理解と推論において大きな進展を遂げました。しかし、テーブルの意味理解やテーブルに対する質問応答などの分野での進歩にもかかわらず、ビジョン・ラージ・ランゲージ・モデル(VLLM)を使用して非構造化テーブルの構造と内容を認識することは、まだ十分に探求されていません。本研究では、この研究のギャップに対処するために、トレーニング不要な推論パラダイムにおいてVLLMを活用します。まず、テーブル認識に関連するさまざまな階層的次元を持つベンチマークを設計します。次に、事前に学習されたVLLMを使用して詳細な評価を行い、低品質の画像入力が認識プロセスにおける重要なボトルネックであることを発見しました。これらの発見からインスピレーションを得て、低品質の入力画像の問題を軽減することを目的とした低レベルの視覚処理操作のために複数の軽量モデルを統合するNeighbor-Guided Toolchain Reasoner(NGTR)フレームワークを提案します。具体的には、近隣検索メカニズムを利用して、類似の近隣から与えられた入力へのツール選択経験を転送し、複数のツール呼び出し計画の生成をガイドします。さらに、ツール呼び出しプロセスを監督するための反射モジュールを導入します。公に利用可能なテーブル認識データセットに対する広範な実験により、私たちのアプローチがバニラVLLMの認識能力を大幅に向上させることを示しています。設計されたベンチマークと提案されたNGTRフレームワークが、テーブル認識の代替解決策を提供できると信じています。

2024-12-30T02:40:19


Overcoming Class Imbalance: Unified GNN Learning with Structural and Semantic Connectivity Representations

http://arxiv.org/abs/2412.20656v1

Abdullah Alchihabi, Hao Yan, Yuhong Guo

クラス不均衡は、現実のグラフデータセットで広く見られる問題であり、注釈が付けられたノードの多数は少数のクラス(多数派クラス)に属し、多くの他のクラス(少数派クラス)はラベル付きノードがわずかしかありません。グラフニューラルネットワーク(GNN)は、クラス不均衡の影響を受け、性能が大幅に低下し、多数派クラスに偏りがちで、少数派クラスに対して効果的に一般化するのに苦労します。この制限は、部分的にはメッセージパッシングプロセスから生じており、GNNは少数派クラスの注釈付きノードの限られた近隣に過剰適合し、グラフ全体にわたり識別情報の伝播を妨げています。本論文では、クラス不均衡なノード分類に取り組むための新しい統一グラフニューラルネットワーク学習(Uni-GNN)フレームワークを提案します。提案されたフレームワークは、意味的および構造的ノードエンコーダを通じて、構造的および意味的接続性表現をシームレスに統合します。これらの接続性タイプを組み合わせることにより、Uni-GNNはノード埋め込みの伝播を即時の隣人を超えて拡張し、隣接していない構造的ノードや意味的に類似したノードを含むことで、グラフ全体にわたる識別情報の効率的な拡散を可能にします。さらに、グラフ内のラベル未付与ノードの潜在能力を活用するために、訓練セットにおける少数派クラスのラベル付きノードプールを増強するバランスの取れた疑似ラベル生成メカニズムを採用します。実験結果は、複数のベンチマークデータセットにわたって、最先端のクラス不均衡なグラフ学習のベースラインと比較して、提案するUni-GNNフレームワークの優れた性能を強調しています。

2024-12-30T02:20:40


Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis

http://arxiv.org/abs/2412.20651v1

Yousef Yeganeh, Ioannis Charisiadis, Marta Hasny, Martin Hartenberger, Björn Ommer, Nassir Navab, Azade Farshad, Ehsan Adeli

Technical University of Munich, Munich Center of Machine Learning, Stanford University, Ludwig Maximilian University of Munich

大規模データセットでのトレーニングによって、拡散モデルを用いた画像生成および操作の品質と忠実性が向上することが示されています。しかし、コストやプライバシーの問題から、医療画像においてはそのような大規模データセットが常に利用可能とは限らず、これは実データが乏しい場所で合成サンプルを生成するというモデルの主要な応用の一つと矛盾します。また、医療分野と事前学習されたモデルとの間の分布のずれのため、事前学習された一般モデルに対するファインチューニングは課題となっています。ここでは、分布のずれによる問題を軽減するために、任意のファインチューニング方法に適用できる拡散モデル用の潜在ドリフト(LD)を提案します。潜在ドリフトにより、拡散モデルは医療画像に適合させるために条件付けされ、性別、年齢、患者における病気の追加または削除などのパラメーターが医療画像にどう影響を与えるかを調査するために重要な、反実仮想画像生成という複雑なタスクに対応します。私たちは、反実仮想画像生成のために、脳のMRIおよび胸部X線の3つの公的な縦 longitudinalベンチマークデータセットでこの手法を評価しました。私たちの結果は、さまざまなファインチューニングスキームと組み合わせた場合に、さまざまなシナリオでのパフォーマンスの大幅な向上を示しています。この作業のソースコードは、受理され次第公に公開される予定です。

2024-12-30T01:59:34


Predicting Long Term Sequential Policy Value Using Softer Surrogates

http://arxiv.org/abs/2412.20638v1

Hyunji Nam, Allen Nie, Ge Gao, Vasilis Syrgkanis, Emma Brunskill

教育、医療、オンライン商取引における政策評価は、関心のある期間にわたる結果を観察するためにかなりの時間を待つ必要があるため、困難な場合があります。オフライン評価手法は、場合によっては歴史的データから新しい意思決定政策のパフォーマンスを推定するために使用できますが、新しい政策が新しい行動を含む場合や、異なるダイナミクスを持つ新しい意思決定プロセスで実行される場合には、これらの手法は苦しむことがあります。ここでは、新しい政策からの短期データだけを使用して新しい意思決定政策のフルホライズンバリューを推定し、異なる行動政策からの歴史的フルホライズンデータを使用する方法を考察します。この設定のために、ダブリーロバスト定量を含む2つの新しい推定器を導入し、その特性の形式的分析を提供します。HIV治療と敗血症治療の2つの現実的なシミュレーターに対する我々の実証結果は、我々の手法がしばしば新しい意思決定政策の情報豊かな推定値をフルホライズンを待つよりも10倍速く提供できることを示しており、新しい行動を伴う新しい意思決定政策が既存の過去の政策よりも優れているか劣っているかを迅速に特定できる可能性があることを強調しています。

2024-12-30T01:01:15


NetFlowGen: Leveraging Generative Pre-training for Network Traffic Dynamics

http://arxiv.org/abs/2412.20635v1

Jiawei Zhou, Woojeong Kim, Zhiying Xu, Alexander M. Rush, Minlan Yu

Stony Brook University, Cornell University, Harvard University

ネットワークにおけるトラフィックダイナミクスを理解することは、自動システムがネットワークの行動を監視し分析するための核心的な能力であり、トラフィックの分類、混雑予測、攻撃検出といったタスクを通じて高価な人手の労力と経済的リスクを削減します。しかし、効率的かつ広範に適用可能な方法でネットワークトラフィックを正確にモデル化することは依然として難しいです。特定のタスク向けにゼロから訓練されたモデルが異なるネットワークアプリケーションのために使用されるため、モデルの開発効率や展開の一般化が制限されます。さらに、ネットワークデータは豊富ですが、高品質な特定タスク向けラベルが個々のモデルの訓練にはしばしば不十分です。ラベルのないデータに対する大規模な自己教師あり学習は、これらの課題に取り組むための自然な道筋を提供します。私たちは、NetFlowレコードからのトラフィックデータのみを用いてトラフィックダイナミクスを捉える汎用の機械学習モデルを事前に訓練し、少数のラベルで異なるダウンストリームタスクに微調整することを目指しています。私たちが提案するNetFlowGenフレームワークは、ネットワークトラフィックの事前訓練の概念実証を越え、ネットワークの特徴表現の統一、大規模なラベルなしトラフィックデータからの学習、DDoS攻撃検出における実際のダウンストリームタスクでのテストといった特定の課題に対処します。実験結果は、トラフィックダイナミクスを捉え、さまざまなネットワークタスクに適応する私たちの事前訓練フレームワークの有望な結果を示しています。

2024-12-30T00:47:49