1. Enhancing LLM Agent Safety via Causal Influence Prompting
Authors: Dongyoon Hahm, Woogyeol Jin, June Suk Choi, Sungsoo Ahn, Kimin Lee
URL: https://arxiv.org/abs/2507.00979
요약 (영문): autonomous agents powered by large language models continue to demonstrate potential across various assistive tasks . we introduce CIP, a novel technique that leverages causal influence diagrams (CIDs) to identify and mitigate risks arising from agent decision-making .
요약 (한글): 대규모 언어 모델을 기반으로 하는 자율 에이전트는 다양한 지원 작업에서 계속해서 잠재력을 입증하고 있으며, 인과 관계 영향도(CID)를 활용하여 에이전트 의사 결정에서 발생하는 위험을 식별하고 완화하는 새로운 기술인 CIP를 소개합니다.
2. Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact
Authors: Rizwan Qureshi, Ranjan Sapkota, Abbas Shah, Amgad Muneer, Anas Zafar, Ashmal Vayani, Maged Shoman, Abdelrahman B. M. Eldaly, Kai Zhang, Ferhat Sadak, Shaina Raza, Xinqi Fan, Ravid Shwartz-Ziv, Hong Yan, Vinjia Jain, Aman Chadha, Manoj Karkee, Jia Wu, Philip Torr, Seyedali Mirjalili
URL: https://arxiv.org/abs/2507.00951
요약 (영문): despite the growing capabilities of models such as GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4, and Grok 3, these systems remain fundamentally limited by their reliance on token-level prediction . this paper offers a cross-disciplinary synthesis of AGI development .
요약 (한글): GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4 및 Grok 3와 같은 모델의 기능이 향상되었음에도 불구하고 이러한 시스템은 토큰 수준 예측에 의존한다는 근본적인 한계가 있습니다. 이 논문에서는 AGI 개발에 대한 여러 분야의 종합적인 정보를 제공합니다.
3. SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents
Authors: Siyuan Liang, Tianmeng Fang, Zhe Liu, Aishan Liu, Yan Xiao, Jinyuan He, Ee-Chien Chang, Xiaochun Cao
URL: https://arxiv.org/abs/2507.00841
요약 (영문): a wide application of multimodal foundation models in intelligent agent systems is increasingly relying on such large model-driven agents . attacks may induce the agents to bypass the original behavioral constraints through specific inputs .
요약 (한글): 지능형 에이전트 시스템에서 멀티모달 기반 모델의 광범위한 적용은 이러한 대규모 모델 기반 에이전트에 점점 더 의존하고 있습니다. 공격은 특정 입력을 통해 에이전트가 원래의 행동 제약을 우회하도록 유도할 수 있습니다.
4. A Robust Algorithm for Non-IID Machine Learning Problems with Convergence Analysis
Authors: Qing Xu, Xiaohua Xuan
URL: https://arxiv.org/abs/2507.00810
요약 (영문): this paper proposes an improved numerical algorithm for solving minimax problems based on nonsmooth optimization, quadratic programming and iterative process . we also provide a rigorous proof of convergence for our algorithm under some mild assumptions .
요약 (한글): 이 논문은 비평활 최적화, 이차 프로그래밍 및 반복 프로세스를 기반으로 최소 최대 문제를 해결하기 위한 개선된 수치 알고리즘을 제안합니다. 또한 몇 가지 가벼운 가정 하에서 알고리즘의 수렴에 대한 엄격한 증명을 제공합니다.
5. Can Large Language Models Develop Strategic Reasoning? Post-training Insights from Learning Chess
Authors: Dongyoon Hwang, Hojoon Lee, Jaegul Choo, Dongmin Park, Jongho Park
URL: https://arxiv.org/abs/2507.00726
요약 (영문): reinforcement learning (RL) for large language models (LLMs) has shown promise in mathematical reasoning . to this end, we leverage a chess-pretrained action-value network .
요약 (한글): 대규모 언어 모델(LLM)을 위한 강화 학습(RL)은 수학적 추론에서 가능성을 보였습니다. 이를 위해 체스로 사전 학습된 행동 값 네트워크를 활용합니다.
6. Advancing Local Search in SMT-NRA with MCSAT Integration
요약 (영문): in this paper, we advance local search for Satisfiability Modulo the Theory of Nonlinear Real Arithmetic . first, we introduce a two-dimensional cell-jump move, called emph$2d$-cell jump . then, we propose an extended local search framework .
요약 (한글): 본 논문에서는 비선형 실수 산술 이론의 만족성 모듈로 국부 검색을 발전시킵니다. 먼저 강조 $ 2D$- 셀 점프라고 하는 2차원 셀 점프 이동을 소개한 다음 확장된 국부 검색 프레임워크를 제안합니다.
7. Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
Authors: Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
URL: https://arxiv.org/abs/2507.00432
요약 (영문): we evaluate over 20 open-weight reasoning-tuned models across a broad range of tasks, including math, scientific QA, agent planning, coding, and standard in math . if these gains reflect broader problem-solving ability or narrow overfitting?
요약 (한글): 수학, 과학 QA, 에이전트 계획, 코딩, 수학 표준 등 광범위한 작업에서 20개 이상의 개방형 추론 조정 모델을 평가합니다. 이러한 이득이 광범위한 문제 해결 능력을 반영하는지 아니면 좁은 과적합을 반영하는지?
8. ASTRO: Teaching Language Models to Reason by Reflecting and Backtracking In-Context
Authors: Joongwon Kim, Anirudh Goyal, Liang Tan, Hannaneh Hajishirzi, Srinivasan Iyer, Tianlu Wang
URL: https://arxiv.org/abs/2507.00417
요약 (영문): the “Autoregressive Search-Taught Reasoner” is a framework for training language models to reason like search algorithms . the framework combines self-reflection, backtracking, and exploration in their outputs .
요약 (한글): “자동 회귀 검색 학습 추론기”는 검색 알고리즘처럼 추론하도록 언어 모델을 훈련시키는 프레임워크입니다. 이 프레임워크는 자기 반영, 역추적 및 탐색을 출력에 결합합니다.
9. GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
요약 (영문): we present a vision-language model (GLM-4.1V-Thinking) designed to advance general-purpose multimodal reasoning . we first develop a capable vision foundation model with significant potential through large-scale pre-training .
요약 (한글): 범용 멀티모달 추론을 발전시키기 위해 설계된 비전 언어 모델(GLM-4.1V-Thinking)을 제시합니다. 먼저 대규모 사전 훈련을 통해 상당한 잠재력을 가진 유능한 비전 기반 모델을 개발합니다.
10. Description of the Training Process of Neural Networks via Ergodic Theorem : Ghost nodes
Authors: Eun-Ji Park, Sangwon Yun
URL: https://arxiv.org/abs/2507.01003
요약 (영문): recent studies have proposed interpreting the training process from an ergodic perspective . by analyzing the geometric landscape of the objective function we introduce a practical diagnostic, the running estimate of the largest Lyapunov exponent.
요약 (한글): 최근 연구에서는 훈련 과정을 에르고딕 관점에서 해석할 것을 제안했습니다. 목적 함수의 기하학적 환경을 분석하여 가장 큰 리아푸노프 지수의 실행 추정치인 실용적인 진단을 소개합니다.
11. SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks
Authors: Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan
URL: https://arxiv.org/abs/2507.01001
요약 (영문): we present SciArena, an open and collaborative platform for evaluating foundation models on scientific literature tasks . the platform follows the Chatbot Arena evaluation approach of community voting on models .
요약 (한글): 과학 문헌 과제에 대한 기초 모델을 평가하기 위한 개방형 협업 플랫폼인 SciArena를 소개합니다. 이 플랫폼은 모델에 대한 커뮤니티 투표라는 챗봇 아레나 평가 방식을 따릅니다.
12. Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations
Authors: Shivansh Patel, Shraddhaa Mohan, Hanlin Mai, Unnat Jain, Svetlana Lazebnik, Yunzhu Li
URL: https://arxiv.org/abs/2507.00990
요약 (영문): a video diffusion model generates potential demonstration videos . a vision-language model filters out results that do not follow the command .
요약 (한글): 비디오 확산 모델은 잠재적인 데모 비디오를 생성합니다. 비전 언어 모델은 명령을 따르지 않는 결과를 필터링합니다.
13. Reasoning as an Adaptive Defense for Safety
Authors: Taeyoun Kim, Fahim Tajwar, Aditi Raghunathan, Aviral Kumar
URL: https://arxiv.org/abs/2507.00971
요약 (영문): methods that adaptively allocate test-time compute have advanced LLM performance on easy to verify domains such as math and code . we build a recipe called $textitTARS$ that trains models to reason about safety .
요약 (한글): 테스트 시간 계산을 적응적으로 할당하는 메서드는 수학 및 코드와 같이 검증하기 쉬운 도메인에서 LLM 성능을 향상시켰습니다. 우리는 안전성에 대해 추론하도록 모델을 훈련하는 $textitTARS$라는 레시피를 구축합니다.
14. Surgical Neural Radiance Fields from One Image
Authors: Alberto Neri, Maximilan Fehrentz, Veronica Penza, Leonardo S. Mattos, Nazim Haouchine
URL: https://arxiv.org/abs/2507.00969
요약 (영문): Neural Radiance Fields (NeRF) offer exceptional capabilities for 3D reconstruction and view synthesis . their reliance on extensive multi-view data limits their application in surgical intraoperative settings where only limited data is available .
요약 (한글): 신경 방사 필드(NeRF)는 3D 재구성 및 뷰 합성을 위한 탁월한 기능을 제공하며, 광범위한 멀티뷰 데이터에 의존하기 때문에 제한된 데이터만 사용할 수 있는 수술 중 환경에 적용하는 데 한계가 있습니다.
15. MambAttention: Mamba with Multi-Head Attention for Generalizable Single-Channel Speech Enhancement
Authors: Nikolai Lund Kühne, Jesper Jensen, Jan Østergaard, Zheng-Hua Tan
URL: https://arxiv.org/abs/2507.00966
요약 (영문): sequence models like xLSTM and LSTM tend to overfit to the training set . previous works have shown that adding self-attention to LS’s substantially improves generalization pc .
요약 (한글): xLSTM 및 LSTM과 같은 시퀀스 모델은 훈련 세트에 과적합하는 경향이 있습니다. 이전 연구에 따르면 LS에 자기 주의를 추가하면 일반화 pc가 크게 향상됩니다.
16. From Sentences to Sequences: Rethinking Languages in Biological System
Authors: Ke Liu, Shuanke Shen, Hao Chen
URL: https://arxiv.org/abs/2507.00953
요약 (영문): the paradigm of large language models in natural language processing (NLP) has also shown promise in modeling biological languages, including proteins, RNA, and DNA . both the auto-regressive generation paradigm and evaluation metrics have been transferred from NLP to biological sequence modeling .
요약 (한글): 자연어 처리(NLP)의 대규모 언어 모델 패러다임은 단백질, RNA, DNA를 포함한 생물학적 언어 모델링에서도 가능성을 보였습니다. 자동 회귀 생성 패러다임과 평가 메트릭 모두 NLP에서 생물학적 서열 모델링으로 이전되었습니다.
17. WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks
Authors: Zihao Sun, Meng Fang, Ling Chen
URL: https://arxiv.org/abs/2507.00938
요약 (영문): WebArXiv is a static and time-invariant benchmark . the benchmark includes 275 web-based tasks . it ensures reproducible a real website .
요약 (한글): WebArXiv는 정적이고 시간에 변하지 않는 벤치마크로, 275개의 웹 기반 작업을 포함하며 실제 웹사이트를 재현할 수 있습니다.
18. Large Language Model Powered Intelligent Urban Agents: Concepts, Capabilities, and Applications
Authors: Jindong Han, Yansong Ning, Zirui Yuan, Hang Ni, Fan Liu, Tengfei Lyu, Hao Liu
URL: https://arxiv.org/abs/2507.00914
요약 (영문): the long-standing vision of intelligent cities is to create efficient, livable, and sustainable urban environments using big data and artificial intelligence technologies . the advent of Large Language Models (LLMs) has opened new ways toward realizing this vision .
요약 (한글): 지능형 도시의 오랜 비전은 빅데이터와 인공 지능 기술을 사용하여 효율적이고 살기 좋으며 지속 가능한 도시 환경을 조성하는 것입니다. 대규모 언어 모델(LLM)의 출현으로 이러한 비전을 실현할 수 있는 새로운 길이 열렸습니다.
19. Turning AI Data Centers into Grid-Interactive Assets: Results from a Field Demonstration in Phoenix, Arizona
Authors: Philip Colangelo, Ayse K. Coskun, Jack Megrue, Ciaran Roberts, Shayan Sengupta, Varun Sivaram, Ethan Tiao, Aroon Vijaykar, Chris Williams, Daniel C. Wilson, Zack MacFarland, Daniel Dreiling, Nathan Morey, Anuja Ratnayake, Baskar Vairamohan
URL: https://arxiv.org/abs/2507.00909
요약 (영문): AI is fueling exponential electricity demand growth, threatening grid reliability, raising prices for communities paying for new energy infrastructure . this paper presents the first field demonstration of a software-only approach that transforms AI data centers into flexible grid resources that can efficiently and immediately .
요약 (한글): AI는 기하급수적인 전력 수요 증가를 촉진하고 그리드 안정성을 위협하며 새로운 에너지 인프라에 비용을 지불하는 지역 사회의 가격을 인상하고 있습니다. 이 백서에서는 AI 데이터 센터를 효율적이고 즉각적으로 유연한 그리드 리소스로 전환하는 소프트웨어 전용 접근 방식의 첫 번째 현장 데모를 소개합니다.
20. The Age of Sensorial Zero Trust: Why We Can No Longer Trust Our Senses
Authors: Fabio Correa Xavier
URL: https://arxiv.org/abs/2507.00907
요약 (영문): sensorial zero trust is a new security mindset . the concept is based on generative artificial intelligence . this article presents a scientific analysis of the need to systematically doubt information .
요약 (한글): 감각적 제로 트러스트는 새로운 보안 사고방식입니다. 이 개념은 생성적 인공 지능을 기반으로 합니다. 이 기사에서는 정보를 체계적으로 의심할 필요성에 대한 과학적 분석을 제시합니다.
21. Deep learning-based segmentation of T1 and T2 cardiac MRI maps for automated disease detection
Authors: Andreea Bianca Popescu, Andreas Seitz, Heiko Mahrholdt, Jens Wetzl, Athira Jacob, Lucian Mihai Itu, Constantin Suciu, Teodora Chitiboi
URL: https://arxiv.org/abs/2507.00903
요약 (영문): traditional approaches relying on average relaxation values and single cutoffs may oversimplify myocardial complexity . this study evaluates whether deep learning can achieve segmentation accuracy comparable to inter-observer variability .
요약 (한글): 평균 이완 값과 단일 컷오프에 의존하는 기존 접근 방식은 심근 복잡성을 지나치게 단순화할 수 있습니다. 이 연구는 딥러닝이 관찰자 간 변동성에 필적하는 세분화 정확도를 달성할 수 있는지 평가합니다.
22. Constellation as a Service: Tailored Connectivity Management in Direct-Satellite-to-Device Networks
Authors: Feng Wang, Shengyu Zhang, Een-Kee Hong, Tony Q.S. Quek
URL: https://arxiv.org/abs/2507.00902
요약 (영문): direct-satellite-to-device communication is emerging as a promising solution for global mobile service extension . however, the challenge of managing DS2D connectivity for multi-constellations becomes outstanding . existing approaches operate within single-contellation shell, which inherently limits the ability to e-mail .
요약 (한글): 위성 간 직접 통신은 글로벌 모바일 서비스 확장을 위한 유망한 솔루션으로 부상하고 있지만, 다중 별자리에 대한 DS2D 연결 관리의 어려움이 두드러지고 있습니다. 기존 접근 방식은 단일 별자리 쉘 내에서 작동하므로 본질적으로 이메일 기능이 제한됩니다.
23. MemeCMD: An Automatically Generated Chinese Multi-turn Dialogue Dataset with Contextually Retrieved Memes
Authors: Yuheng Wang, Xianhe Tang, Pufeng Huang
URL: https://arxiv.org/abs/2507.00891
요약 (영문): memes are widely used in online social interactions, providing vivid, intuitive, and often humorous means to express intentions and emotions . existing dialogue datasets are limited to either manually annotated or pure-text conversations .
요약 (한글): 밈은 온라인 소셜 상호작용에서 널리 사용되며, 의도와 감정을 표현하는 생생하고 직관적이며 종종 유머러스한 수단을 제공합니다. 기존의 대화 데이터 세트는 수동으로 주석을 달거나 순수 텍스트 대화로 제한되어 있습니다.
24. NN-Former: Rethinking Graph Structure in Neural Architecture Representation
요약 (영문): Graph Neural Networks (GNNs) and transformers have shown promising performance in representing neural architectures . each method has its disadvantages, while transformers face poor generalization when the depth of architecture grows .
요약 (한글): 그래프 신경망(GNN)과 트랜스포머는 신경 아키텍처를 표현하는 데 유망한 성능을 보여주었습니다. 각 방법에는 단점이 있으며, 트랜스포머는 아키텍처의 깊이가 커질 때 일반화가 잘 되지 않는 단점이 있습니다.
25. Stylometry recognizes human and LLM-generated texts in short samples
Authors: Karol Przystalski, Jan K. Argasiński, Iwona Grabska-Gradzińska, Jeremi K. Ochab
URL: https://arxiv.org/abs/2507.00838
요약 (영문): the paper explores stylometry as a method to distinguish between texts created by Large Language Models (LLMs) and humans . the method is used extensively to characterise the style and attribute authorship of texts .
요약 (한글): 이 논문에서는 대규모 언어 모델(LLM)과 사람이 만든 텍스트를 구별하는 방법으로서 스타일 메트릭을 탐구합니다. 이 방법은 텍스트의 스타일을 특성화하고 저작자를 파악하는 데 광범위하게 사용됩니다.
26. HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning
요약 (영문): video multimodal Large Language Models (V-MLLMs) have shown impressive capabilities in temporal reasoning and cross-modal understanding . their vulnerability to adversarial attacks remains underexplored due to unique challenges .
요약 (한글): 비디오 멀티모달 대규모 언어 모델(V-MLLM)은 시간적 추론과 모달 간 이해에서 인상적인 능력을 보여 왔지만, 고유한 문제로 인해 적대적 공격에 대한 취약성은 아직 밝혀지지 않았습니다.
29. PI-WAN: A Physics-Informed Wind-Adaptive Network for Quadrotor Dynamics Prediction in Unknown Environments
Authors: Mengyun Wang, Bo Wang, Yifeng Niu, Chang Wang
URL: https://arxiv.org/abs/2507.00816
요약 (영문): traditional knowledge-driven modeling methods face substantial limitations in unknown environments . data-driven models suffer from poor generalization when handling out-of-distribution data, restricting effectiveness in unknown scenarios .
요약 (한글): 기존의 지식 기반 모델링 방법은 알 수 없는 환경에서 상당한 한계에 직면합니다. 데이터 기반 모델은 분산되지 않은 데이터를 처리할 때 일반화가 제대로 이루어지지 않아 알 수 없는 시나리오에서 효율성이 제한됩니다.
30. Many LLMs Are More Utilitarian Than One
Authors: Anita Keshmirian, Razan Baltaji, Babak Hemmatian, Hadi Asghari, Lav R. Varshney
URL: https://arxiv.org/abs/2507.00814
요약 (영문): moral judgment is integral to large language model (LLM) alignment and social reasoning . we study whether a similar dynamic emerges in multi-agent LLM systems .
요약 (한글): 도덕적 판단은 대규모 언어 모델(LLM) 정렬과 사회적 추론에 필수적인 요소입니다. 우리는 다중 에이전트 LLM 시스템에서도 유사한 역학 관계가 나타나는지 연구합니다.
요약 (영문): unified image restoration is a significantly challenging task in low-level vision . existing methods either make tailored designs for specific tasks . rely on training with paired datasets, thereby suffering from closed-set constraints .
요약 (한글): 통합 이미지 복원은 로우 레벨 비전에서 상당히 어려운 작업입니다. 기존 방법은 특정 작업에 맞게 설계하거나, 페어링된 데이터 세트를 사용한 훈련에 의존하므로 폐쇄된 세트의 제약이 있습니다.
32. Echoes of AI: Investigating the Downstream Effects of AI Assistants on Software Maintainability
Authors: Markus Borg, Dave Hewett, Nadim Hagatulah, Noric Couderc, Emma Söderberg, Donald Graham, Uttam Kini, Dave Farley
URL: https://arxiv.org/abs/2507.00788
요약 (영문): 151 participants participated in a two-phase controlled experiment . 95% of the participants were psd . the study was conducted by a team of experts .
요약 (한글): 151명의 참가자가 2단계 통제 실험에 참여했습니다 . 참가자의 95%가 PSD였습니다 . 이 연구는 전문가 팀에 의해 수행되었습니다 .
33. LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing
Authors: Daniel Fein, Sebastian Russo, Violet Xiang, Kabir Jolly, Rafael Rafailov, Nick Haber
URL: https://arxiv.org/abs/2507.00769
요약 (영문): litBench is the first standardized benchmark and paired dataset for creative writing verification . it includes a held-out test set of 2,480 words .
요약 (한글): litBench는 창의적 글쓰기 검증을 위한 최초의 표준화된 벤치마크 및 짝을 이루는 데이터 세트입니다. 여기에는 2,480개의 단어로 구성된 홀드아웃 테스트 세트가 포함되어 있습니다.
34. LearnAFE: Circuit-Algorithm Co-design Framework for Learnable Audio Analog Front-End
요약 (영문): this paper presents a circuit-algorithm co-design framework for learnable analog front-end (AFE) in audio signal classification . it proposes a joint optimization of the backend classifier with the AFE’s transfer function to achieve system-level optimum .
요약 (한글): 본 논문에서는 오디오 신호 분류에서 학습 가능한 아날로그 프론트엔드(AFE)를 위한 회로-알고리즘 공동 설계 프레임워크를 제시하고, 시스템 수준의 최적화를 달성하기 위해 AFE의 전달 함수와 함께 백엔드 분류기의 공동 최적화를 제안합니다.
35. TopoStreamer: Temporal Lane Segment Topology Reasoning in Autonomous Driving
요약 (영문): lane segment topology reasoning constructs a comprehensive road network . this enables end-to-end autonomous driving systems to perform road-dependent maneuvers . but the limitations in consistent positional embedding and temporal multiple attribute learning hinder accurate roadnet reconstruction .
요약 (한글): 차선 세그먼트 토폴로지 추론은 포괄적인 도로 네트워크를 구성하여 엔드투엔드 자율 주행 시스템이 도로에 의존적인 기동을 수행할 수 있도록 하지만 일관된 위치 임베딩과 시간적 다중 속성 학습의 한계로 인해 정확한 도로망 재구성을 방해합니다.
36. Audio-3DVG: Unified Audio - Point Cloud Fusion for 3D Visual Grounding
Authors: Duc Cao-Dinh, Khai Le-Duc, Anh Dao, Bach Phan Tat, Chris Ngo, Duy M. H. Nguyen, Nguyen X. Khanh, Thanh Nguyen-Tang
URL: https://arxiv.org/abs/2507.00669
요약 (영문): 3D Visual Grounding (3DVG) involves localizing target objects in 3D point clouds based on natural language . audio-based 3D visual grounding-remains underexplored and challenging .
요약 (한글): 3D 시각적 그라운딩(3DVG)은 자연어를 기반으로 3D 포인트 클라우드에서 대상 객체를 로컬라이즈하는 것으로, 오디오 기반 3D 시각적 그라운딩은 아직 미개척 분야로 남아 있으며 도전 과제로 남아 있습니다.
37. SAFER: Probing Safety in Reward Models with Sparse Autoencoder
Authors: Sihang Li, Wei Shi, Ziyuan Xie, Tao Liang, Guojun Ma, Xiang Wang
URL: https://arxiv.org/abs/2507.00665
요약 (영문): sparse Autoencoder for Enhanced Reward model is a novel framework for interpreting and improving reward models through mechanistic analysis . we uncover human-interpretable features in reward model activations, enabling insight into safety-relevant features .
요약 (한글): 향상된 보상 모델을 위한 스파스 자동 인코더는 기계론적 분석을 통해 보상 모델을 해석하고 개선하기 위한 새로운 프레임워크입니다. 보상 모델 활성화에서 사람이 해석할 수 있는 특징을 발견하여 안전 관련 기능에 대한 인사이트를 얻을 수 있습니다.
38. MTCNet: Motion and Topology Consistency Guided Learning for Mitral Valve Segmentationin 4D Ultrasound
요약 (영문): four-dimensional (4D) ultrasound has emerged as the primary imaging modality for assessing dynamic valvular morphology . but 4D mitral valve analysis remains challenging due to limited phase annotations, severe motion artifacts, and poor imaging quality . to bridge this gap, we propose a Motion-Topology guided consistency network (MTCNet).
요약 (한글): 4차원(4D) 초음파는 동적 판막 형태를 평가하는 주요 영상 기법으로 부상했지만 제한된 위상 주석, 심각한 모션 아티팩트, 낮은 영상 품질로 인해 4D 승모판막 분석이 여전히 어려운 상황입니다. 이러한 격차를 해소하기 위해 모션 토폴로지 유도 일관성 네트워크(MTCNet)를 제안합니다.
39. Generative Exaggeration in LLM Social Agents: Consistency, Bias, and Toxicity
Authors: Jacopo Nudo, Mario Edoardo Pandolfo, Edoardo Loru, Mattia Samory, Matteo Cinelli, Walter Quattrociocchi
URL: https://arxiv.org/abs/2507.00657
요약 (영문): we construct LLM agents based on 1,186 real users . agents are initialized either with minimal ideological cues (Zero Shot) or recent tweet history (Few Shot), allowing one-to-one comparisons .
요약 (한글): 1,186명의 실제 사용자를 기반으로 LLM 에이전트를 구축합니다. 에이전트는 최소한의 이념적 단서(제로 샷) 또는 최근 트윗 기록(몇 샷)으로 초기화되어 일대일 비교가 가능합니다.
40. Cognitive Load-Aware Inference: A Neuro-Symbolic Framework for Optimizing the Token Economy of Large Language Models
Authors: Yilun Zhang
URL: https://arxiv.org/abs/2507.00653
요약 (영문): existing optimization strategies are effective, but lack a guiding cognitive theory to manage the inference process itself . this paper aims to bridge this gap by introducing a novel paradigm: the Cognitive Load-Aware Inference framework .
요약 (한글): 기존의 최적화 전략은 효과적이지만 추론 과정 자체를 관리할 수 있는 인지 이론이 부족합니다. 이 논문은 새로운 패러다임인 인지 부하 인식 추론 프레임워크를 도입하여 이러한 격차를 해소하는 것을 목표로 합니다.
41. Horus: A Protocol for Trustless Delegation Under Uncertainty
Authors: David Shi, Kevin Joo
URL: https://arxiv.org/abs/2507.00631
요약 (영문): correctness is an emergent property of systems where exposing error is cheaper than committing it . in dynamic, low-trust environments, autonomous AI agents benefit from delegating work to sub-agents .
요약 (한글): 정확성은 오류를 노출하는 것이 오류를 저지르는 것보다 비용이 적게 드는 시스템의 속성입니다. 동적이고 신뢰도가 낮은 환경에서는 자율 AI 에이전트가 하위 에이전트에 작업을 위임하는 것이 유리합니다.
42. Physics-Informed Neural ODEs for Temporal Dynamics Modeling in Cardiac T1 Mapping
Authors: Nuno Capitão, Yi Zhang, Yidong Zhao, Qian Tao
URL: https://arxiv.org/abs/2507.00613
요약 (영문): conventional Modified Look-Locker Inversion Recovery (MOLLI) acquires 11 breath-hold baseline images with interleaved rest periods to ensure mapping accuracy . however, prolonged scanning can be challenging for patients with poor breathholds .
요약 (한글): 기존의 수정된 룩-락커 반전 복구(MOLLI)는 매핑 정확도를 보장하기 위해 11개의 호흡 유지 기준선 이미지를 획득하고 휴식 기간을 삽입하지만, 호흡 유지가 좋지 않은 환자에게는 장시간 스캔하는 것이 어려울 수 있습니다.
43. Residual Reward Models for Preference-based Reinforcement Learning
Authors: Chenyang Cao, Miguel Rogel-García, Mohamed Nabail, Xueqian Wang, Nicholas Rhinehart
URL: https://arxiv.org/abs/2507.00611
요약 (영문): preference-based Reinforcement Learning (PbRL) provides a way to learn high-performance policies in environments where the reward signal is hard to specify . however, it can suffer from slow convergence speed since it requires training in a reward model .
요약 (한글): 선호도 기반 강화 학습(PbRL)은 보상 신호를 지정하기 어려운 환경에서 고성능 정책을 학습하는 방법을 제공하지만, 보상 모델에 대한 학습이 필요하기 때문에 수렴 속도가 느릴 수 있습니다.
44. Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies
Authors: Tao Xiong, Xavier Hu, Wenyan Fan, Shengyu Zhang
URL: https://arxiv.org/abs/2507.00606
요약 (영문): large language models excel in complex tasks through advanced prompting techniques . but their reliance on manually crafted, task-specific prompts limits adaptability and efficiency . we introduce Mixture of Reasoning .
요약 (한글): 대규모 언어 모델은 고급 프롬프트 기술을 통해 복잡한 작업에 탁월하지만 수동으로 제작된 작업별 프롬프트에 의존하기 때문에 적응성과 효율성이 제한됩니다. 저희는 혼합 추론을 소개합니다.
Authors: Madison Cotteret, Christopher J. Kymn, Hugh Greatorex, Martin Ziegler, Elisabetta Chicca, Friedrich T. Sommer
URL: https://arxiv.org/abs/2507.00598
요약 (영문): continuous attractor networks (CANs) are widely used to model how the brain temporarily retains continuous behavioural variables via persistent recurrent activity . this memory mechanism is very sensitive to even small imperfections, such as noise or heterogeneity .
요약 (한글): 연속 유인자 네트워크(CAN)는 뇌가 지속적인 반복 활동을 통해 지속적인 행동 변수를 일시적으로 유지하는 방식을 모델링하는 데 널리 사용됩니다. 이 메모리 메커니즘은 노이즈나 이질성과 같은 작은 불완전성에도 매우 민감합니다.
46. Quantum Circuit Structure Optimization for Quantum Reinforcement Learning
Authors: Seok Bin Son, Joongheon Kim
URL: https://arxiv.org/abs/2507.00589
요약 (영문): RL enables agents to learn optimal policies through environmental interaction . but RL suffers from reduced learning efficiency due to the curse of dimensionality in high-dimensional spaces .
요약 (한글): RL은 에이전트가 환경 상호작용을 통해 최적의 정책을 학습할 수 있지만, 고차원 공간에서는 차원의 저주로 인해 학습 효율성이 떨어집니다.
47. AI-Generated Video Detection via Perceptual Straightening
Authors: Christian Internò, Robert Geirhos, Markus Olhofer, Sunny Liu, Barbara Hammer, David Klindt
URL: https://arxiv.org/abs/2507.00583
요약 (영문): the rapid advancement of generative AI enables highly realistic synthetic videos . we propose a novel approach to distinguish natural from AI-generated video . the idea suggests real-world video trajectorie .
요약 (한글): 제너레이티브 AI의 급속한 발전으로 매우 사실적인 합성 영상이 가능해졌습니다. 자연스러운 영상과 AI가 생성한 영상을 구분하는 새로운 접근 방식을 제안하고, 실제 영상 궤적을 제안합니다.
48. TUM-MiKaNi at SemEval-2025 Task 3: Towards Multilingual and Knowledge-Aware Non-factual Hallucination Identification
Authors: Miriam Anschütz, Ekaterina Gikalo, Niklas Herbster, Georg Groh
URL: https://arxiv.org/abs/2507.00579
요약 (영문): most of the research on hallucinations focuses on English data, neglecting the multilingual nature of LLMs . this paper describes our submission to the SemEval-2025 Task-3 - Mu-SHROOM .
요약 (한글): 환각에 대한 대부분의 연구는 영어 데이터에 초점을 맞추고 있으며, LLM의 다국어 특성을 무시하고 있습니다. 이 논문에서는 SemEval-2025 Task-3 - Mu-SHROOM 에 제출한 내용을 설명합니다.
49. BadViM: Backdoor Attack against Vision Mamba
Authors: Yinghao Wu, Liyan Zhang
URL: https://arxiv.org/abs/2507.00577
요약 (영문): the security implications of this novel architecture remain critically underexplored . backdoor attacks aim to embed hidden triggers into victim models . model misclassifies inputs containing triggers while maintaining normal behavior .
요약 (한글): 백도어 공격은 숨겨진 트리거를 피해자 모델에 삽입하는 것을 목표로 하며, 모델은 정상 동작을 유지하면서 트리거가 포함된 입력을 잘못 분류합니다.
50. Inverse Design in Nanophotonics via Representation Learning
Authors: Reza Marzban, Ali Adibi, Raphael Pestourie
URL: https://arxiv.org/abs/2507.00546
요약 (영문): traditional intuition-driven or iterative optimization methods struggle with the inherently high-dimensional, non-convex design spaces and the substantial computational demands of EM simulations . machine learning has emerged to address these bottlenecks effectively .
요약 (한글): 기존의 직관 중심 또는 반복적 최적화 방법은 본질적으로 고차원의 비볼록한 설계 공간과 EM 시뮬레이션의 막대한 계산 수요로 인해 어려움을 겪습니다. 이러한 병목 현상을 효과적으로 해결하기 위해 머신 러닝이 등장했습니다.
51. Not All Attention Heads Are What You Need: Refining CLIP’s Image Representation with Attention Ablation
Authors: Feng Lin, Marco Chen, Haokui Zhang, Xiaotian Yu, Guangming Lu, Rong Xiao
URL: https://arxiv.org/abs/2507.00537
요약 (영문): this paper studies the role of attention heads in CLIP’s image encoder . we hypothesize that certain attention heads negatively affect final representations and that ablating them can improve performance .
요약 (한글): 이 논문은 CLIP의 이미지 인코더에서 주의 헤드의 역할을 연구합니다. 특정 주의 헤드가 최종 표현에 부정적인 영향을 미치고 이를 제거하면 성능을 향상시킬 수 있다는 가설을 세웁니다.
52. Rethinking Group Recommender Systems in the Era of Generative AI: From One-Shot Recommendations to Agentic Group Decision Support
Authors: Dietmar Jannach, Amra Delić, Francesco Ricci, Markus Zanker
URL: https://arxiv.org/abs/2507.00535
요약 (영문): more than 25 years ago, first ideas were developed on how to design a system that can provide recommendations to groups of users . despite the rich literature on the topic, barely any examples of real-world group recommender systems can be found .
요약 (한글): 25 년 이상 전에 사용자 그룹에 추천을 제공 할 수있는 시스템을 설계하는 방법에 대한 첫 번째 아이디어가 개발되었습니다 . 주제에 대한 풍부한 문헌에도 불구하고 실제 그룹 추천 시스템의 예는 거의 찾을 수 없습니다.
53. Box-QAymo: Box-Referring VQA Dataset for Autonomous Driving
Authors: Djamahl Etchegaray, Yuxia Fu, Zi Huang, Yadan Luo
URL: https://arxiv.org/abs/2507.00525
요약 (영문): existing vision-language models often struggle to capture user intent in real-world scenarios . box-QAymo is a box-referring dataset and benchmark designed to evaluate and evaluate user-driven queries .
요약 (한글): 기존 비전 언어 모델은 실제 시나리오에서 사용자 의도를 파악하는 데 어려움을 겪는 경우가 많습니다. box-QAymo는 사용자 중심 쿼리를 평가하고 평가하도록 설계된 박스 참조 데이터 세트 및 벤치마크입니다.
54. Customer Service Representative’s Perception of the AI Assistant in an Organization’s Call Center
Authors: Kai Qin, Kexin Du, Yimeng Chen, Yueyan Liu, Jie Cai, Zhiqiang Nie, Nan Gao, Guohui Wei, Shengzhu Wang, Chun Yu
URL: https://arxiv.org/abs/2507.00513
요약 (영문): a field visit and semi-structured interviews with 13 CSRs found that AI can alleviate some traditional burdens during the call (e.g., typing and memorizing)
요약 (한글): 13개 CSR을 대상으로 한 현장 방문 및 반구조화 인터뷰 결과, AI가 통화 중 일부 전통적인 업무 부담(예: 타이핑 및 암기)을 덜어줄 수 있는 것으로 나타났습니다.
55. TeamCMU at Touché: Adversarial Co-Evolution for Advertisement Integration and Detection in Conversational Search
Authors: To Eun Kim, João Coelho, Gbemileke Onilude, Jai Singh
URL: https://arxiv.org/abs/2507.00509
요약 (영문): the integration of advertisements into generated responses presents both commercial opportunities and challenges for user experience . generative systems blur the boundary between informational content and promotional material, raising concerns around transparency and trust .
요약 (한글): 생성된 반응에 광고를 통합하면 상업적 기회와 사용자 경험에 대한 과제가 동시에 발생합니다. 생성 시스템은 정보 콘텐츠와 홍보 자료 사이의 경계를 모호하게 만들어 투명성과 신뢰에 대한 우려를 불러일으킵니다.
56. Visual Anagrams Reveal Hidden Differences in Holistic Shape Processing Across Vision Models
Authors: Fenil R. Doshi, Thomas Fel, Talia Konkle, George Alvarez
URL: https://arxiv.org/abs/2507.00493
요약 (영문): work on shape-vs-texture bias has pitted shape and texture representations in opposition . models are able to recognize objects based on both local texture cues and the configuration of object parts .
요약 (한글): 모양 대 텍스처 편향에 대한 작업은 모양과 텍스처 표현이 서로 대립되어 있으며, 모델은 로컬 텍스처 단서와 객체 부분의 구성 모두에 기반하여 객체를 인식할 수 있습니다.
57. Twill: Scheduling Compound AI Systems on Heterogeneous Mobile Edge Platforms
Authors: Zain Taufique, Aman Vyas, Antonio Miele, Pasi Liljeberg, Anil Kanduri
URL: https://arxiv.org/abs/2507.00491
요약 (영문): cAI systems are typically composed of deep neural networks (DNNs), transformers, and large language models (LLMs), exhibiting a high degree of computational diversity and dynamic workload variation . existing mobile edge AI inference strategies manag .
요약 (한글): cAI 시스템은 일반적으로 심층 신경망(DNN), 트랜스포머, 대규모 언어 모델(LLM)로 구성되어 높은 수준의 계산 다양성과 동적 워크로드 변화를 나타내며, 기존 모바일 엣지 AI 추론 전략은 .
58. PNAct: Crafting Backdoor Attacks in Safe Reinforcement Learning
Authors: Weiran Guo, Guanjun Liu, Ziyuan Zhou, Ling Wang
URL: https://arxiv.org/abs/2507.00485
요약 (영문): Reinforcement Learning (RL) is widely used in tasks where agents interact with an environment to maximize rewards . a cost metric and reward metric are used to ensure agents adhere to safety constraints during decision-making .
요약 (한글): 강화 학습(RL)은 에이전트가 환경과 상호작용하여 보상을 극대화하는 작업에 널리 사용되며, 비용 메트릭과 보상 메트릭을 사용하여 에이전트가 의사 결정 중에 안전 제약 조건을 준수하도록 보장합니다.
59. Physics-Aware Style Transfer for Adaptive Holographic Reconstruction
Authors: Chanseok Lee, Fakhriyya Mammadova, Jiseong Barg, Mooseok Jang
URL: https://arxiv.org/abs/2507.00482
요약 (영문): inline holographic imaging presents an ill-posed problem of reconstructing objects’ complex amplitude from recorded diffraction patterns . physics-aware style transfer approach interprets the object-to-sensor distance as a statistical inverse mapping operation between the two domains .
요약 (한글): 인라인 홀로그램 이미징은 기록된 회절 패턴에서 물체의 복잡한 진폭을 재구성하는 어려운 문제를 안고 있으며, 물리학 인식 스타일 전송 방식은 물체와 센서 간 거리를 두 영역 간의 통계적 역매핑 작업으로 해석합니다.
요약 (영문): Random Forest is a widely used ensemble learning technique known for its robust classification performance across diverse domains . however, it often relies on hundreds of trees and all input features, leading to high inference cost and model redundancy .
요약 (한글): 랜덤 포레스트는 다양한 영역에서 강력한 분류 성능으로 널리 사용되는 앙상블 학습 기법이지만, 수백 개의 트리와 모든 입력 특징에 의존하는 경우가 많아 추론 비용과 모델 중복성이 높다는 단점이 있습니다.
61. Novel Complex-Valued Hopfield Neural Networks with Phase and Magnitude Quantization
요약 (영문): the first CvHNN employs a ceiling-type activation function that operates on the rectangular coordinate representation of the complex net contribution . the second combines phase and magnitude quantization .
요약 (한글): 첫 번째 CvHNN은 복소 순 기여도의 직사각형 좌표 표현에서 작동하는 천장형 활성화 함수를 사용하며, 두 번째는 위상 및 크기 양자화를 결합합니다.
62. Process-aware and high-fidelity microstructure generation using stable diffusion
Authors: Hoang Cuong Phan, Minh Tien Tran, Chihun Lee, Hoheok Kim, Sehyok Oh, Dong-Kyu Kim, Ho Won Lee
URL: https://arxiv.org/abs/2507.00459
요약 (영문): to overcome these challenges, we present a novel process-aware generative modeling approach . based on a state-of-the-art text-to-image diffusion model .
요약 (한글): 이러한 문제를 극복하기 위해 최첨단 텍스트-이미지 확산 모델을 기반으로 하는 새로운 프로세스 인식 제너레이티브 모델링 접근 방식을 제시합니다.
63. ATSTrack: Enhancing Visual-Language Tracking by Aligning Temporal and Spatial Scales
요약 (영문): previous trackers have explored many effective feature modification methods . but an important yet unexplored factor ultimately hinders their capability . to address this issue, we propose a novel visual-langua .
요약 (한글): 이전 트래커들은 많은 효과적인 기능 수정 방법을 탐구해 왔지만, 중요하지만 아직 탐구되지 않은 요소가 궁극적으로 그 기능을 방해합니다. 이 문제를 해결하기 위해, 우리는 새로운 시각적 언어 를 제안합니다.
64. Best Agent Identification for General Game Playing
Authors: Matthew Stephenson, Alex Newcombe, Eric Piette, Dennis Soemers
URL: https://arxiv.org/abs/2507.00451
요약 (영문): our approach treats this as a set of best arm identification problems for multi-armed bandits . each bandit corresponds to a specific task and each arm corresponds . we propose an optimistic selection process based on the Wilson score interval (Optimistic-WS)
요약 (한글): 우리의 접근 방식은 이를 다중 무장 도적에 대한 최적의 팔 식별 문제 집합으로 취급합니다. 각 도적은 특정 작업에 해당하고 각 팔은 이에 해당합니다. 우리는 윌슨 점수 간격(Optimistic-WS)에 기반한 낙관적 선택 프로세스를 제안합니다.
65. Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design
Authors: Xingyu Su, Xiner Li, Masatoshi Uehara, Sunwoo Kim, Yulai Zhao, Gabriele Scalia, Ehsan Hajiramezanali, Tommaso Biancalani, Degui Zhi, Shuiwang Ji
URL: https://arxiv.org/abs/2507.00445
요약 (영문): diffusion models have proven highly effective in modeling complex, high-dimensional data distributions . real-world applications often require more than high-fidelity generation . RL methods have been explored to fine-tune diffusi .
요약 (한글): 확산 모델은 복잡한 고차원 데이터 분포를 모델링하는 데 매우 효과적인 것으로 입증되었습니다. 실제 애플리케이션은 종종 고충실도 생성 이상의 것을 요구합니다. 확산을 미세 조정하기 위해 RL 방법이 모색되었습니다.
66. Novel Pigeon-inspired 3D Obstacle Detection and Avoidance Maneuver for Multi-UAV Systems
Authors: Reza Ahmadvand, Sarah Safura Sharif, Yaser Mike Banad
URL: https://arxiv.org/abs/2507.00443
요약 (영문): recent advances in multi-agent systems manipulation have demonstrated a rising demand for the implementation of multi-UAV systems in urban areas . the focus of the presented research is on the introduction of a nature-inspired collision-free formation control for a multi-uAV system .
요약 (한글): 최근 다중 에이전트 시스템 조작의 발전으로 도시 지역에서 다중 무인 항공기 시스템 구현에 대한 수요가 증가하고 있습니다. 본 연구의 초점은 다중 무인 항공기 시스템을 위한 자연에서 영감을 얻은 충돌 없는 대형 제어의 도입에 있습니다.
67. A Recipe for Causal Graph Regression: Confounding Effects Revisited
요약 (영문): causal graph learning (CGL) has risen to be a promising approach for improving the generalizability of graph neural networks under out-of-distribution scenarios . however, the empirical successes of CGL techniques are mostly exemplified in classification settings .
요약 (한글): 인과적 그래프 학습(CGL)은 분포 외 시나리오에서 그래프 신경망의 일반화 가능성을 개선하는 유망한 접근법으로 부상했습니다. 그러나 CGL 기법의 경험적 성공은 대부분 분류 설정에서 예시됩니다.
68. RoboEval: Where Robotic Manipulation Meets Structured and Scalable Evaluation
Authors: Yi Ru Wang, Carter Ung, Grant Tannert, Jiafei Duan, Josephine Li, Amy Le, Rishabh Oswal, Markus Grotz, Wilbert Pumacay, Yuquan Deng, Ranjay Krishna, Dieter Fox, Siddhartha Srinivasa
URL: https://arxiv.org/abs/2507.00435
요약 (영문): prior benchmarks report only binary task success . such metrics often conceal critical weaknesses in policy behavior . we present a simulation benchmark and structured evaluation framework .
요약 (한글): 이전 벤치마크는 이분법적인 작업 성공만을 보고합니다. 이러한 지표는 종종 정책 동작의 중요한 약점을 숨깁니다. 우리는 시뮬레이션 벤치마크와 구조화된 평가 프레임워크를 제시합니다.
69. Geological Everything Model 3D: A Promptable Foundation Model for Unified and Zero-Shot Subsurface Understanding
Authors: Yimin Dou, Xinming Wu, Nathan L Bangs, Harpreet Singh Sethi, Jintao Li, Hang Gao, Zhixiang Guo
URL: https://arxiv.org/abs/2507.00419
요약 (영문): subsurface analysis remains fragmented, with separate models required for structural interpretation, stratigraphic analysis, geobody segmentation, and property modeling-each tightly coupled to specific data distributions and task formulations .
요약 (한글): 지표면 분석은 구조 해석, 지층 분석, 지오바디 세분화, 속성 모델링에 각각 특정 데이터 분포 및 작업 공식에 긴밀하게 연결된 별도의 모델이 필요한 등 여전히 파편화되어 있습니다.
70. Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and High-Performance GPUs
Authors: Mohammad Firas Sada, John J. Graham, Elham E Khoda, Mahidhar Tatineni, Dmitry Mishin, Rajesh K. Gupta, Rick Wagner, Larry Smarr, Thomas A. DeFanti, Frank Würthwein
URL: https://arxiv.org/abs/2507.00418
요약 (영문): a total of 15 open-source LLMs, ranging from 117 million to 90 billion parameters, are served using the vLLM framework . the QAic inference cards appear to be energy efficient .
요약 (한글): 1억 1,700만 개에서 900억 개의 파라미터에 이르는 총 15개의 오픈 소스 LLM이 vLLM 프레임워크를 사용하여 제공되며, QAic 추론 카드가 에너지 효율이 높은 것으로 보입니다.
71. Augmenting Molecular Graphs with Geometries via Machine Learning Interatomic Potentials
요약 (영문): molecular property predictions require 3D geometries . MLIP foundation models are trained with supervised learning to predict energy and forces given .
요약 (한글): 분자 특성 예측에는 3D 지오메트리가 필요합니다. MLIP 기초 모델은 주어진 에너지와 힘을 예측하기 위해 지도 학습으로 훈련됩니다.
72. iPanda: An Intelligent Protocol Testing and Debugging Agent for Conformance Testing
Authors: Xikai Sun, Fan Dang, Kebin Liu, Xin Miao, Zihao Yang, Haimo Lu, Yawen Zheng, Yunhao Liu
URL: https://arxiv.org/abs/2507.00378
요약 (영문): large language models (LLMs) have demonstrated impressive text comprehension and code generation abilities . this paper proposes iPanda, the first end-to-end framework that leverages LLMs .
요약 (한글): 대규모 언어 모델(LLM)은 인상적인 텍스트 이해 및 코드 생성 능력을 보여주었습니다. 이 백서에서는 LLM을 활용하는 최초의 엔드투엔드 프레임워크인 iPanda를 제안합니다.
73. Data-Driven Exploration for a Class of Continuous-Time Linear–Quadratic Reinforcement Learning Problems
Authors: Yilie Huang, Xun Yu Zhou
URL: https://arxiv.org/abs/2507.00358
요약 (영문): we propose a model-free, data-driven exploration mechanism that adaptively adjusts entropy regularization by the critic and policy variance by the actor .
요약 (한글): 우리는 비평가에 의한 엔트로피 정규화와 행위자에 의한 정책 분산을 적응적으로 조정하는 모델 없는 데이터 기반 탐색 메커니즘을 제안합니다.
74. CGEarthEye:A High-Resolution Remote Sensing Vision Foundation Model Based on the Jilin-1 Satellite Constellation
요약 (영문): deep learning methods have significantly advanced the development of intelligent rinterpretation in remote sensing (RS), with foundational model research based on large-scale pre-training paradigms rapidly reshaping various domains of Earth Observation (EO) limited acquisition channels for ultra-high-resolution optical RS imagery have constrained the progress of high resolution vision .
요약 (한글): 딥러닝 방법은 원격 감지(RS)에서 지능형 재해석 개발을 크게 발전시켰으며, 대규모 사전 학습 패러다임에 기반한 기초 모델 연구가 지구 관측(EO)의 다양한 영역을 빠르게 재구성하고 있습니다. 초고해상도 광학 RS 이미지의 제한된 획득 채널은 고해상도 비전 발전에 제약이 되었습니다.
75. An AST-guided LLM Approach for SVRF Code Synthesis
Authors: Abanoub E. Abdelmalak, Mohamed A. Elsayed, David Abercrombie, Ilhami Torunoglu
URL: https://arxiv.org/abs/2507.00352
요약 (영문): standard verification rule format (SVRF) is essential for semiconductor applications like Design Rule Check (DRC), Layout Versus Schematic (LVS) and Optical Proximity Correction (OPC) it faces challenges as advancing nodes create complex design rules that render traditional SVRF development ineffective .
요약 (한글): 표준 검증 규칙 형식(SVRF)은 설계 규칙 검사(DRC), 레이아웃 대 회로도(LVS) 및 광학 근접 보정(OPC)과 같은 반도체 애플리케이션에 필수적이지만, 노드의 발전으로 인해 기존 SVRF 개발이 비효율적으로 되는 복잡한 설계 규칙이 생성되면서 문제에 직면하고 있습니다.
76. VTS-Guided AI Interaction Workflow for Business Insights
Authors: Sun Ding, Ude Enebeli, Atilhan (Ati)Manay, Ryan Pua, Kamal Kotak
URL: https://arxiv.org/abs/2507.00347
요약 (영문): VTS-AI works in three tiers (micro, meso, macro) so agents can extract business insights from unstructured text, tables, and images at scale . it tags issues, links them to source .
요약 (한글): VTS-AI는 세 가지 계층(마이크로, 메조, 매크로)으로 작동하므로 상담원이 비정형 텍스트, 표 및 이미지에서 대규모로 비즈니스 인사이트를 추출할 수 있으며, 이슈에 태그를 지정하고 소스에 연결합니다.
77. Training for X-Ray Vision: Amodal Segmentation, Amodal Content Completion, and View-Invariant Object Representation from Multi-Camera Video
Authors: Alexander Moore, Amar Saini, Kylie Cancilla, Doug Poland, Carmen Carrano
URL: https://arxiv.org/abs/2507.00339
요약 (영문): MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content is the largest amodal segmentation dataset to date . no data has provided an additional dimension for object context .
요약 (한글): MOVi-MC-AC: 멀티 카메라 및 아모달 콘텐츠가 포함된 다중 객체 비디오는 현재까지 가장 큰 아모달 세그먼테이션 데이터 세트입니다. 객체 컨텍스트에 대한 추가 차원을 제공한 데이터는 없습니다.