核物理<bold>AI</bold>研究助手与<bold>arXiv</bold>向量数据库
面对跨学科科学文献的指数级增长与现有检索系统的局限性,本研究基于arXiv平台266万篇论文数据集,创新开发了融合向量语义检索与大型语言模型(Large Language Model,LLM)分析的智能系统。通过构建论文向量数据库实现语义相似性初筛,结合LLM上下文推理优化排序,有效解决了传统关键词搜索的语义鸿沟问题以及LLM的幻觉问题。在核物理领域的应用表明,该系统能精准定位跨学科解决方案,对比特定任务上的关键词检索和向量相似度检索,前10篇文献的查全率从10%跃升到60%,查准率从20%跃升到90%。项目开源提供三大核心模块:1)全量论文向量数据库;2)智能检索优化框架(含查询生成、相关性...
Saved in:
| Main Author: | |
|---|---|
| Format: | Article |
| Language: | zho |
| Published: |
Science Press
2025-05-01
|
| Series: | He jishu |
| Subjects: | |
| Online Access: | https://www.sciengine.com/doi/10.11889/j.0253-3219.2025.hjs.48.250108 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| _version_ | 1849689721281708032 |
|---|---|
| author | 庞 龙刚 |
| author_facet | 庞 龙刚 |
| author_sort | 庞 龙刚 |
| collection | DOAJ |
| description | 面对跨学科科学文献的指数级增长与现有检索系统的局限性,本研究基于arXiv平台266万篇论文数据集,创新开发了融合向量语义检索与大型语言模型(Large Language Model,LLM)分析的智能系统。通过构建论文向量数据库实现语义相似性初筛,结合LLM上下文推理优化排序,有效解决了传统关键词搜索的语义鸿沟问题以及LLM的幻觉问题。在核物理领域的应用表明,该系统能精准定位跨学科解决方案,对比特定任务上的关键词检索和向量相似度检索,前10篇文献的查全率从10%跃升到60%,查准率从20%跃升到90%。项目开源提供三大核心模块:1)全量论文向量数据库;2)智能检索优化框架(含查询生成、相关性分析等智能体);3)PDF深度解析工具链。本研究突破性地将语义检索与LLM推理相结合,为应对知识爆炸时代的科研挑战提供了可扩展的解决方案(开源地址:<ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="https://gitee.com/lgpang/arxiv_vectordb">https://gitee.com/lgpang/arxiv_vectordb</ext-link>)。 |
| format | Article |
| id | doaj-art-546f17177ff0444a8bc560c7bf6acfe1 |
| institution | DOAJ |
| issn | 0253-3219 |
| language | zho |
| publishDate | 2025-05-01 |
| publisher | Science Press |
| record_format | Article |
| series | He jishu |
| spelling | doaj-art-546f17177ff0444a8bc560c7bf6acfe12025-08-20T03:21:31ZzhoScience PressHe jishu0253-32192025-05-014810.11889/j.0253-3219.2025.hjs.48.2501080d899a51核物理<bold>AI</bold>研究助手与<bold>arXiv</bold>向量数据库庞 龙刚0["华中师范大学 夸克与轻子教育部重点实验室 武汉 430079","华中师范大学 人工智能与计算物理研究中心 武汉 430079"]面对跨学科科学文献的指数级增长与现有检索系统的局限性,本研究基于arXiv平台266万篇论文数据集,创新开发了融合向量语义检索与大型语言模型(Large Language Model,LLM)分析的智能系统。通过构建论文向量数据库实现语义相似性初筛,结合LLM上下文推理优化排序,有效解决了传统关键词搜索的语义鸿沟问题以及LLM的幻觉问题。在核物理领域的应用表明,该系统能精准定位跨学科解决方案,对比特定任务上的关键词检索和向量相似度检索,前10篇文献的查全率从10%跃升到60%,查准率从20%跃升到90%。项目开源提供三大核心模块:1)全量论文向量数据库;2)智能检索优化框架(含查询生成、相关性分析等智能体);3)PDF深度解析工具链。本研究突破性地将语义检索与LLM推理相结合,为应对知识爆炸时代的科研挑战提供了可扩展的解决方案(开源地址:<ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="https://gitee.com/lgpang/arxiv_vectordb">https://gitee.com/lgpang/arxiv_vectordb</ext-link>)。https://www.sciengine.com/doi/10.11889/j.0253-3219.2025.hjs.48.250108arXiv向量数据库大语言模型智能体深度求索AI科学家 |
| spellingShingle | 庞 龙刚 核物理<bold>AI</bold>研究助手与<bold>arXiv</bold>向量数据库 He jishu arXiv向量数据库 大语言模型智能体 深度求索 AI科学家 |
| title | 核物理<bold>AI</bold>研究助手与<bold>arXiv</bold>向量数据库 |
| title_full | 核物理<bold>AI</bold>研究助手与<bold>arXiv</bold>向量数据库 |
| title_fullStr | 核物理<bold>AI</bold>研究助手与<bold>arXiv</bold>向量数据库 |
| title_full_unstemmed | 核物理<bold>AI</bold>研究助手与<bold>arXiv</bold>向量数据库 |
| title_short | 核物理<bold>AI</bold>研究助手与<bold>arXiv</bold>向量数据库 |
| title_sort | 核物理 bold ai bold 研究助手与 bold arxiv bold 向量数据库 |
| topic | arXiv向量数据库 大语言模型智能体 深度求索 AI科学家 |
| url | https://www.sciengine.com/doi/10.11889/j.0253-3219.2025.hjs.48.250108 |
| work_keys_str_mv | AT pánglónggāng héwùlǐboldaiboldyánjiūzhùshǒuyǔboldarxivboldxiàngliàngshùjùkù |