离语(semaphore)_第257章好困好困（2 / 4）_离语最新章节免费阅读无弹窗

本章主要介绍了本项目中使用的四种关键技术与模型。这些技术主要基于大型语言模型，并且

依赖于 RAG 技术的原理。介绍了知识抽取技术，它利用先进的自然语言处理技术从文本中提取有意

义的信息和知识，随后讨论了文本处理中所使用的 RAG 技术，该技术可以显著提高大型语言模型在

专业领域的性能，增强信息检索的准确性和效率。最后探讨了在文本比对过程中所需的相似度计算

方法，这对于评估文本之间的相似程度至关重要。

非结构化文本数据通常非常稀疏，即包含大量的词汇但每个文档只使用其中的一小部分。而结

构化数据则可以通过合并相似信息来降低数据的稀疏性，这有助于生成更加紧凑和有效的嵌入向

量。

结构化数据可以实现更高效的特征提取。结构化数据通常已经按照特定的模式或结构进行了组

织，这使得我们可以更加高效地从中提取有用的特征（如标题、作者、摘要、关键词等）。这些特

征可以作为后续 Embedding 的输入，帮助生成具有更强区分性和泛化能力的嵌入向量。结构化数据

中的元素（如主题、类别、属性等）通常具有明确的含义，这些含义可以在 Embedding 过程中被保

留下来。因此，基于结构化数据的嵌入向量往往具有更强的解释性，有助于我们更好地理解模型的

预测结果和内部机制。

3.4 本章小结

本章介绍了研究所选文献数据的获取来源和途径。通过 Python 爬取的方式获取大部分文献数

据与元数据，对元数据进行基本处理，为后续分析提供帮助，丰富向量知识库的数据储备。随后为

了最大程度提高向量知识库的可信程度，对文献数据进行筛选，选出带有流程图，数据，输入输出

的英文文献，作为最后使用的数据。精细筛选后，使用 Unstructured 库进行数据预处理使其转化

为结构化数据。

向量知识库

向量知识库是一个高效、结构化的数据存储系统，它将各类数据（如文本、图像、音频等）转

化为向量形式进行存储。这种表示方式使得数据之间的相似性和关联性得以量化，从而支持更为精