Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

PRAG: Parametric Retrieval Augmentation Generation Tool for Improving the Performance of Q&A Systems (Ferramenta de geração de aumento de recuperação paramétrica para melhorar o desempenho dos sistemas de perguntas e respostas)

Introdução geral

O PRAG (Parametric Retrieval-Augmented Generation) é uma ferramenta inovadora de geração aumentada por recuperação, projetada para aprimorar a geração por meio da incorporação de conhecimento externo diretamente no espaço de parâmetros de um modelo de linguagem grande (LLM). A ferramenta supera as limitações dos métodos tradicionais de geração aumentada por recuperação contextual, reduz as despesas gerais de computação e aprimora os recursos de raciocínio e síntese do modelo, integrando profundamente o conhecimento externo. O PRAG oferece implementações completas, incluindo um módulo de aprimoramento de dados, um módulo de treinamento de parâmetros e um módulo de inferência para testes de desempenho de vários conjuntos de dados de questionários.

PRAG:提升问答系统性能的参数化检索增强生成工具-1


 

Lista de funções

  • Módulo de aprimoramento de dadosConverta documentos em conjuntos de dados aprimorados com dados.
  • Módulo de treinamento de parâmetrosTreinamento de parâmetros LoRA adicionais para gerar uma representação parametrizada do documento.
  • módulo de inferênciaFusão de representações parametrizadas de documentos relacionados e sua inserção no LLM para inferência.
  • Instalação do ambienteInformações sobre o ambiente: Fornece etapas e dependências detalhadas da instalação do ambiente.
  • autoaperfeiçoamentoSuporte ao uso direto de arquivos de dados pré-aprimorados ou aprimoramentos de dados autoprocessados.
  • Preparação da pesquisaDownload e preparação de conjuntos de dados da Wikipédia para recuperação.

 

Usando a Ajuda

Instalação do ambiente

  1. Criar e ativar um ambiente virtual:
   conda create -n prag python=3.10.4
conda activate prag
  1. Instale as dependências necessárias:
   pip install torch==2.1.0
pip install -r requirements.txt
  1. modificações src/root_dir_path.py acertou em cheio ROOT_DIR é o endereço da pasta em que o PRAG está armazenado.

Aprimoramento de dados

  1. Use arquivos de dados pré-aprimorados:
   tar -xzvf data_aug.tar.gz
  1. Aprimoramento de dados de autoprocessamento:
    • Faça o download do conjunto de dados da Wikipédia: bash
      mkdir -p data/dpr
      wget -O data/dpr/psgs_w100.tsv.gz https://dl.fbaipublicfiles.com/dpr/wikipedia_split/psgs_w100.tsv.gz
    • pretender BM25 Recuperado: bash
      # 具体步骤请参考项目文档

treinamento paramétrico

  1. Gerar uma representação parametrizada do documento:
   # 具体步骤请参考项目文档

inferência

  1. As representações parametrizadas de documentos relacionados são mescladas e inseridas no LLM para inferência:
   # 具体步骤请参考项目文档
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " PRAG: Parametric Retrieval Augmentation Generation Tool for Improving the Performance of Q&A Systems (Ferramenta de geração de aumento de recuperação paramétrica para melhorar o desempenho dos sistemas de perguntas e respostas)
pt_BRPortuguês do Brasil