Aprendizagem pessoal com IA
e orientação prática
TRAE

Tifa-Deepsex-14b-CoT: um modelo grande especializado em interpretação de papéis e geração de ficção ultralonga

Introdução geral

O Tifa-Deepsex-14b-CoT é um modelo grande baseado na otimização profunda do Deepseek-R1-14B, com foco na interpretação de papéis, geração de texto fictício e capacidade de raciocínio da Cadeia de Pensamento (CoT). Por meio de treinamento e otimização em vários estágios, o modelo resolve os problemas do modelo original de coerência insuficiente na geração de textos longos e na fraca capacidade de interpretação de papéis, o que é particularmente adequado para cenários criativos que exigem correlação contextual de longo alcance. Ao fundir conjuntos de dados de alta qualidade e pré-treinamento incremental, o modelo aumenta significativamente a relevância contextual, reduz as não respostas e elimina a mistura de chinês e inglês, aumentando o vocabulário específico do domínio para um melhor desempenho na interpretação de papéis e na geração de novos. Além disso, o modelo suporta 128 mil contextos ultralongos para cenários que exigem diálogo profundo e criação complexa.

Esta é uma versão do Deepseek-R1-14B que é profundamente otimizada para cenários de ficção e interpretação de papéis longos, e tem um cliente Android simples disponível para download. Atualizações atuais Deepsex2 Edição.

Tifa-Deepsex-14b-CoT: um grande modelo para interpretação de papéis e geração de ficção com suporte para saída contextual ultralonga-1

 

Lista de funções

  • Oferece suporte a diálogos detalhados para cenários de interpretação de papéis, gerando respostas que correspondem à personalidade e ao histórico do personagem.
  • Fornecer habilidades de geração de textos fictícios para criar uma história longa ou um enredo coerente.
  • Habilidades de raciocínio de Cadeia de Pensamento (CoT) para cenários que exigem dedução lógica e solução de problemas complexos.
  • Suporta contexto ultralongo de 128k para garantir alta coerência e consistência na geração de textos longos.
  • O modelo otimizado reduz o fenômeno da rejeição de respostas, e a segurança é moderadamente preservada para diversas necessidades de criação.
  • Fornecer uma variedade de versões de quantificação (por exemplo, F16, Q8, Q4) para se adaptar a diferentes ambientes de hardware para facilitar a implantação e o uso.

 

Usando a Ajuda

Instalação e implementação

O modelo Tifa-Deepsex-14b-CoT é hospedado na plataforma Hugging Face, e os usuários precisam selecionar a versão apropriada do modelo (por exemplo, F16, Q8, Q4) com base em seu ambiente e requisitos de hardware. Abaixo está o processo detalhado de instalação e implementação:


1. download do modelo

  • Visite a página do modelo Hugging Face em https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT.
  • Selecione a versão de quantificação apropriada (por exemplo, Q4_K_M.gguf) de acordo com o suporte de hardware. Clique no arquivo correspondente para fazer o download dos pesos do modelo.
  • Se precisar usar o APK de demonstração, você poderá fazer o download direto do aplicativo de demonstração fornecido oficialmente (é necessário importar manualmente o cartão de caractere e selecionar a API personalizada).

2. preparação ambiental

  • Certifique-se de que o ambiente Python esteja instalado (recomenda-se o Python 3.8 ou superior).
  • Instale as bibliotecas de dependência necessárias, como transformadores, huggingface_hub e assim por diante. Elas podem ser instaladas com os seguintes comandos:
    pip install transformers huggingface-hub
    
  • Se você estiver usando um modelo de formato GGUF, é recomendável instalar o llama.cpp ou bibliotecas de suporte relacionadas. pode ser clonado e compilado com o seguinte comando:
    git clone https://github.com/ggerganov/llama.cpp
    cd llama.cpp
    make
    

3) Carregamento do modelo

  • Use transformadores para carregar o modelo:
    from transformers import AutoModelForCausalLM, AutoTokenizer
    model_name = "ValueFX9507/Tifa-Deepsex-14b-CoT"
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(model_name)
    
  • Se estiver usando o formato GGUF, ele poderá ser executado por meio do llama.cpp:
    ./main -m Tifa-Deepsex-14b-CoT-Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "你的提示词"
    

    onde -c 4096 pode ser ajustado para um comprimento de contexto maior (por exemplo, 128k), conforme necessário, mas esteja ciente das limitações de hardware.

4. configuração e otimização

  • Certifique-se de que o contexto retornado não contenha rótulos de pensamento (por exemplo, ) para não afetar a saída do modelo. Isso pode ser feito com o seguinte código:
    content = msg.content.replace(/<think>[\s\S]*?<\/think>/gi, '')
    
  • Se você usar a interface de front-end, precisará modificar manualmente o código de front-end para adaptar o processamento de contexto; consulte o modelo de amostra oficial.

Função Fluxo de operação

recurso de interpretação de papéis

  1. Digite a configuração do personagem: especifique o histórico, a personalidade, as cenas de diálogo etc. do personagem no prompt. Exemplo:
    你是一个勇敢的冒险者,名叫蒂法,正在探索一座神秘的古城。请描述你的冒险经历,并与遇到的 NPC 进行对话。
    
  2. Gerar respostas: o modelo gera diálogos ou narrativas que estão no personagem com base nas configurações do personagem. O usuário pode continuar a inserir dados e o modelo manterá a coerência contextual.
  3. Ajuste de parâmetros: otimize a saída ajustando a temperatura (para controlar a aleatoriedade do texto gerado) e repeat_penalty (para controlar o conteúdo repetido).

Nova função de geração

  1. Definir o contexto da história: fornecer o início ou o esboço da história, por exemplo:
    在一个遥远的王国,有一位年轻的法师试图解开时间的秘密。请续写这个故事。
    
  2. Gerar história: O modelo gerará histórias longas e coerentes com base em prompts, dando suporte à produção de vários parágrafos.
  3. Suporte a contextos longos: graças ao suporte a contextos de 128k, os usuários podem inserir contextos de histórias mais longos e o modelo ainda mantém a consistência do enredo.

raciocínio de cadeia de pensamento (CoT)

  1. Insira problemas complexos: por exemplo:
    如果一个城市每天产生100吨垃圾,其中60%可回收,40%不可回收,但回收设施每天只能处理30吨可回收垃圾,剩余的可回收垃圾如何处理?
    
  2. Gerar um processo de raciocínio: o modelo analisa o problema passo a passo, fornece respostas lógicas e claras e dá suporte ao raciocínio de longo prazo.

advertência

  • Requisitos de hardware: o modelo requer um alto nível de memória gráfica para ser executado; recomenda-se uma GPU ou CPU de alto desempenho com pelo menos 16 GB de memória gráfica.
  • Segurança e conformidade: o modelo retém determinadas configurações de segurança durante o treinamento, e os usuários precisam garantir que o cenário de uso esteja em conformidade com as leis e os regulamentos relevantes.
  • Gerenciamento de contexto: ao usar contextos muito longos, é recomendável inserir palavras de prompt em segmentos para evitar exceder os limites de hardware.

Com essas etapas, os usuários podem começar a usar o modelo Tifa-Deepsex-14b-CoT com facilidade, seja para interpretação de papéis, criação de novos ou raciocínio complexo, e obter resultados gerados de alta qualidade.

 

Diferença de versão da Tifa-Deepsex-14b-CoT

Tifa-Deepsex-14b-CoT

  • Validação do modelo para testar o impacto do algoritmo de recompensa de RL em dados de RPG; a versão inicial tem uma saída flexível, mas não controlada, e destina-se apenas ao uso em pesquisas.

Tifa-Deepsex-14b-CoT-Chat

  • Treinada com dados padrão, usando estratégias comprovadas de RL com aprendizado adicional de reforço anti-repetição, adequado para uso normal. A qualidade do texto de saída é normal, com pensamento divergente em alguns casos.
  • Treinamento incremental de 0,4T de conteúdo novo, 100K de dados SFT gerados pelo TifaMax, 10K de dados SFT gerados pelo DeepseekR1 e 2K de dados manuais de alta qualidade.
  • Dados de aprendizado de reforço de 30 mil DPO gerados pelo TifaMax para evitar duplicatas, aprimorar associações contextuais e melhorar a segurança política.

Tifa-Deepsex-14b-CoT-Crazy

  • É usado um grande número de estratégias de RL, principalmente usando dados destilados do R1 de sangue puro 671B, com alta dispersão de saída, herdando as vantagens do R1, bem como os riscos do R1, e bom desempenho literário.
  • Treinamento incremental de 0,4T de conteúdo novo, 40K de dados SFT gerados pelo TifaMax, 60K de dados SFT gerados pelo DeepseekR1 e 2K de dados manuais de alta qualidade.
  • 30 mil dados de aprendizado de reforço de DPO gerados pelo TifaMax para evitar duplicatas, aprimorar a relevância contextual e melhorar a segurança política. 10 mil dados de PPO gerados pelo TifaMax e 10 mil dados de PPO gerados pelo DeepseekR1.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Tifa-Deepsex-14b-CoT: um modelo grande especializado em interpretação de papéis e geração de ficção ultralonga
pt_BRPortuguês do Brasil