A ferramenta de anotações com IA do Google, o NotebookLM, recebeu recentemente uma atualização, e seu caminho está se tornando mais claro à medida que se aproxima de se tornar uma importante ferramenta de produtividade e gerenciamento de conhecimento pessoal. Os desenvolvimentos mais recentes incluem suporte para transmissão de áudio em vários idiomas, inclusive chinês, e um aplicativo móvel que será lançado em breve.
Desde o seu lançamento no ano passado, o NotebookLM ganhou atenção por sua capacidade de transformar documentos carregados pelo usuário, links da Web ou notas de texto em informações estruturadas. Seu conjunto de recursos inclui resumos de conteúdo, geração automática de linhas do tempo e mapas mentais interativos.
Entretanto, um dos recursos mais interessantes da ferramenta é o Audio Overviews. Esse recurso permite que os usuários façam upload de material de diversas fontes (por exemplo, texto, páginas da Web, PDFs e até mesmo gravações de vídeo), que o NotebookLM converte em uma simulação de áudio de uma conversa de podcast. O áudio normalmente inclui um apresentador simulado que faz perguntas e fornece orientações, bem como "convidados" que representam diferentes pontos de vista sobre as informações, criando uma experiência de audição interativa e emocionalmente carregada. Esse recurso é considerado muito popular entre os usuários do NotebookLM.
Nas versões anteriores, o recurso Audio Overviews era suportado principalmente em inglês, o que limitava sua utilidade para a comunidade de usuários de língua chinesa. Recentemente, o Google anunciou que o Audio Overviews foi expandido para suportar mais de 50 idiomas, incluindo o chinês (simplificado e tradicional). Para ativar o recurso, os usuários só precisam selecionar chinês na opção "Idioma de saída" no menu Configurações.
Selecione o idioma de saída nas configurações para gerar áudio no idioma correspondente.
Para verificar a eficácia real da função de áudio em chinês, é possível realizar um teste simples. Por exemplo, carregue uma gravação de vídeo da BBC do diretor ganhador do Oscar, Zhao Ting, em inglês, e algumas entrevistas em chinês com o diretor chinês Shao Yihui.
Após alguns minutos de processamento, o sistema conseguiu gerar um podcast de 8 minutos em chinês. No nível do conteúdo, a IA integra e compara com eficiência os perfis dos dois diretores, combinando a experiência de Zhao Ting em Hollywood, sua filosofia criativa e a exploração de Shao Yihui de temas femininos e relações de gênero, bem como sua maneira de trabalhar. As vozes dos apresentadores de IA do podcast (geralmente definidos como um homem e uma mulher) soam relativamente naturais e suaves, com pausas naturais e expressões coloquiais, tornando o diálogo mais realista. A qualidade da síntese de fala é mais vívida do que alguns serviços básicos de conversão de texto em fala (TTS), como a função "Listen to Book" do WeChat Book.
Esse recurso multilíngue significa que os usuários podem lidar com fontes de informação de diferentes idiomas. Por exemplo, um usuário que não fala japonês pode compreender rapidamente o conteúdo principal carregando uma notícia japonesa sobre Hayao Miyazaki e usando o NotebookLM para gerar um podcast de áudio em chinês.
Processamento de informações de fontes de idiomas diferentes e geração de áudio no idioma especificado
O ponto forte do NotebookLM está na forma como ele lida com as informações. No momento, a ferramenta é baseada no modelo Gemini 1.5 Flash do Google, um modelo leve, mas eficiente, que suporta janelas de contexto com até 200 MB de arquivos carregados e cerca de 500.000 tokens.
Crucialmente, a filosofia de design do NotebookLM enfatiza respostas baseadas em fontes. Isso significa que suas respostas e o conteúdo gerado são estritamente limitados às informações carregadas pelo usuário e podem ser facilmente verificados por meio de citações claras das fontes. Esse recurso o torna mais útil para usuários que precisam de classificação precisa de informações e gerenciamento de conhecimento, em contraste com muitos assistentes de modelos de linguagem grandes que podem "alucinar" ou fabricar informações. Ele foi projetado para ajudar o usuário a compreender e organizar as informações, em vez de substituir os processos de pensamento do usuário ou fornecer conteúdo sem fundamento.
Atualmente, o NotebookLM é acessado principalmente por meio de um navegador da Web. Embora possa ser aberto em navegadores de dispositivos móveis, a experiência do usuário não é ideal. Para resolver esse problema, o Google confirmou que está desenvolvendo um aplicativo móvel nativo para o NotebookLM. A versão Android do aplicativo está disponível para pré-registro na Google Play Store, enquanto a versão iOS está disponível para pré-registro na App Store. Espera-se que ambos os aplicativos sejam lançados oficialmente na próxima conferência Google I/O, que deverá ser realizada por volta de 20 de maio.
O lançamento do aplicativo móvel aumentará significativamente a acessibilidade e a conveniência do NotebookLM, permitindo que os usuários organizem anotações, gerem resumos ou ouçam resumos de áudio em qualquer lugar. O aplicativo móvel incluirá a maior parte da funcionalidade da versão web e poderá adicionar novos recursos para interação de diálogo com apresentadores de IA.
No entanto, vale a pena observar que nem todos os recursos estarão disponíveis gratuitamente. Recursos avançados, como a visão geral do áudio, podem no futuro exigir que os usuários assinem o serviço Gemini Advanced (atualmente com preço de US$ 20 por mês) para acesso ilimitado. Os usuários gratuitos poderão obter um número limitado de avaliações, mas isso pode limitar sua popularidade como ferramenta para uso diário intenso. A funcionalidade exata e a estratégia de preços do aplicativo móvel ainda não foram esclarecidas pelo Google quando ele for lançado oficialmente.