Aprendizagem pessoal com IA
e orientação prática
TRAE

JetBrains Open Source Mellum: um modelo especializado projetado para conclusão de código

JetBrains Open Source Mellum: um modelo especializado projetado para conclusão de código-1

A JetBrains, fornecedora de ferramentas de desenvolvimento de software, anunciou recentemente que abriu o código-fonte da versão básica do Mellum, seu modelo de linguagem projetado especificamente para o preenchimento de código, e o disponibilizou na plataforma Hugging Face. A iniciativa foi projetada para promover a transparência e a colaboração no campo da IA no desenvolvimento de software.


Em vez de buscar a onipresença, a filosofia de design da Mellum se concentra em uma tarefa principal: a conclusão do código. A JetBrains chama esse tipo de modelo de Modelos dedicados (modelo especializado), enfatizando que seu objetivo de design é ter recursos profundos em domínios específicos, em vez de buscar cegamente uma ampla generalidade. O modelo suporta o recurso de autocompletar código em várias linguagens de programação, incluindo Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust e Ruby.

código aberto Mellum-4b-base é o primeiro modelo da família Mellum. A JetBrains planeja expandir essa família no futuro com modelos mais dedicados a diferentes tarefas de codificação, como a previsão de disparidade.

 

As considerações por trás do código aberto

A decisão de tornar o Mellum open source não foi tomada de ânimo leve. Em vez de ser uma versão aperfeiçoada de um modelo de código-fonte aberto existente, o Mellum foi treinado desde o início pela JetBrains para fornecer funcionalidade de conclusão de código baseada em nuvem para seus produtos IDE, e foi lançado ao público no ano passado.

A JetBrains diz que o Open Source Mellum se baseia na crença no poder da transparência, da colaboração e do progresso compartilhado. Desde o Linux e o Git até o Node.js e o Docker, o paradigma do código aberto tem sido um dos principais impulsionadores de grandes saltos tecnológicos. Considerando que já existem LLMs de código aberto que superam o desempenho de alguns líderes do setor, não é improvável que o desenvolvimento geral da IA siga uma trajetória semelhante.

A mudança também significa que a JetBrains está abrindo uma de suas principais tecnologias para a comunidade. Ao lançar o Mellum no Hugging Face, a empresa está oferecendo a pesquisadores, educadores e equipes técnicas sênior a oportunidade de obter informações sobre o funcionamento interno de um modelo especializado. Isso é mais do que apenas fornecer uma ferramenta, é um investimento em pesquisa e colaboração abertas.

 

O que é um modelo especializado?

No campo do aprendizado de máquina, a especialização não é um conceito novo, mas uma abordagem central que orienta o design de modelos há décadas: criar modelos para resolver tarefas específicas de forma eficiente e eficaz. No entanto, nos últimos anos, a discussão em IA mudou gradualmente para a tentativa de cobrir todas as tarefas com grandes modelos generalizados, mas isso geralmente acarreta custos computacionais e ambientais significativos.

Modelos dedicadosEm vez disso, ele retorna ao objetivo original da especialização: criar modelos com bom desempenho em um domínio específico.

Isso pode ser comparado a uma "habilidade em T": um indivíduo tem amplo conhecimento de muitos tópicos (amplitude de conhecimento, a barra horizontal do T), mas uma profunda especialização em um domínio específico (profundidade de conhecimento, a barra vertical do T). Os modelos especializados seguem a mesma filosofia; eles não são feitos para lidar com tudo, mas se especializam e se destacam em uma única tarefa para serem realmente valiosos em um determinado domínio.

O Mellum é a personificação dessa filosofia. É um modelo relativamente pequeno e eficiente projetado para tarefas relacionadas a códigos, começando com o preenchimento de código.

O motivo dessa abordagem é que nem todos os problemas exigem soluções genéricas, e nem todas as equipes têm os recursos ou a necessidade de executar modelos grandes e abrangentes. Os modelos especializados (como o Mellum) oferecem vantagens distintas:

  • Fornecer precisão para tarefas específicas do domínio.
  • Econômico em termos de operação e implementação.
  • As necessidades de cálculo e as pegadas de carbono são baixas.
  • Oferece maior acessibilidade para pesquisadores, educadores e equipes pequenas.

Não se trata de um retrocesso tecnológico, mas de uma aplicação de princípios de especialização comprovados a problemas modernos de IA. A JetBrains vê isso como uma maneira mais inteligente de avançar.

 

Qual é o desempenho do Mellum?

O Mellum é um modelo paramétrico 4B multilíngue (Mellum-4b-base), otimizado especificamente para autocompletar código. A JetBrains avaliou-o em várias linguagens em vários conjuntos de dados e realizou uma extensa avaliação manual em seu IDE.

Abaixo estão os dados que comparam o desempenho do Mellum com vários modelos com maior número de parâmetros (detalhes completos, resultados e comparações podem ser encontrados no cartão de modelo do Hugging Face):

modelagem HumanEval Infilling (linha única) HumanEval Infilling (várias linhas) RepoBench 1.1 (2K contexto, py) SAFIM (média)
Mellum-4B-base 66.2 38.5 28.2 38.1
InCoder-6B 69.0 38.6 - 33.8
CodeLlama-7B-base 83.0 50.8 34.1 45.0
CodeLlama-13B-base 85.6 56.1 36.2 52.8
DeepSeek-Coder-6.7B 80.7 - - 63.4

Observação: o HumanEval Infilling testa os recursos de preenchimento de código, o RepoBench avalia o desempenho no contexto de uma base de código real e o SAFIM é outro teste de referência de preenchimento de código. Os modelos de comparação incluem a família CodeLlama da Meta e o modelo Coder da DeepSeek.

Os dados mostram que a Mellum tem um desempenho competitivo em benchmarks específicos (especialmente quando seu tamanho é levado em conta), apesar de seu pequeno número de participantes. Isso reforça ainda mais a noção de que modelos dedicados podem alcançar um desempenho eficiente em tarefas específicas. A contagem de parâmetros não é a única medida da capacidade de um modelo, mas a otimização específica da tarefa também é fundamental.

 

Para quem é o Mellum?

É importante deixar claro que a versão atual do Mellum lançada no Hugging Face não se destina principalmente ao desenvolvedor final médio, que pode não estar ajustando ou implantando o modelo diretamente.

O modelo está aberto para os seguintes grupos:

  1. Pesquisadores de IA/ML: Em particular, os acadêmicos que estão explorando a função da IA no desenvolvimento de software, realizando benchmarking ou investigando a interpretabilidade do modelo.
  2. Engenheiros e educadores de IA/ML: Ele pode ser usado como base para aprender a criar, ajustar e adaptar modelos de linguagem específicos do domínio ou para apoiar projetos educacionais que se concentram na arquitetura e na especialização do LLM.

 

Conheça a Mellum agora

O modelo básico do Mellum agora está disponível em Cara de abraço Lançamento. A JetBrains enfatiza que este é apenas o começo e que seu objetivo não é buscar a generalidade, mas criar ferramentas focadas e eficientes. Para aqueles que desejam explorar, experimentar ou construir com base no Mellum, o modelo agora pode ser acessado e testado.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " JetBrains Open Source Mellum: um modelo especializado projetado para conclusão de código
pt_BRPortuguês do Brasil