JetBrains abre o código-fonte do Mellum: um modelo dedicado projetado para conclusão de código

🚀 Convite para experimentar: o primeiro software de programação inteligente AI IDE da China Download da versão chinesa do TraeO DeepSeek-R1 e o Doubao-pro estão disponíveis em uma base ilimitada!

JetBrains Open Source Mellum: um modelo especializado projetado para conclusão de código-1

A JetBrains, fornecedora de ferramentas de desenvolvimento de software, anunciou recentemente que abriu o código-fonte da versão básica do Mellum, seu modelo de linguagem projetado especificamente para o preenchimento de código, e o disponibilizou na plataforma Hugging Face. A iniciativa foi projetada para promover a transparência e a colaboração no campo da IA no desenvolvimento de software.

Em vez de buscar a onipresença, a filosofia de design da Mellum se concentra em uma tarefa principal: a conclusão do código. A JetBrains chama esse tipo de modelo de Modelos dedicados (modelo especializado), enfatizando que seu objetivo de design é ter recursos profundos em domínios específicos, em vez de buscar cegamente uma ampla generalidade. O modelo suporta o recurso de autocompletar código em várias linguagens de programação, incluindo Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust e Ruby.

código aberto Mellum-4b-base é o primeiro modelo da família Mellum. A JetBrains planeja expandir essa família no futuro com modelos mais dedicados a diferentes tarefas de codificação, como a previsão de disparidade.

As considerações por trás do código aberto

A decisão de tornar o Mellum open source não foi tomada de ânimo leve. Em vez de ser uma versão aperfeiçoada de um modelo de código-fonte aberto existente, o Mellum foi treinado desde o início pela JetBrains para fornecer funcionalidade de conclusão de código baseada em nuvem para seus produtos IDE, e foi lançado ao público no ano passado.

A JetBrains diz que o Open Source Mellum se baseia na crença no poder da transparência, da colaboração e do progresso compartilhado. Desde o Linux e o Git até o Node.js e o Docker, o paradigma do código aberto tem sido um dos principais impulsionadores de grandes saltos tecnológicos. Considerando que já existem LLMs de código aberto que superam o desempenho de alguns líderes do setor, não é improvável que o desenvolvimento geral da IA siga uma trajetória semelhante.

A mudança também significa que a JetBrains está abrindo uma de suas principais tecnologias para a comunidade. Ao lançar o Mellum no Hugging Face, a empresa está oferecendo a pesquisadores, educadores e equipes técnicas sênior a oportunidade de obter informações sobre o funcionamento interno de um modelo especializado. Isso é mais do que apenas fornecer uma ferramenta, é um investimento em pesquisa e colaboração abertas.

O que é um modelo especializado?

No campo do aprendizado de máquina, a especialização não é um conceito novo, mas uma abordagem central que orienta o design de modelos há décadas: criar modelos para resolver tarefas específicas de forma eficiente e eficaz. No entanto, nos últimos anos, a discussão em IA mudou gradualmente para a tentativa de cobrir todas as tarefas com grandes modelos generalizados, mas isso geralmente acarreta custos computacionais e ambientais significativos.

Modelos dedicadosEm vez disso, ele retorna ao objetivo original da especialização: criar modelos com bom desempenho em um domínio específico.

Isso pode ser comparado a uma "habilidade em T": um indivíduo tem amplo conhecimento de muitos tópicos (amplitude de conhecimento, a barra horizontal do T), mas uma profunda especialização em um domínio específico (profundidade de conhecimento, a barra vertical do T). Os modelos especializados seguem a mesma filosofia; eles não são feitos para lidar com tudo, mas se especializam e se destacam em uma única tarefa para serem realmente valiosos em um determinado domínio.

O Mellum é a personificação dessa filosofia. É um modelo relativamente pequeno e eficiente projetado para tarefas relacionadas a códigos, começando com o preenchimento de código.

O motivo dessa abordagem é que nem todos os problemas exigem soluções genéricas, e nem todas as equipes têm os recursos ou a necessidade de executar modelos grandes e abrangentes. Os modelos especializados (como o Mellum) oferecem vantagens distintas:

Fornecer precisão para tarefas específicas do domínio.
Econômico em termos de operação e implementação.
As necessidades de cálculo e as pegadas de carbono são baixas.
Oferece maior acessibilidade para pesquisadores, educadores e equipes pequenas.

Não se trata de um retrocesso tecnológico, mas de uma aplicação de princípios de especialização comprovados a problemas modernos de IA. A JetBrains vê isso como uma maneira mais inteligente de avançar.

Qual é o desempenho do Mellum?

O Mellum é um modelo paramétrico 4B multilíngue (Mellum-4b-base), otimizado especificamente para autocompletar código. A JetBrains avaliou-o em várias linguagens em vários conjuntos de dados e realizou uma extensa avaliação manual em seu IDE.

Abaixo estão os dados que comparam o desempenho do Mellum com vários modelos com maior número de parâmetros (detalhes completos, resultados e comparações podem ser encontrados no cartão de modelo do Hugging Face):

modelagem	HumanEval Infilling (linha única)	HumanEval Infilling (várias linhas)	RepoBench 1.1 (2K contexto, py)	SAFIM (média)
Mellum-4B-base	66.2	38.5	28.2	38.1
InCoder-6B	69.0	38.6	-	33.8
CodeLlama-7B-base	83.0	50.8	34.1	45.0
CodeLlama-13B-base	85.6	56.1	36.2	52.8
DeepSeek-Coder-6.7B	80.7	-	-	63.4

Observação: o HumanEval Infilling testa os recursos de preenchimento de código, o RepoBench avalia o desempenho no contexto de uma base de código real e o SAFIM é outro teste de referência de preenchimento de código. Os modelos de comparação incluem a família CodeLlama da Meta e o modelo Coder da DeepSeek.

Os dados mostram que a Mellum tem um desempenho competitivo em benchmarks específicos (especialmente quando seu tamanho é levado em conta), apesar de seu pequeno número de participantes. Isso reforça ainda mais a noção de que modelos dedicados podem alcançar um desempenho eficiente em tarefas específicas. A contagem de parâmetros não é a única medida da capacidade de um modelo, mas a otimização específica da tarefa também é fundamental.

Para quem é o Mellum?

É importante deixar claro que a versão atual do Mellum lançada no Hugging Face não se destina principalmente ao desenvolvedor final médio, que pode não estar ajustando ou implantando o modelo diretamente.

O modelo está aberto para os seguintes grupos:

Pesquisadores de IA/ML: Em particular, os acadêmicos que estão explorando a função da IA no desenvolvimento de software, realizando benchmarking ou investigando a interpretabilidade do modelo.
Engenheiros e educadores de IA/ML: Ele pode ser usado como base para aprender a criar, ajustar e adaptar modelos de linguagem específicos do domínio ou para apoiar projetos educacionais que se concentram na arquitetura e na especialização do LLM.

Conheça a Mellum agora

O modelo básico do Mellum agora está disponível em Cara de abraço Lançamento. A JetBrains enfatiza que este é apenas o começo e que seu objetivo não é buscar a generalidade, mas criar ferramentas focadas e eficientes. Para aqueles que desejam explorar, experimentar ou construir com base no Mellum, o modelo agora pode ser acessado e testado.

JetBrains Open Source Mellum: um modelo especializado projetado para conclusão de código

As considerações por trás do código aberto

O que é um modelo especializado?

Qual é o desempenho do Mellum?

Para quem é o Mellum?

Conheça a Mellum agora

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Hotspots de IA recentes

Recomendações de ferramentas de IA

Classificação das ferramentas de IA