Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models) são sistemas de inteligência artificial treinados com enormes quantidades de textos para entender e produzir linguagem de forma parecida com a humana. Em termos práticos, isso significa que eles leem documentos, manuais, relatórios e registros da empresa e passam a responder perguntas, resumir informações, apoiar decisões e gerar conteúdo alinhado ao contexto do negócio. Em ambientes industriais e de tecnologia, esse tipo de modelo reduz tempo gasto com buscas manuais, melhora a qualidade das respostas internas e externas e aumenta a agilidade na comunicação entre áreas.
Esses modelos utilizam textos de livros, artigos, sites e outras fontes para aprender sobre diferentes assuntos e estilos de escrita. Isso os torna úteis em diversos cenários, mas também traz responsabilidades: o uso de LLMs exige atenção a temas como desinformação, possíveis vieses presentes nos dados de treinamento e a importância de supervisão humana, principalmente quando a aplicação impacta processos críticos da empresa.

Executar LLMs em celulares é desafiador devido às limitações de recursos, como memória, poder de processamento e armazenamento, muitas vezes insuficientes para suportar modelos de grande escala. Além disso, o alto consumo de energia e o aquecimento gerado pelo processamento intensivo esgotam a bateria rapidamente e comprometem o desempenho do dispositivo. Na prática, isso dificulta o uso de IA avançada diretamente no aparelho e faz com que a maioria das soluções dependa de computação em nuvem, onde todo o processamento pesado ocorre em servidores remotos.
No CRIAR, superamos essas barreiras e entregamos aplicações móveis com LLMs que rodam diretamente no dispositivo, sem necessidade de servidor dedicado. Utilizamos técnicas de ponta, como engenharia de prompts (Prompt Engineering) e RAG (Geração Aumentada por Recuperação), para extrair boas respostas de modelos menores, ajustados a contextos específicos. Com isso, a aplicação mantém os dados do usuário sob controle local, reduz riscos de exposição de informação sensível e ganha flexibilidade: a base de conhecimento do modelo se adapta a novos documentos, manuais ou processos com baixo custo computacional e alta velocidade de atualização.
As estratégias implementadas foram validadas com um framework de avaliação de modelos (veja o trabalho completo na página de publicações). O CRIAR desenvolveu uma pipeline para execução de LLMs em dispositivos móveis que incorpora RAG e estrutura um fluxo que começa com a fragmentação semântica dos dados em pequenos trechos (chunks). Em seguida, diferentes LLMs Geradores produzem respostas com base exclusivamente no contexto recuperado, o que garante maior fidelidade às informações disponíveis. Para avaliar a qualidade dessas respostas, um LLM Juiz analisa a coerência em relação ao texto de referência e atribui notas conforme critérios pré-definidos. Essa abordagem possibilita a comparação objetiva do desempenho de múltiplos modelos e ajuda a identificar a qualidade das respostas para as perguntas do usuário em um contexto específico.
Os benefícios dessa abordagem são significativos tanto para pesquisadores quanto para usuários que precisam de respostas precisas extraídas de grandes volumes de informação. O framework oferece um meio objetivo de avaliar a eficácia da recuperação pelo RAG e a adequação das respostas ao contexto fornecido, o que elimina a subjetividade da análise manual. A automação do processo de avaliação por meio do LLM Juiz reduz custos e tempo de análise e torna a metodologia escalável para conjuntos de dados maiores.
2025 All Rights Reserved. Design by Free html Templates Distributed by ThemeWagon