Especialistas analisam as implicações do modelo de código aberto da DeepSeek e seu impacto na tecnologia, geopolítica, artes e mais.
Por Vanessa Parli – 13 de fevereiro de 2025
Nas últimas semanas, o surgimento da DeepSeek — um modelo de linguagem de código aberto poderoso e eficiente em termos de custo, originado na China — gerou um intenso debate entre acadêmicos e pesquisadores da indústria. No Instituto de Inteligência Artificial Centrada no Humano (HAI) da Universidade de Stanford, professores estão examinando não apenas os avanços técnicos do modelo, mas também suas implicações mais amplas para a academia, a indústria e a sociedade globalmente.
No centro dessa discussão está a forma como a DeepSeek desafiou suposições preestabelecidas sobre o capital e os recursos computacionais necessários para avanços significativos em IA. A capacidade de engenharia engenhosa e inovação algorítmica demonstrada pela DeepSeek pode permitir que organizações com menos recursos concorram em projetos relevantes. Essa abordagem inovadora, aliada à disponibilização de pesos de modelo abertos e a um artigo técnico detalhado, fomenta um ambiente de inovação que impulsiona avanços tecnológicos há décadas.
Embora o modelo de pesos abertos e a documentação técnica detalhada representem um avanço para a comunidade de código aberto, a DeepSeek apresenta uma notável falta de transparência em relação à proteção da privacidade, à origem dos dados e aos direitos autorais. Isso intensifica preocupações sobre o impacto da IA nas artes, na regulamentação e na segurança nacional. O fato de a DeepSeek ter sido lançada por uma organização chinesa ressalta a necessidade de uma abordagem estratégica para regulamentação e para as implicações geopolíticas dentro de um ecossistema global de IA, onde os participantes não compartilham necessariamente as mesmas normas e onde mecanismos como o controle de exportação têm impacto limitado.
A DeepSeek reacendeu discussões sobre código aberto, responsabilidade legal, mudanças no equilíbrio geopolítico, preocupações com privacidade e muito mais. Nesta coletânea de perspectivas, estudiosos seniores do Stanford HAI oferecem uma análise multidisciplinar sobre o que a DeepSeek significa para a inteligência artificial e para a sociedade como um todo.
Russ Altman
Professor Kenneth Fong e Professor de Bioengenharia, Genética, Medicina, Ciência de Dados Biomédicos, Senior Fellow do Stanford HAI e Professor, por cortesia, de Ciência da Computação
No HAI, somos acadêmicos, e há elementos no desenvolvimento da DeepSeek que oferecem lições importantes e oportunidades para a comunidade acadêmica.
Primeiro, o compromisso com o código aberto (adotado tanto pela Meta quanto pela DeepSeek) parece transcender fronteiras geopolíticas. Tanto a DeepSeek quanto o Llama (da Meta) oferecem a oportunidade para acadêmicos inspecionarem, avaliarem e aprimorarem métodos existentes de forma independente. O movimento de “código fechado” enfrenta agora desafios para justificar sua abordagem. Embora haja preocupações legítimas (como o uso de modelos de código aberto por atores mal-intencionados), argumenta-se que esses problemas são melhor combatidos com acesso aberto às ferramentas utilizadas por esses atores, permitindo colaboração entre academia, indústria e governos para mitigar riscos.
Segundo, a demonstração de que inovação algorítmica e engenharia engenhosa podem reduzir os requisitos de capital para sistemas de IA significa que esforços menos capitalizados na academia (e alhures) podem competir e contribuir para a construção de sistemas. Muitos de nós pensávamos que precisaríamos esperar pela próxima geração de hardware de IA barato para democratizar a IA. Isso ainda pode ser verdade, mas já vemos que inovações em software também são fontes importantes de eficiência e redução de custos. Tomando isso em conjunto, podemos agora imaginar sistemas de IA relevantes e aplicáveis ao mundo real sendo desenvolvidos por organizações com recursos mais modestos.
Terceiro, os avanços da DeepSeek, juntamente com os sistemas de IA baseados em agentes, facilitam a criação generalizada de agentes especializados que podem ser combinados para formar sistemas robustos de IA. O modelo monolítico de “IA geral” ainda tem interesse acadêmico, mas será mais econômico e eficiente do ponto de vista da engenharia (por exemplo, modular) criar sistemas compostos por componentes que podem ser desenvolvidos, testados, mantidos e implantados separadamente antes da integração final. Um modelo de agentes de IA cooperando entre si (e com humanos) reflete a ideia de “equipes” resolvendo problemas. Às vezes, problemas são resolvidos por um único gênio monolítico, mas essa não costuma ser a aposta mais acertada. Assim, a DeepSeek contribui para equilibrar essa questão ao validar o compartilhamento aberto de ideias (ainda que a questão dos dados seja mais complexa), demonstrar o poder contínuo da inovação algorítmica e viabilizar economicamente a criação de agentes de IA que podem ser combinados para produzir sistemas robustos e úteis.
No entanto, ainda há questões em aberto:
- Como democratizar o acesso a grandes volumes de dados para treinar modelos, respeitando direitos autorais e propriedade intelectual?
- Como construir modelos especializados quando o volume de dados para certas disciplinas é insuficiente?
- Como validar sistemas que combinam múltiplos agentes de IA para garantir seu funcionamento correto? Mesmo que os agentes individuais sejam validados, isso garante que sua combinação também seja?
Yejin Choi
Leciona na Dieter Schwartz Foundation, Ciência da Computação e Pesquisas Sênior do Stanford HAI
O sucesso do modelo R1 da DeepSeek demonstra que, uma vez que existe uma “prova de existência de uma solução” (como foi demonstrado pelo modelo o1 da OpenAI), torna-se apenas uma questão de tempo até que outros também a descubram. A decisão da DeepSeek de compartilhar detalhadamente o processo de treinamento do R1 e disponibilizar modelos de pesos abertos de diferentes tamanhos tem implicações profundas, pois provavelmente acelerará ainda mais o progresso da IA de código aberto. Estamos prestes a testemunhar uma proliferação de novos esforços de código aberto replicando e aprimorando o R1.
Essa mudança sinaliza que a era da “escala bruta” está chegando ao fim, dando lugar a uma nova fase focada na inovação algorítmica para continuar a escalabilidade por meio de síntese de dados, novos frameworks de aprendizado e novos algoritmos de inferência.
Entretanto, uma questão fundamental que enfrentamos no momento é como direcionar esses poderosos sistemas de inteligência artificial para beneficiar a humanidade como um todo. O fato de um modelo se destacar em benchmarks matemáticos não se traduz imediatamente em soluções para os desafios reais enfrentados pela humanidade, como o agravamento das tensões políticas, desastres naturais ou a persistente disseminação de desinformação. Essa desconexão entre capacidades técnicas e impacto social prático continua sendo um dos desafios mais urgentes da área.
Michele Elam
Professora William Robertson Coe em Humanidades, Pesquisadora Sênior do Stanford HAI e Bass University Fellow em Educação de Graduação
Em meio a toda a inquietação nos Estados Unidos e ao alvoroço causado pelo recente lançamento da DeepSeek — uma IA aparentemente (e de forma impressionante) mais barata, menos exigente em termos computacionais e menos prejudicial ao meio ambiente —, poucos consideraram o que isso significa para o impacto da IA nas artes. De fato, pode parecer irrelevante discutir o impacto da DeepSeek na literatura, nas artes cênicas, na cultura visual etc., diante de preocupações consideradas mais urgentes, como a segurança nacional, a desvalorização econômica da indústria de IA nos EUA e os impactos do código aberto na inovação.
No entanto, a completa opacidade da DeepSeek em relação à proteção da privacidade, à origem e coleta de dados, bem como às questões de nome, imagem e licença (NIL) e direitos autorais, tem um impacto desproporcionalmente grande sobre as artes. Na verdade, “opacidade” é um termo generoso: a DeepSeek representa uma abordagem de completo descaso em relação a essas preocupações. Basta observar as greves do SAG-AFTRA na indústria criativa, os processos judiciais em andamento movidos pelo The New York Times e por muitos outros.
Em muitos aspectos, o fato de a DeepSeek conseguir ignorar essas questões de maneira tão descarada é um reflexo do nosso próprio comportamento. A popularidade do seu chatbot amplifica e capitaliza a crescente tendência dos consumidores americanos de fechar os olhos para essas questões — uma tendência agressivamente incentivada por uma indústria cujos modelos de negócios deliberadamente desviam nossa atenção dessas preocupações em nome do retorno sobre o investimento.
Assim como o TikTok, a DeepSeek se aproveita do processo gradual de aculturação pelo qual passamos nos últimos anos, em que entregamos nossos direitos de privacidade a cada clique nos termos de contrato de nossos dispositivos — sempre atualizados e cada vez mais obscuros — geralmente sob a justificativa do encantador eufemismo do marketing: “personalização”.
Muitos já apontaram que o consumo indiscriminado de dados privados e sensíveis pela DeepSeek explora a falha nacional dos Estados Unidos em regular a IA — diferentemente do Reino Unido e da União Europeia — e coloca o país em risco ao perpetuar a mentalidade de que “regulação impede inovação”.
Mas, no que se refere às artes, devemos prestar atenção ao modo como a DeepSeek detém as “chaves da nossa imaginação” por meio de sua censura prévia, de seu alinhamento com ideologias nacionalistas e de nossa anuência inconsciente ou irrefletida à sua modelagem algorítmica da realidade — ou seja, sua capacidade de moldar a maneira como enxergamos e interagimos com o mundo. A Universidade de Stanford, por meio do programa Azure da Microsoft, atualmente utiliza uma versão “mais segura” da DeepSeek para experimentação e alerta a comunidade acadêmica para não utilizar as versões comerciais devido a preocupações com segurança. No entanto, independentemente disso, o lançamento da DeepSeek evidencia os riscos e as vantagens de uma tecnologia cuja capacidade desproporcional de influenciar nossa percepção da realidade se torna cada vez mais evidente.
Desde os debates entre Platão e Aristóteles sobre o impacto cívico do teatro e da poesia, sabemos que essa também é precisamente a força das artes.
Mykel Kochenderfer
Professor Associado de Aeronáutica e Astronáutica da Universidade de Stanford, Senior Fellow do Stanford HAI
A inteligência artificial está sendo cada vez mais utilizada em cenários críticos para a segurança ou de alto risco, desde veículos autônomos até suporte à decisão clínica. No entanto, conciliar a falta de explicabilidade dos sistemas atuais de IA com os padrões de engenharia de segurança para aplicações de alto risco continua sendo um desafio.
Um aspecto particularmente interessante do DeepSeek R1 é sua aparente transparência no raciocínio ao responder a consultas complexas. O nível de detalhamento fornecido pode facilitar auditorias e ajudar a fomentar a confiança nos resultados gerados. Essa transparência no raciocínio, no momento em que uma pergunta é feita a um modelo de linguagem, é chamada de explicabilidade em tempo de inferência. Embora essa abordagem ainda esteja em estágio inicial e exija um desenvolvimento significativo para atingir a maturidade, os primeiros passos observados hoje podem ajudar a levar a sistemas futuros que auxiliem os humanos de maneira segura e confiável.
Outro obstáculo na aplicação dos avanços recentes da IA em diversas áreas é a grande quantidade de dados e poder computacional necessários. O DeepSeek demonstra que ainda há um enorme potencial para o desenvolvimento de novos métodos que reduzam a dependência tanto de grandes conjuntos de dados quanto de recursos computacionais pesados. Espero que a academia, em colaboração com a indústria, possa acelerar essas inovações. Ao criar algoritmos mais eficientes, podemos tornar os modelos de linguagem mais acessíveis em dispositivos de ponta (edge devices), eliminando a necessidade de uma conexão contínua com infraestruturas de alto custo. Com a imensa quantidade de conhecimento de senso comum que pode ser incorporada nesses modelos, podemos desenvolver aplicações mais inteligentes, úteis e resilientes – um fator especialmente importante quando estão em jogo questões de grande impacto.
James Landay
Professor de Ciência da Computação e Professor Anand Rajaraman e Venky Harinarayan na Escola de Engenharia da Universidade de Stanford, Co-Diretor do Stanford HAI
O DeepSeek é um avanço positivo para o campo. Eles estão publicando seus trabalhos. Seu modelo foi lançado com pesos abertos, permitindo que outros o modifiquem e também o executem em seus próprios servidores. Eles estão reduzindo os custos da IA. Tudo isso é benéfico para o avanço da pesquisa e das aplicações em IA.
Uma das maiores críticas à inteligência artificial tem sido o impacto ambiental da sustentação de grandes modelos fundamentais e do processamento das consultas/inferências desses modelos. O DeepSeek demonstrou diversas otimizações úteis que reduzem os custos computacionais em ambos os aspectos dessa equação de sustentabilidade da IA. Isso é um avanço positivo para o campo, pois todas as empresas e pesquisadores podem utilizar as mesmas otimizações (documentadas em um relatório técnico e disponibilizadas como código aberto).
“A prática de compartilhar inovações por meio de relatórios técnicos e código aberto dá continuidade à tradição de pesquisa aberta, essencial para o avanço da computação nos últimos 40 anos.”
A prática de compartilhar inovações por meio de relatórios técnicos e código-fonte aberto dá continuidade à tradição de pesquisa aberta, essencial para o avanço da computação nos últimos 40 anos. Como campo de pesquisa, devemos acolher esse tipo de trabalho, pois ele contribui para aprimorar o desenvolvimento de todos. Embora muitas empresas dos Estados Unidos tenham adotado modelos proprietários e ainda existam questões a serem resolvidas, especialmente em relação à privacidade e segurança dos dados, a abordagem aberta do DeepSeek promove um engajamento mais amplo, beneficiando a comunidade global de IA ao estimular iteração, progresso e inovação.
Percy Liang
Professor Associado de Ciência da Computação na Universidade de Stanford, Diretor do Centro de Pesquisa em Modelos Fundamentais (CRFM), Senior Fellow do Stanford HAI
O DeepSeek R1 demonstrou que a IA avançada estará amplamente disponível para todos e será difícil de controlar, além de mostrar que não há fronteiras nacionais. Também evidencia que engenhosidade e engenharia são fatores tão importantes quanto grandes quantidades de poder computacional. Para a academia, a disponibilidade de mais modelos robustos com pesos abertos é uma grande vantagem, pois permite reprodutibilidade, privacidade e o estudo dos aspectos internos da IA avançada.
Christopher Manning
Professor Thomas M. Siebel de Aprendizado de Máquina nos Departamentos de Linguística e Ciência da Computação da Universidade de Stanford, e Diretor Associado do Stanford HAI
As pessoas trataram isso como uma surpresa inesperada, mas não foi, se você vinha acompanhando ativamente o desenvolvimento da IA de código aberto. O DeepSeek tem lançado modelos abertos e publicações técnicas detalhadas há mais de um ano. O custo de treinamento do DeepSeek V3 foi divulgado em dezembro de 2024, e uma prévia do R1-Lite foi lançada em novembro de 2024.
“É um estado lamentável para um país historicamente aberto e promotor da ciência e engenharia abertas que, atualmente, a melhor maneira de aprender sobre os detalhes do design e engenharia dos modernos modelos de linguagem seja por meio dos minuciosos relatórios técnicos das empresas chinesas.”
Este lançamento evidencia que as chamadas empresas de IA “de fronteira” dos EUA não possuem uma vantagem técnica intransponível. Atualmente, existem muitos modelos chineses de grande porte (LLMs) de excelente qualidade. No máximo, essas empresas americanas estão seis meses à frente, e talvez apenas a OpenAI realmente esteja na dianteira.
O DeepSeek realizou um trabalho sólido de engenharia de dados, minimizando o fluxo de dados e permitindo um treinamento eficiente e estável em fp8. Eles apresentaram alguns avanços técnicos modestos, como uma forma distinta de atenção latente multi-cabeça, um grande número de especialistas em uma mistura de especialistas e uma abordagem simples e eficiente de aprendizado por reforço (RL), que vai contra a opinião predominante ao preferir recompensas baseadas em regras. No entanto, não há nenhuma inovação radical aqui. O DeepSeek usa métodos e modelos similares aos de outros, e o DeepSeek-R1 representa um avanço na capacidade de alcançar, com agilidade, uma qualidade comparável ao OpenAI o1, mas não um novo salto em capacidades.
O lançamento do DeepSeek-R1, no entanto, avança significativamente a fronteira dos LLMs de código aberto e sugere que os EUA não conseguirão conter o desenvolvimento desses modelos poderosos. Isso também pode significar que mais empresas americanas começarão a usar modelos chineses em seus próprios produtos, algo que até agora evitavam, preferindo os modelos Llama da Meta ou outros da Databricks, por exemplo.
Julian Nyarko
Professor de Direito na Escola de Direito de Stanford, Diretor Associado do Stanford HAI
Os LLMs são uma “tecnologia de propósito geral” usada em muitos campos. Algumas empresas os desenvolvem, enquanto outras os utilizam para aplicações específicas. Um debate fundamental atualmente é sobre quem deve ser responsabilizado pelo comportamento prejudicial de um modelo – os desenvolvedores que constroem os modelos ou as organizações que os utilizam?
Nesse contexto, os novos modelos do DeepSeek, desenvolvidos por uma startup chinesa, destacam como a natureza global do desenvolvimento da IA pode complicar as respostas regulatórias, especialmente considerando que diferentes países possuem normas jurídicas e entendimentos culturais distintos.
Os controles de exportação têm sido vistos como uma ferramenta importante para garantir que as principais implementações de IA sigam as leis e valores americanos. No entanto, o sucesso do DeepSeek evidencia as limitações dessas medidas quando nações concorrentes conseguem desenvolver e lançar modelos de última geração de forma (relativamente) independente.
A natureza open-source dos lançamentos do DeepSeek torna a questão da responsabilidade legal ainda mais complexa. Com os modelos disponíveis livremente para modificação e implementação, a ideia de que os desenvolvedores podem e irão lidar de maneira eficaz com os riscos apresentados pelos seus modelos pode se tornar cada vez mais irrealista. Em vez disso, o foco regulatório pode precisar se deslocar para as consequências do uso desses modelos, potencialmente atribuindo mais responsabilidade às entidades que os implementam.
Amy Zegart
Senior Fellow da Hoover Institution, Senior Fellow do Instituto Freeman Spogli de Estudos Internacionais no Stanford HAI, e Professora (por cortesia) de Ciência Política
Nas últimas semanas, a discussão sobre o DeepSeek se concentrou em chips e barreiras. Quanto o DeepSeek armazenou, contrabandeou ou inovou para contornar os controles de exportação dos EUA? Quantos e quais tipos de chips são necessários para que os pesquisadores inovem na fronteira tecnológica agora, à luz dos avanços do DeepSeek? Será que as grandes empresas de tecnologia dos EUA, como a OpenAI, gastaram bilhões construindo barreiras competitivas ou apenas uma Linha Maginot que proporcionava uma falsa sensação de segurança? Essas são questões importantes, cujas respostas levarão tempo.
“Quase todos os 200 engenheiros que assinaram o artigo inovador sobre o R1 no mês passado foram educados em universidades chinesas, e cerca de metade nunca estudou ou trabalhou em outro lugar. Isso deveria ser um alerta para os formuladores de políticas dos EUA.”
No entanto, três implicações geopolíticas sérias já são evidentes.
Primeiro, o DeepSeek teve sucesso com talento interno. Quase todos os 200 engenheiros que assinaram o artigo inovador sobre o R1 no mês passado foram educados em universidades chinesas, e cerca de metade nunca estudou ou trabalhou em outro lugar. Isso deveria ser um alerta para os formuladores de políticas dos EUA. No contexto tecnológico, o talento é uma fonte crucial de poder nacional. O mantra de que “os EUA atraem os melhores talentos do mundo” é frequentemente repetido, mas está cada vez mais incorreto. O aumento dos níveis educacionais e a melhoria dramática das instituições de ensino superior na China e em outros países estão redesenhando o mapa do conhecimento. Enquanto isso, o ensino básico nos EUA está em crise – os estudantes americanos de 15 anos ficaram em 34º lugar em matemática no último teste internacional, atrás da Eslovênia e do Vietnã.
Segundo, o DeepSeek não copiou empresas americanas – copiou universidades americanas. A startup contratou jovens engenheiros, em vez de profissionais experientes da indústria, e lhes deu liberdade e recursos para fazer “ciência maluca” focada em descobertas de longo prazo, em vez de desenvolvimento de produtos para o próximo trimestre. A comercialização é uma parte essencial da inovação, mas os avanços geralmente começam com pesquisa fundamental sem uma aplicação ou lucro imediato em vista. Esse tipo de pesquisa é o alicerce das universidades e sustentou a liderança inovadora dos EUA por décadas – dando origem a tecnologias como satélites cúbicos e vacinas contra a COVID-19. No entanto, a China está investindo seis vezes mais rápido em pesquisa fundamental do que o governo dos EUA e, se as tendências atuais continuarem, ultrapassará os EUA em investimento dentro de uma década. Essa é uma arena crucial de inovação a longo prazo, e os EUA estão perdendo terreno.
Terceiro, o anúncio do DeepSeek abalou os mercados dos EUA, levando a uma queda de 3% no índice NASDAQ Composite e a uma queda de 17% nas ações da NVIDIA, apagando US$ 600 bilhões em valor – a maior perda de um único dia na história dos EUA. Esse impacto inesperado hoje pode se tornar uma estratégia deliberada amanhã. Imagine um adversário anunciando um avanço tecnológico, real ou fraudulento, para prejudicar uma empresa específica ou desestabilizar os mercados de capitais de outro país. Essa arma econômica em zona cinzenta pode ser direcionada ou massiva, difícil de atribuir a uma ação deliberada e mais eficaz quando ocorre sem aviso.
Tradução voluntária de Marconi Fabio Vieira
Fonte: https://hai.stanford.edu/news/how-disruptive-deepseek-stanford-hai-faculty-discuss-chinas-new-model
Deixe um comentário