Tendências na área de dados para 2024

Os dados vêm assumindo um protagonismo cada vez maior na área de tecnologia. A continuidade do processo de transformação digital da sociedade como um todo, bem como o surgimento de novas tecnologias que permitem uma maior extração de valor das informações disponíveis, fazem com que a disponibilidade de dados seja tão importante nos ciclos de evolução tecnológica quanto a disponibilidade de poder computacional. A principal tendência para 2024 é, com certeza, a intensificação dessa centralidade dos dados para as empresas, pessoas e governos.

O avanço da inteligência artificial ao longo de 2023, em particular, vem transformando significativamente a forma como organizações utilizam dados para gerar valor, e ocasionando também importantes discussões sobre acesso, privacidade, vieses e propriedade da informação.

Neste artigo, aproveitando o momento de virada do ano, vamos detalhar as principais tendências na área de dados para 2024 e mostrar como os dados continuarão delineando as inovações que estão moldando o futuro da transformação digital. Vamos lá?

Produtização dos Dados

Uma das principais consequências da popularização de Modelos de Linguagem de Grande Escala (LLMs), como o ChatGPT, e do surgimento de modelos chamados de “multimodais”, ou seja, que são capazes de processar e gerar dados em diferentes formatos (texto, imagens, vídeo, voz, etc), foi um evidenciamento da importância dos dados para a inteligência artificial. Um dos maiores diferenciais desses modelos sobre técnicas mais clássicas de IA é justamente o volume de informações processadas no treinamento e no processamento que eles realizam.

A maioria dos modelos populares que estão hoje no mercado foram treinados a partir de grandes conjuntos de dados públicos, sem uma preocupação com questões de direito autoral ou propriedade intelectual. Embora essa tenha sido uma estratégia bem sucedida para o lançamento inicial dos produtos, ela está rapidamente se mostrando insustentável. Basta ver os processos que já estão sendo movidos contra as empresas mais proeminentes da área de IA.

Independente do resultado alcançado nesses processos, o que ficou evidenciado é a importância da obtenção de dados de qualidade para o treinamento desses modelos, e das novas versões que serão lançadas no futuro. E, para garantir a segurança jurídica dos potenciais clientes dessas inteligências artificiais, é fundamental que esses dados passem a ser obtidos de uma forma mais “bem comportada”, suportada por acordos comerciais entre as empresas que constroem os modelos e as detentoras da informação.

Assim, uma tendência que observamos para 2024 é a criação de cada vez mais “produtos” de dados para serem vendidos para quem está construindo novos LLMs, ou para quem está customizando esses modelos para alguma aplicação específica. Os grandes detentores de dados (grandes sites, jornais, arquivos de fotos, e assim por diante) têm em mãos uma oportunidade única de monetização de suas informações, e com certeza não vão deixar ela passar. Vamos ver esses grandes acervos sendo oferecidos em diferentes modelos comerciais para os desenvolvedores de modelos, o que abre também a oportunidade de venda para outros casos de uso.

Redução Computacional

Até agora, uma das características marcantes do processamento de grandes volumes de dados foi a necessidade de grandes volumes de computadores para realizar esse processamento. Ao longo de 2023, foi possível observar o aumento de valor das empresas que desenvolvem os chips de computador especializados no treinamento de inteligências artificiais, devido a alta demanda por esses chips. Não só isso, mas um dos mantras do mercado tem sido que grandes quantidades de poder computacional são fundamentais para qualquer empresa que queira adentrar na área de IA.

Em 2024, devemos começar a ver essa tendência se reverter. Com a popularização desses modelos, e a publicação de dezenas de versões de código-aberto (open source) deles, temos cada vez mais pesquisadores e desenvolvedores trabalhando na otimização dos algoritmos e processos de tratamento de dados, resultando em uma queda no custo computacional para o desenvolvimento de novos modelos.

Se seguirmos as tendências de tecnologias anteriores, o mais provável é vermos uma redução significativa (50%) no custo computacional para o treino de um modelo equivalente a cada 18 ou 24 meses, o que significa que já vamos ver reduções expressivas ao longo de 2024.

Essa redução no custo computacional abre a porta para cada vez mais empresas atuarem com a inteligência artificial no seu dia-a-dia, e expandirem seus processos de geração de valor a partir dos dados.

Privacidade e segurança de dados

Embora não seja uma nova tendência na área de dados, a explosão na capacidade de tratamento e descoberta de padrões dentro dos mais diferentes tipos de dados, que foi trazida à tona pelas capacidades quase mágicas dos novos modelos de inteligência artificial, traz uma nova urgência nos temas relacionados com a privacidade e a proteção dos dados dos indivíduos ao redor do mundo.

Já estamos vendo os primeiros movimentos nessa direção, com a evolução do AI Act na União Europeia, que deve ter várias de suas cláusulas e elementos regulatórios refletidos em outras leis ao redor do mundo, da mesma forma que ocorreu com a LGPD.

Além da intensificação do movimento regulatório por parte do governo, há uma tendência grande de conscientização do público sobre a importância da proteção dos dados (até mais do que sobre privacidade propriamente dita). Isso cria uma dupla pressão sobre as empresas: de um lado, temos a sociedade pressionando para que elas cuidem melhor de suas informações; do outro, o governo acompanhando o uso dos dados e pressionando para que não ocorram abusos de poder.

Nesse cenário, a implementação de medidas robustas para garantir que as informações dos usuários sejam tratadas com o mais alto grau de segurança e respeito passam a ser uma necessidade básica, e não um item de luxo para as companhias.

Automação do Tratamento de Dados

Uma das tendências mais dominantes na área de tecnologia como um todo, que surge como consequência da evolução das ferramentas de inteligência artificial, é a automação dos diferentes tipos de trabalho. Da programação à escrita de fórmulas no Excel, esse conhecimento específico necessário para atuar na área técnica está cada vez mais sendo suprido pelos chamados “co-pilotos”, inteligências artificiais capazes de gerar automaticamente o código-fonte, fórmula matemática, ou qualquer outro conteúdo técnico necessário para a construção de um produto.

Na área de dados, não vai ser diferente. O tratamento de dados, que ainda é feito em grande parte de forma manual, vai ser cada vez mais automatizado. Isso traz dois efeitos colaterais significativos. O primeiro é que fica possível para um número cada vez maior de pessoas trabalhar com dados, porque a barreira de conhecimento específico de ferramentas e tecnologias está sendo removida. O segundo, que decorre desse primeiro, é a redução no valor de mercado dos profissionais dessa área, o que também reduz o custo das empresas no trabalho com dados.

A automação traz a possibilidade da orquestração mais eficiente dos fluxos de informação, permitindo assim a integração fluida do trabalho e a execução coordenada de processos, otimizando a utilização dos recursos disponíveis.

Curioso para explorar as tendências mais quentes na área de dados em 2024? Siga agora as redes da BigDataCorp, a maior datatech da América Latina.

Como líder de mercado, operamos um dos maiores processos de coleta e estruturação de dados do mundo, impulsionando a estratégia de milhares de empresas através dos dados.

Acompanhe de perto a revolução dos dados!