As controversas…ops, complexas relações entre corretor automático e linguagem

“Homossexual entra facilmente nas finais dos Jogos Olímpicos”. Essa foi a polêmica manchete de uma matéria de cobertura das Olimpíadas publicada pelo veículo OneNewsNow, que pretendia comunicar o desempenho do atleta Tyson Gay nas eliminatórias dos 100 metros rasos. Porém, o corretor automático do veículo estava programado para substituir o termo “Gay” por “Homossexual”, causando um erro na tentativa de referir-se ao sobrenome do corredor.

Essa é uma das várias histórias conflituosas envolvendo os corretores automáticos, mas pouco se pensa que para cada uma dessas, ou para a soma de todas elas, pode-se depreender duas perspectivas.

De um lado, observa-se a infelicidade de, nesse caso, um(a) jornalista que se descuidou ao escrever seu texto com o corretor do veículo e pode ter se dado conta disso só quando recebeu milhares de mensagens no celular ou uma carta de demissão, deixando como resultado uma história cômica e, talvez, problemas com boletos a pagar. Por outro lado, vê-se uma geração completamente imersa nas tecnologias contemporâneas e tão amplamente adepta às sugestões da máquina que, por ventura, tem sua forma de comunicação corrompida de modo naturalizado.

O resultado desta última perspectiva, por sua vez, ainda não se sabe e parece ser quase impossível de prever, mas um pouco sobre as relações entre a expressão linguística meio à comunicação com uso intenso de ferramentas de correção automatizada, assim como seus reflexos e implicações, é o que esse texto pretende discutir.

O primórdio da tecnologia tem mão brasileira

Grande parte das pessoas que já digitou em algum editor de texto sabe que há algo a ser revisto se a palavra que escreveu está sublinhada por uma linha ondulada vermelha. O que muita gente não tem conhecimento é de que essa ferramenta foi desenvolvida por cientistas brasileiros. Em 1933, uma empresa de computadores hoje extinta, a Itautec, financiou, junto ao apoio de organizações como a Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp), um grupo de pesquisa de cientistas do Instituto de Ciências Matemáticas e de Computação (ICMC), da Universidade de São Paulo (USP), em São Carlos. Como conta a matéria da BBC, o que na época visava o desenvolvimento de um programa de correção disponível em CD, para o auxílio de produção de redação em escritórios, chegou a tamanho sucesso e sofisticação que, em 2008, os direitos do produto foram vendidos à Microsoft, para compor a versão em português da ferramenta no Word.

A cientista Maria das Graças Nunes, coordenadora do destacado projeto do ICMC, em entrevista ao Laboratório, contou que, desde então, o que mudou foi a forma de se fazer esses corretores. A princípio, o corretor operava apenas com uma associação entre os códigos digitados e um amplo repertório de termos existentes (o corpus), de modo que ao se escrever, por exemplo, “facismo”, o conjunto de letras não era compatível com nenhuma palavra contida no dicionário, mas era próximo de “fascismo”, que por sua vez, era o termo sugerido.

Desde então, a tecnologia vem sofrendo mudanças e ganhando cada vez mais espaço, habilitada nos smartphones e tablets há anos, e caminhando para muito além de um conjunto de termos, já contando com outros de fatores de inteligência. Logo, assim como as demais tarefas de Inteligência Artificial (IA),esse sistema tem evoluído de modo a sofisticar a maneira como o aprendizado da máquina é representado e processado.

Ortografia, parte pequena da língua

Os corretores operam principalmente na pretensão gramatical da linguagem, isto é, a programação se empenha de início para garantir a condição de norma culta do texto, com base também na padronização oficial dos acordos ortográficos de determinado idioma. Tal como para a maioria dos usuários, para a Laura Desuani, estudante de letras da USP, o uso dessa ferramenta no seu dia a dia auxilia na escrita a rigor da norma, mas gera preocupação quanto às implicações no seu próprio domínio ortográfico ao se habituar com a comodidade que dispensa a necessidade de pensar em que letra cai certo acento, por exemplo.

Entretanto, segundo a Luana Amaral, professora e pesquisadora de linguística da Faculdade de Letras da Universidade Federal de Minas Gerais (UFMG), do ponto de vista linguístico, “a existência de um corretor para as normas é muito bom, pois assim há menos preocupação quanto às regras, pouco interferindo prejudicialmente no domínio formal”.

De acordo com a linguista, a ortografia é uma parte muito pequena da língua, apenas uma representação por uma convenção política e social que não a representa em sua totalidade e complexidade e que não contempla as variedades linguísticas. A real problemática, segundo ela, é no que transcende o campo do conjunto de regras gramaticais, chegando à área semântica: os processos de sugestão e substituição automática que levam em conta a adequação textual.

Dentre os mais recentes aprimoramentos está a barra de sugestão, que parece ter a mágica capacidade de prever o que estamos na iminência de digitar, porém, nada a magia tem a ver com isso. A cientista Graça explica que os sistemas de hoje já identificam no corpus os vocábulos do idioma e sua sequências mais recorrentes, e, à medida que se digita o início da palavra, a programação identifica esses prefixos e procura compatibilidade com os termos do repertório,encontrando as palavras mais frequentes na sequência e, provavelmente, chegando àquela que o usuário procurava escrever. Assim, para cada letra digitada, o sistema sabe quais são as mais prováveis a seguir.

Nesse sentido, Amaral explica o motivo de palavras gramaticalmente corretas, constarem como erradas, como as palavras “duvida” e “dúvida”, em que a versão com acentuação é posta como a única correta, uma vez que essa aparece cerca de 130 mil vezes num banco usual para a programação, enquanto a sem acento, apenas 25 mil.

Foi com base nesse processamento de algoritmos que detectam estatisticamente a incidência de termos que o linguista Martin Hilpert mostrou que chave de fenda é uma arma, não uma ferramenta, já que os dados linguísticos mostram que sua ocorrência se dá próxima de verbos violentos como “atacar” e “ameaçar”. Primeiramente, o sistema identifica palavras consideradas ofensivas através da sua proximidade de ocorrência com termos já entendidos como pejorativos. Esse ponto esclarece a confusão do OneNewsNow: a palavra “gay” está ligada majoritária e estatisticamente a termos negativos, desse modo, a máquina a substitui por um sinônimo próximo mais positivo, nesse caso, “homossexual”. Isso, além de mostrar que vivemos em uma sociedade ainda homofóbica, exemplifica que nem sempre essa pressuposição dos significados das palavras e sua substituição sinonímia é eficaz, já que não contemplou a intenção da mensagem.

Impositor automático

Uma vez que essas estatísticas têm como base o majoritário, os grupos minoritários são pouco representados nesse padrão. O grupo LGBTQIA+, exemplificando, pode se incomodar com a categorização do termo “gay” como ofensivo, ao passo que o movimento luta historicamente para ressignificá-lo e não pretende substituí-lo por outro. Nesse sentido, as variedades linguísticas acabam sendo de algum modo suprimidas pela imposição do padrão. “A língua é totalmente atrelada à identidade de uma comunidade e ao seu léxico, então, o “corretor”, considerando o uso de um grupo teoricamente homogêneo, impõe a visão desse grupo sobre os demais.”, disse a linguista. De acordo com a cientista do ICMC, os regionalismos, por exemplo, não são necessariamente considerados nos sistemas de correção, embora isso já ocorra em outras formas de IA.

A professora da UFMG ainda destacou a complexidade dessa substituição sinonímia, afirmando que o escritor sempre tem intenção com a escolha das palavras. Sendo essa eleição de forma não aleatória, dificilmente um sinônimo transmite a essência do significado dentro dessa intencionalidade, do mesmo modo que o número de “O´s” na palavra “nossa” tem sentido próprio: “‘nossa’ é bem diferente de ‘noooooossa’, e ambas estão corretas, não ortográfica, mas semanticamente”.

Por outro lado, Graça apontou a estratégia de atualização dinâmica e personalizada do sistema, ou seja, os algoritmos continuam aprendendo com o usuário, customizando o repertório de termos, direcionando-o àquele em específico, buscando ser mais certeiro ao corrigir o escritor. Ela afirma que a ferramenta não procura entender o significado do texto, pois são muitas as formas de expressão pelo teclado; o ideal é que ocorra essa personalização, mas ainda estamos longe de uma perfeita especialização da máquina, afinal, o único especialista numa língua é o próprio falante. Além disso, se as máquinas alcançarem a capacidade de absorver perfeitamente uma dinâmica tão humana quanto a língua, os corretores serão os menores do nossos problemas.

“Ao invés de corrigir, deveríamos ensinar as regras”, diziam os críticos

Maria das Graças Nunes conta que, pouco depois que a primeira versão do corretor gramatical do português brasileiro foi lançada, se surpreendeu com críticas negativas voltadas ao ensino e à aprendizagem da língua portuguesa, tal como: “Em breve, ninguém vai querer aprender a escrever, pois tudo será corrigido automaticamente”. Nesse ponto, ela nos disse que o objetivo não era substituir de forma alguma o ensino da língua, mas sim que o corretor fosse uma ferramenta auxiliar que seria menos necessária à medida que fosse usada, algo parecido com um caderno de caligrafia.

Entretanto, na visão da alfabetização, o uso intenso da ferramenta parece apresentar outra problemática. Em entrevista ao Laboratório, Marcella Rosa, graduada em letras e professora de língua portuguesa desde 2009, contou-nos que os alunos integrados nessa tecnologia parecem desenvolver uma menor autonomia para revisar os próprios textos, não fazendo a revisão natural que um autor deve fazer.

Já para a Luana Amaral, o grande perigo está na alfabetização, próximo aos seis anos de idade. Nessa etapa, segundo ela, o reconhecimento silábico e fonético é essencial e os “erros” de ortografia têm significado no que tange às hipóteses das crianças sobre a representação gráfica da linguagem. Assim, se a criança digitar “bta” ou “btt” e o corretor entender a intencionalidade e substituir instantaneamente para “batata”, pula-se um processo necessário da alfabetização. Embora o contato de crianças com a internet seja fortemente questionado, a realidade, ainda mais com o ensino a distância meio à pandemia, é de que estamos ingressando cada vez mais precocemente no mundo online.

Desabilitar é possível

Grande parte dos usuários se esquecem, ou não foram avisados, de que há a possibilidade de desabilitar essas tecnologias, caso estejam intervindo de modo pouco proveitoso na sua comunicação, como disse a cientista: “ainda há quem se incomode vez ou outra com as sugestões e possíveis erros e não se dá conta de que é possível simplesmente desabilitá-la”. Marcella retirou a função do e-mail, por achar que a atrapalha. Luanna mantém o corretor, assim como Laura, embora a estudante afirme que não se sente linguisticamente contemplada. E você?

As controversas…ops, complexas relações entre corretor automático e linguagem