Língua japonesa e portuguesa se cruzam em banco de dados de manuscritos

Criado por aluno do curso de Ciência da Computação e professora do Instituto de Estudos Japoneses, ferramenta pode realizar tarefa de reconhecimento de autores de texto manuscrito

Em 1939, antes mesmo de Maringá existir, Mitsuzo Taguchi foi o primeiro imigrante japonês a chegar na região. O patriarca da família veio antes com dois filhos, Torao e Yoshinori, para derrubar as matas das terras que haviam comprado. A senhora Taguchi viria depois para fazer a vida longe da terra natal, dos familiares, das pessoas queridas e da cultura japonesa.

Provavelmente, muitas cartas foram escritas, tanto por ela quanto pelo marido e os dois filhos, na tentativa de matar a saudade de amigos e receber algumas palavras de carinho do outro lado do mundo. Ou também para contar que Torao havia se tornado o primeiro vereador imigrante da cidade. Assim como eles, muitos outros vieram para Maringá, que logo se tornou uma das maiores colônias nipônicas do Paraná.

Embarcando em um clichê de Hollywood, imagina onde poderiam estar todas essas cartas, guardadas com muito carinho e sentimento pela senhora Taguchi ou qualquer outro membro das famílias pioneiras nipônicas, mais de 80 anos depois de escritas? No fundo de uma caixa no guarda-roupa, atrás de um armário antigo, dentro de uma pequena caixa de metal, embaixo de alguma madeira do assoalho ou qualquer lugar misterioso e previsível dos filmes.

Agora, imagina alguns descendentes distantes da família Taguchi, por exemplo, que não moram mais em Maringá, encontrando essas correspondências enquanto esvaziam o último imóvel dos antepassados na cidade. O nome da matriarca é reconhecível na carta, mas o que fazer para descobrir o que significam todos aqueles escritos, desenhos, símbolos ou algo semelhante? Afinal, já foi o tempo em que todos sabiam falar japonês, nem que fosse para conversar com a batchan, avó, em japonês. E como ter certeza que algumas daquelas cartas carregam realmente os textos da pioneira?

Nesse clichê hollywoodiano de Maringá, eles iriam para o Instituto de Estudos Japoneses (IEJ), na UEM, que oferece aula de língua e cultura japonesa para acadêmicos e para a população em geral, desde 1984. A professora Kiyomi Kimura Fugie está lá desde 1995. Então, provavelmente, poderia ajudar a traduzir as saudades daqueles escritos. Mas Kiyomi não é vidente e, portanto, não saberia dizer quem escreveu aqueles sentimentos. Nesse caso, o acadêmico de Ciência da Computação da UEM Luiz Fellipe Machi Pereira, embora também não seja vidente, poderia ajudar.

Com uma bolsa do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e a orientação do professor Yandre Costa, Luiz Fellipe criou o JKBP, um novo banco de dados composto por 570 imagens de manuscritos, construído com a ajuda de 57 voluntários, que produziram, cada um, 10 manuscritos, cinco em português do Brasil e cinco em japonês. Os resultados do projeto foram publicados em um artigo científico (disponível em http://www.din.uem.br/yandre/CIARP25-JKBP.pdf), apresentado em uma conferência internacional de reconhecimento de padrões. Esse banco de dados auxilia no desenvolvimento de tarefas de reconhecimento baseadas em manuscritos. Ou seja, esses dados possibilitam que, em comparação com algum outro texto, em português ou japonês, o autor de um determinado escrito seja identificado.

Portanto, se os familiares da senhora Taguchi tivessem outro texto de sua autoria, que pudesse ser comparado, seria possível identificar se algumas daquelas cartas foram escritas por ela. Mas, onde encontrar outro documento em que saibam com certeza que os textos sejam dela? Vale novamente lembrar que a história é de Hollywood do Norte do Paraná… então, existe um caderno de receitas da matriarca Taguchi em algum lugar, dado de presente para outra mulher da árvore genealógica, para que os segredos culinários da família fossem passados de geração em geração.

O fim da história, em que a autoria das cartas seria revelada, neste momento, não tem mais interesse. O importante agora é saber como e por que o Luiz Fellipe criou o JKBP, o primeiro, até onde se tem conhecimento, banco de dados criado com manuscritos em português e japonês. No vídeo abaixo, ele explica um pouco do processo e dos objetivos do projeto.

JKBP

Para fazer a coleta dessas 570 imagens de manuscritos, Luiz, Yandre e Flavio Uber (professor que também colaborou com o projeto) entraram em contato com a professora Kiyomi, no IEJ, e com a escola de língua japonesa da Associação Cultural Esportiva de Maringá (Acema). As duas instituições cederam espaço e voluntários, e ajudaram na elaboração e correção dos textos utilizados durante a coleta.

O alfabeto japonês escolhido foi o Kana, formado pela junção de dois outros: Hiragana e Katakana, alfabetos base da língua japonesa, com 46 caracteres cada um. O Kana foi escolhido por ser o mais simples, em comparação com outro alfabeto base, o Kanji, com mais de quatro mil caracteres. Foram várias as dificuldades enfrentadas pelos pesquisadores com o Kana. A maior delas? As diferenças entre os textos dos alfabetos Hiragana e Katakana com os do alfabeto português. Diferentemente daqui, em que se usa letra cursiva, um caractere colado ao outro e em uma única linha reta, no Kana, muitas vezes, não existe nem espaço entre as palavras.

Existe também uma diferença entre o Hiragana e o Katakana: um é escrito com a forma mais quadrada, enquanto o outro, mais redonda, diferente do português, em que, em tese, as pessoas tentam fazer sempre uma letra mais arredondada.

“Essa descontinuidade dos caracteres e essa falta de espaços marcados entre eles foi uma questão muito difícil de relacionar com o português, justamente porque no português a gente faz tudo junto e só dá espaço entre uma palavra e outra. A gente tem uma diferenciação entre maiúsculo e minúsculo, tem sinais de pontuação, que são feitos de formas diferentes no Kana”, explica o acadêmico, que estudou um pouco da língua estrangeira por conta própria para poder, sozinho, entender melhor o assunto.

Para a coleta dos manuscritos, os voluntários foram divididos em quatro faixas etárias: de 0 a 14 anos, de 15 a 24, de 25 a 54 e aqueles com mais de 55. Todos os 57 voluntários escreveram cinco textos na língua portuguesa e cinco na língua japonesa. No projeto, para capturar e reconhecer imagens, foi utilizado o detector e descritor Speed Up Robust Features (Surf). Um Support Vector Machine (SVM) foi utilizado para analisar, reconhecer padrões e classificar os manuscritos. As taxas alcançadas foram de 97,98% e 83,77% na identificação do autor, utilizando manuscritos em português e japonês, respectivamente.

Portanto, são grandes as chances de se reconhecer a autoria da senhora Taguchi naquelas cartas até então desconhecidas. Agora, imagine esse banco de dados sendo usado em investigações forenses. É possível identificar criminosos por meio do reconhecimento de manuscritos dos suspeitos, algum membro da Yakuza (máfia criminosa japonesa), quem sabe? Poderíamos certificar se documentos encontrados na Câmara Municipal de Maringá foram escritos por Torao, filho da senhora Taguchi e primeiro vereador imigrante de Maringá. É possível, inclusive, descobrir se o texto escrito na língua japonesa naquele LP dos Beatles, importado do Japão, que você comprou em um sebo, é realmente da pessoa que você imagina: a Yoko Ono! Além dessas, o JKBP pode ser usado de diversas formas.

IEJ

🎧 IEJ – A Língua Japonesa dentro da UEM

Dentro da UEM, o Instituto de Estudos Japoneses também atua na Universidade Aberta à Terceira Idade (Unati). Para os alunos da Unati, Kiyomi dá aula de origami (dobraduras em papel) há mais de oito anos, momento em que também aproveita para ensinar sobre algumas curiosidades da cultura japonesa, como a história do pássaro Tsuru, um dos animais reproduzidos nas dobraduras. 

Enquanto cursava Matemática, área na qual acabou se formando, Kiyomi Kimura Fugie precisou ajudar a mãe a dar aula de japonês na Associação Cultural Esportiva de Cianorte (ACEC). A mãe de Kiyomi veio do Japão para o Brasil com apenas 20 anos e não aprendeu a falar o português, por isso, teve dificuldades quando a geração dos descendentes de japoneses nascidos no Brasil passou a frequentar as suas aulas.

“Quando minha mãe começou a dar aula, não tinha problema, porque, naquela época, todos os alunos falavam japonês. Ela precisava só ensinar a escrita e a leitura. Com o passar do tempo, outras gerações começaram a fazer aula e ela começou a precisar explicar gramática, traços de escrita etc. Ela tinha mais dificuldades, porque ela não falava português e os alunos não entendiam o japonês que ela falava”, explica Kiyomi, que começou a vida como professora de japonês durante esse período em que ajudou a mãe.

Desde 1995 atuando no IEJ da UEM, Kiyomi fez especialização em educação especial e um intercâmbio de nove meses na cidade de Urawa, em Saitama, Japão, com bolsa de estudo da Fundação Japão, onde estudou a língua japonesa e metodologia de ensino.

Tímida, ela tenta minimizar a importância dela e do IEJ no trabalho desenvolvido com o JKBP. Fellipe e Yandre citam todos os auxílios que receberam de Kiyomi. “O IEJ foi fundamental no apoio que eles deram para que a gente conseguisse fazer essa aplicação no contexto específico. Por meio dela, percebemos a importância de identificar parcerias dentro da universidade”, acrescenta Yandre.

O projeto, que foi inspirado no doutorado do professor Diego Bertolini (Professor da UTFPR de Campo Mourão que também participou do projeto), já estava tendo continuidade com um aluno paraguaio, que havia coletado alguns manuscritos em espanhol e guarani. Mas a pandemia não só impossibilitou a volta do acadêmico para Maringá, mas também gerou dificuldades socioeconômicas que o fizeram largar o projeto.

Apesar disso, o fato de uma pesquisa poder ser usada no “mundo real” anima o professor: “Sempre é bom a gente poder verificar que as coisas que a gente desenvolve dentro do laboratório podem ter implicações fora daqui.” 

Que mais pesquisas sejam conhecidas no “mundo real”. Afinal, a conexão da ciência com o dia a dia dos brasileiros nunca foi tão importante quanto agora.

O conteúdo desta página foi produzido por

Texto: Rafael Donadio
Edição de áudio: Valéria Quaglio da Silva
Roteiro de vídeo: Karoline Yasmin
Edição de vídeo: Karoline Yasmin
Supervisão: Ana Paula Machado Velho
Imagens: Arquivo Pessoal
Arte: Murilo Mokwa


Receba nossa newsletter

A pesquisa que mencionamos contribui para os seguintes ODS: