Coder Social home page Coder Social logo

gemini-vision.py's Introduction

Transcrição de Imagem com Google Gemini Pro Vision

Este é um script Python que atua como um bot Telegram para transcrever texto de imagens e manter a formatação original. Ele utiliza a biblioteca telethon para interagir com o Telegram, a biblioteca Pillow para manipulação de imagens e uma biblioteca de inteligência artificial da Google, Gemini Pro Vision para reconhecimento e transcrição de texto em imagens.

Este código simplifica a extração de informações de texto de imagens, tornando-a mais eficiente e economizando tempo e esforço. É especialmente útil em diversas situações, tais como:

Extrair legendas de memes. Transcrever texto de documentos ou imagens com formatação especial. Converter texto presente em imagens em um formato de texto legível.

Configuração das Dependências:

Certifique-se de ter todas as bibliotecas necessárias instaladas antes de executar o código. Use os seguintes comandos para instalar as dependências:

pip install telethon pip install pillow pip install -q -U google-generativeai

Configuração da Chave de API do Google:

Você precisará de uma chave de API do Google para autenticar o acesso aos serviços de IA do Google, que são usados para transcrever o texto da imagem. Substitua GOOGLE_API_KEY com sua chave de API no código. Acesso a GOOGLE_API_KEY: https://makersuite.google.com/app/apikey

Configuração do Bot Telegram:

Antes de executar o código, configure seu bot Telegram. Você precisará do api_id, api_hash e do bot_token. Certifique-se de seguir as instruções do Telegram para obter essas credenciais. Acesse a documentação para mais detalhes: https://docs.telethon.dev/en/stable/basic/signing-in.html

Execução do Bot

Após configurar as dependências e as credenciais do Telegram e do Google, execute o bot. O bot ficará online e aguardará mensagens de usuários.

Envie uma imagem contendo o texto que você deseja transcrever para o bot Telegram. O bot irá processar a imagem e retornar a transcrição mantendo a formatação original da imagem.

O bot enviará a transcrição da imagem como uma mensagem de resposta.

gemini-vision.py's People

Contributors

joabychagas avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.