Topic: vision-language Goto Github

Some thing interesting about vision-language

👇 Here are 118 public repositories matching this topic...

ailab-cvc / seed

vision-language,Official implementation of SEED-LLaMA (ICLR 2024).

Organization: ailab-cvc

Home Page: https://ailab-cvc.github.io/seed

foundation-model multimodal vision-language

airaria / visual-chinese-llama-alpaca

vision-language,多模态中文LLaMA&Alpaca大语言模型（VisualCLA）

User: airaria

Home Page: https://github.com/airaria/Visual-Chinese-LLaMA-Alpaca

alpaca chinese llama llm lora multimodal nlp vision-language

algolzw / daclip-uir

vision-language,[ICLR 2024] Controlling Vision-Language Models for Universal Image Restoration. 5th place in the NTIRE 2024 Restore Any Image Model in the Wild Challenge.

User: algolzw

Home Page: https://algolzw.github.io/daclip-uir

diffusion-models image-restoration prompt vision-language face-inpainting image-deblurring image-dehazing image-denoising image-deraining image-desnowing

alibabaresearch / advancedliteratemachinery

vision-language,A collection of original, innovative ideas and algorithms towards Advanced Literate Machinery. This project is maintained by the OCR Team in the Language Technology Lab, Tongyi Lab, Alibaba Group.

Organization: alibabaresearch

artificial-intelligence documentai multimodal multimodal-deep-learning ocr computer-vision vision-language-transformer end-to-end-ocr scene-text-detection scene-text-detection-recognition scene-text-recognition text-detection text-recognition vision-language document document-analysis document-recognition document-understanding document-intelligence vision-language-model

amazon-science / mix-generation

vision-language,MixGen: A New Multi-Modal Data Augmentation

Organization: amazon-science

data-augmentation data-efficiency multimodal pretraining vision-language

astra-vision / poda

vision-language,[ICCV 2023] Official implementation of "PØDA: Prompt-driven Zero-shot Domain Adaptation"

Organization: astra-vision

Home Page: https://astra-vision.github.io/PODA/

deep-learning domain-adaptation feature-augmentation pytorch vision-language zero-shot semantic-segmentation computer-vision clip multi-modal

chendelong1999 / remoteclip

vision-language,🛰️ Official repository of paper "RemoteCLIP: A Vision Language Foundation Model for Remote Sensing" (IEEE TGRS)

User: chendelong1999

Home Page: https://arxiv.org/abs/2306.11029

remote-sensing vision-language contrastive-language-image-pretraining

cliport / cliport

vision-language,CLIPort: What and Where Pathways for Robotic Manipulation

User: cliport

Home Page: https://cliport.github.io

clip robotics vision deep-learning natural-language-processing grounding vision-language manipulation pytorch rearrangement

deeplearning-wisc / mcm

vision-language,PyTorch implementation of MCM (Delving into out-of-distribution detection with vision-language representations), NeurIPS 2022

Organization: deeplearning-wisc

contrastive-learning out-of-distribution-detection representation-learning vision-language

dlcv-buaa / tinyllavabench

vision-language,A Framework of Small-scale Large Multimodal Models

Organization: dlcv-buaa

Home Page: https://arxiv.org/abs/2402.14289

large-multimodal-models llama llava nlp tinyllama transformers vision-language

doc-doc / next-qa

vision-language,NExT-QA: Next Phase of Question-Answering to Explaining Temporal Actions (CVPR'21)

User: doc-doc

causal-temporal-action-reasoning multi-object-interaction video-question-answering video-understanding videoqa vision-language

explainableml / waffleclip

vision-language,Official repository for the ICCV 2023 paper: "Waffling around for Performance: Visual Classification with Random Words and Broad Concepts"

Organization: explainableml

clip generalization llm vision-language

fahadshamshad / clip2protect

vision-language,[CVPR 2023] Official repository of paper titled "CLIP2Protect: Protecting Facial Privacy using Text-Guided Makeup via Adversarial Latent Search".

User: fahadshamshad

Home Page: https://fahadshamshad.github.io/Clip2Protect/

text-guidance text-guided-image-manipulation face-manipulation face-recognition privacy-protection dodging impersonation makeup-transfer stylegan vision-language

google-research / pix2seq

vision-language,Pix2Seq codebase: multi-tasks with generative modeling (autoregressive and diffusion)

Organization: google-research

pix2seq object-detection computer-vision vision-language deep-learning tensorflow2

henghuiding / vision-language-transformer

vision-language,[ICCV2021 & TPAMI2023] Vision-Language Transformer and Query Generation for Referring Segmentation

User: henghuiding

vision-language transformer referring-segmentation tensorflow keras iccv2021 vision-language-transformer tpami

howard-hou / bagformer

vision-language,PyTorch code for BagFormer: Better Cross-Modal Retrieval via bag-wise interaction

User: howard-hou

cross-modal-retrieval image-text-retrieval vision-language

huanglizi / lvit

vision-language,[IEEE Transactions on Medical Imaging/TMI] This repo is the official implementation of "LViT: Language meets Vision Transformer in Medical Image Segmentation"

User: huanglizi

medical-image-analysis pytorch segmentation vision-language multimodal-learning

idea-research / groundingdino

vision-language,Official implementation of the paper "Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection"

Organization: idea-research

Home Page: https://arxiv.org/abs/2303.05499

object-detection open-world open-world-detection vision-language vision-language-transformer

ivonajdenkoska / multimodal-meta-learn

vision-language,Official code repository for "Meta Learning to Bridge Vision and Language Models for Multimodal Few-Shot Learning" (published at ICLR 2023).

User: ivonajdenkoska

few-shot-learning image-captioning meta-learning vision-language visual-question-answering iclr-2023

llm-jp / awesome-japanese-llm

vision-language,日本語LLMまとめ - Overview of Japanese LLMs

Organization: llm-jp

Home Page: https://llm-jp.github.io/awesome-japanese-llm

awesome awesome-list language-model language-models large-language-model large-language-models llm llms japanese japanese-language

longzw1997 / open-groundingdino

vision-language,This is the third party implementation of the paper Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection.

User: longzw1997

object-detection open-world open-world-detection vision-language

lukashermann / hulc

vision-language,Hierarchical Universal Language Conditioned Policies

User: lukashermann

Home Page: http://hulc.cs.uni-freiburg.de

computer-vision deep-learning grounding manipulation natural-language-processing pytorch robotics vision vision-and-language vision-language

marqo-ai / marqo

vision-language,Unified embedding generation and search engine. Also available on cloud - cloud.marqo.ai

Organization: marqo-ai

Home Page: https://www.marqo.ai/

deep-learning information-retrieval machinelearning vector-search tensor-search clip multi-modal search-engine transformers vision-language

marsaki / vln-bevbert

vision-language,[ICCV 2023} Official repo of "BEVBert: Multimodal Map Pre-training for Language-guided Navigation"

User: marsaki

embodied-ai transformer vision-language

mbzuai-oryx / video-chatgpt

vision-language,"Video-ChatGPT" is a video conversation model capable of generating meaningful conversation about videos. It combines the capabilities of LLMs with a pretrained visual encoder adapted for spatiotemporal video representation. We also introduce a rigorous 'Quantitative Evaluation Benchmarking' for video-based conversational models.

Organization: mbzuai-oryx

Home Page: https://mbzuai-oryx.github.io/Video-ChatGPT

chatbot clip gpt-4 llama llava mulit-modal vicuna video-chatboat video-conversation vision-language vision-language-pretraining

mczhuge / kaleido-bert

vision-language,💐Kaleido-BERT: Vision-Language Pre-training on Fashion Domain. (CVPR2021)

User: mczhuge

bert e-commerce fashion pre-training multimodal vision-language

mees / calvin

vision-language,CALVIN - A benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks

User: mees

Home Page: http://calvin.cs.uni-freiburg.de

natural-language-processing robotics deep-learning grounding vision-language manipulation computer-vision pytorch vision vision-and-language

mertyg / vision-language-models-are-bows

vision-language,Experiments and data for the paper "When and why vision-language models behave like bags-of-words, and what to do about it?" Oral @ ICLR 2023

User: mertyg

blip clip compositionality multimodal pytorch vision-language

mikewangwzhl / vidil

vision-language,Pytorch code for Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners

User: mikewangwzhl

blip clip gpt-3 msrvtt msvd vatex video-language vision-language youcook2 vlep

movienet / movienet-tools

vision-language,Tools for movie and video research

Organization: movienet

Home Page: http://movienet.github.io

movie computer-vision video-understanding action-recognition deep-learning vision-language cross-modality shot-detection person-analysis

muzairkhattak / protext

vision-language,Official repository of paper titled "Learning to Prompt with Text Only Supervision for Vision-Language Models".

User: muzairkhattak

Home Page: https://muzairkhattak.github.io/ProText/

vision-language text-only-supervision visual-generalization

ofa-sys / chinese-clip

vision-language,Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

Organization: ofa-sys

chinese computer-vision multi-modal-learning nlp pytorch vision-and-language-pre-training image-text-retrieval clip pretrained-models vision-language

ofa-sys / ofa

vision-language,Official repository of OFA (ICML 2022). Paper: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

Organization: ofa-sys

multimodal pretraining image-captioning text-to-image-synthesis visual-question-answering referring-expression-comprehension vision-language pretrained-models prompt prompt-tuning

ofa-sys / one-peace

vision-language,A general representation model across vision, audio, language modalities. Paper: ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

Organization: ofa-sys

foundation-models multimodal representation-learning vision-language audio-language vision-and-language vision-transformer contrastive-loss

opendrivelab / drivelm

vision-language,DriveLM: Driving with Graph Visual Question Answering

Organization: opendrivelab

Home Page: https://opendrivelab.com/DriveLM/

autonomous-driving large-language-models vision-language chain-of-thought graph-of-thoughts llm prompting tree-of-thoughts prompt-engineering

qiantianwen / nuscenes-qa

vision-language,[AAAI 2024] NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario.

User: qiantianwen

autonomous-driving vision-language visual-question-answering

salesforce / blip

vision-language,PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Organization: salesforce

vision-language vision-and-language-pre-training image-text-retrieval image-captioning visual-question-answering visual-reasoning vision-language-transformer

sauradip / stale

vision-language,[ECCV 2022] Official Pytorch Implementation of the paper : " Zero-Shot Temporal Action Detection via Vision-Language Prompting "

User: sauradip

Home Page: https://sauradip.github.io/project_pages/STALE/

action-detection clip prompt-tuning temporal-action-detection temporal-action-localization transformers video-understanding vision-language

shikras / d-cube

vision-language,A detection/segmentation dataset with labels characterized by intricate and flexible expressions. "Described Object Detection: Liberating Object Detection with Flexible Expressions" (NeurIPS 2023).

Organization: shikras

Home Page: https://arxiv.org/abs/2307.12813

multi-modal-learning object-detection referring-expression-comprehension vision-language dataset open-vocabulary-detection

sunzey / alphaclip

vision-language,[CVPR 2024] Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

User: sunzey

Home Page: https://aleafy.github.io/alpha-clip

deep-learning machine-learning vision-language vision-language-model vision-transformer vision-and-language

txh-mercury / vast

vision-language,Code and Model for VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

User: txh-mercury

Home Page: https://arxiv.org/abs/2305.18500

audio-language dataset vision-language cross-modality-pretraining multimodal-foundation-model vision-audio-subtitle-text

uark-aicv / openfusion

vision-language,[ICRA 2024 Oral] Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation

Organization: uark-aicv

Home Page: https://uark-aicv.github.io/OpenFusion/

3d-reconstruction queryable vision-language icra2024

uark-aicv / vltint

vision-language,[AAAI 2023 Oral] VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video Paragraph Captioning

Organization: uark-aicv

Home Page: https://uark-aicv.github.io/VLTinT/

aaai2023 transformer-architecture video-captioning vision-language pytorch video-paragraph-captioning

victorwz / valm

vision-language,VaLM: Visually-augmented Language Modeling. ICLR 2023.

User: victorwz

Home Page: https://openreview.net/forum?id=8IN-qLkl215

deep-learning pre-trained-language-models vision-language visually-grounded-language-learning

wisconsinaivision / vip-llava

vision-language,[CVPR2024] ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts

Organization: wisconsinaivision

Home Page: https://vip-llava.github.io/

chatbot clip foundation-models gpt-4 gpt-4-vision llama llama2 llava multi-modal vision-language

woodfrog / vse_infty

vision-language,Code for "Learning the Best Pooling Strategy for Visual Semantic Embedding", CVPR 2021

User: woodfrog

Home Page: https://vse-infty.github.io/

vse image-text-matching cross-modal-retrieval vision-language visual-semantic pytorch

yangli18 / vltvg

vision-language,Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning, CVPR 2022

User: yangli18

cross-modal vision-language visual-grounding visual-linguistic

zchoi / pkol

vision-language,[TIP 2022] Official code of paper “Video Question Answering with Prior Knowledge and Object-sensitive Learning”

User: zchoi

Home Page: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9882977

pytorch pytorch-implementation video-question-answering video-retrieval vision-language

zchoi / s2-transformer

vision-language,[IJCAI 2022] Official Pytorch code for paper “S2 Transformer for Image Captioning”

User: zchoi

Home Page: https://www.ijcai.org/proceedings/2022/0224.pdf

ijcai2022 image-captioning transformer vision-language pytorch ms-coco pseudo-classes pseudo-labeling

zjr2000 / awesome-multimodal-chatbot

vision-language,Awesome Multimodal Assistant is a curated list of multimodal chatbots/conversational assistants that utilize various modes of interaction, such as text, speech, images, and videos, to provide a seamless and versatile user experience.

User: zjr2000

general-ai instruction-tuning multimodal vision-language multimodal-dialogue multimodal-assistant chat-application instruction-following chatbot awesome

Topic: vision-language Goto Github

👇 Here are 118 public repositories matching this topic...

ailab-cvc / seed

airaria / visual-chinese-llama-alpaca

algolzw / daclip-uir

alibabaresearch / advancedliteratemachinery

amazon-science / mix-generation

astra-vision / poda

chendelong1999 / remoteclip

cliport / cliport

deeplearning-wisc / mcm

dlcv-buaa / tinyllavabench

doc-doc / next-qa

explainableml / waffleclip

fahadshamshad / clip2protect

google-research / pix2seq

henghuiding / vision-language-transformer

howard-hou / bagformer

huanglizi / lvit

idea-research / groundingdino

ivonajdenkoska / multimodal-meta-learn

llm-jp / awesome-japanese-llm

longzw1997 / open-groundingdino

lukashermann / hulc

marqo-ai / marqo

marsaki / vln-bevbert

mbzuai-oryx / video-chatgpt

mczhuge / kaleido-bert

mees / calvin

mertyg / vision-language-models-are-bows

mikewangwzhl / vidil

movienet / movienet-tools

muzairkhattak / protext

ofa-sys / chinese-clip

ofa-sys / ofa

ofa-sys / one-peace

opendrivelab / drivelm

qiantianwen / nuscenes-qa

salesforce / blip

sauradip / stale

shikras / d-cube

sunzey / alphaclip

txh-mercury / vast

uark-aicv / openfusion

uark-aicv / vltint

victorwz / valm

wisconsinaivision / vip-llava

woodfrog / vse_infty

yangli18 / vltvg

zchoi / pkol

zchoi / s2-transformer

zjr2000 / awesome-multimodal-chatbot

Recommend Projects

Recommend Topics

Recommend Org