omnimedia

Name: omnimedia
Availability: InStock
Author: vanducng

Community

Multimodal AI for analysis and image generation.

Software Engineering #ai #multimodal #gemini #image-generation #video-generation #audio-processing

Authorvanducng

Version1.0.0

Installs0

System Documentation

What problem does it solve?

Automates multimodal analysis and generation across audio, images, videos, and documents using Gemini and MiniMax, enabling streamlined insight extraction and content production.

Core Features & Use Cases

Multimodal analysis: transcribe audio, OCR text, caption images, classify content, and extract structured data from diverse media formats.
Multimodal generation: create images, videos, speech, and music via Gemini, Imagen, OpenRouter, Codex (subscription), and MiniMax within unified workflows.
Document workflows: convert documents to Markdown, batch process files, and produce reusable artifacts for dashboards or knowledge bases.

Quick Start

Process a set of media files with Gemini to transcribe audio, describe images, and generate a short video.

omnimedia

System Documentation

What problem does it solve?

Core Features & Use Cases

Quick Start

Dependency Matrix

Required Modules

Components

💻 Claude Code Installation

Agent Skills Search Helper