feat: Add audio-text-to-text task. (#1033)

Vaibhavs10 · web-flow · commit afc250e2b7eb · 2024-11-15T20:38:52.000+01:00
There's an increasing number of Audio LMs: 1. https://huggingface.co/collections/reach-vb/ultravox-audio-language-model-release-67373b602af0a52b2a88ae71 2. https://huggingface.co/homebrewltd And.. many more. Will Open PRs after this is merged.
diff --git a/packages/tasks/src/pipelines.ts b/packages/tasks/src/pipelines.ts
@@ -355,6 +355,12 @@ export const PIPELINE_DATA = {
 		modality: "audio",
 		color: "green",
 	},
+	"audio-text-to-text": {
+		name: "Audio-Text-to-Text",
+		modality: "multimodal",
+		color: "red",
+		hideInDatasets: true,
+	},
 	"voice-activity-detection": {
 		name: "Voice Activity Detection",
 		modality: "audio",
diff --git a/packages/tasks/src/tasks/index.ts b/packages/tasks/src/tasks/index.ts
@@ -116,6 +116,7 @@ export const TASKS_MODEL_LIBRARIES: Record<PipelineType, ModelLibraryKey[]> = {
 	"audio-classification": ["speechbrain", "transformers", "transformers.js"],
 	"audio-to-audio": ["asteroid", "fairseq", "speechbrain"],
 	"automatic-speech-recognition": ["espnet", "nemo", "speechbrain", "transformers", "transformers.js"],
+	"audio-text-to-text": [],
 	"depth-estimation": ["transformers", "transformers.js"],
 	"document-question-answering": ["transformers", "transformers.js"],
 	"feature-extraction": ["sentence-transformers", "transformers", "transformers.js"],
@@ -197,6 +198,7 @@ export const TASKS_DATA: Record<PipelineType, TaskData | undefined> = {
 	"any-to-any": getData("any-to-any", placeholder),
 	"audio-classification": getData("audio-classification", audioClassification),
 	"audio-to-audio": getData("audio-to-audio", audioToAudio),
+	"audio-text-to-text": getData("audio-text-to-text", placeholder),
 	"automatic-speech-recognition": getData("automatic-speech-recognition", automaticSpeechRecognition),
 	"depth-estimation": getData("depth-estimation", depthEstimation),
 	"document-question-answering": getData("document-question-answering", documentQuestionAnswering),
diff --git a/packages/widgets/src/lib/components/PipelineIcon/PipelineIcon.svelte b/packages/widgets/src/lib/components/PipelineIcon/PipelineIcon.svelte
@@ -73,6 +73,7 @@
 		"automatic-speech-recognition": IconAutomaticSpeechRecognition,
 		"audio-to-audio": IconAudioToAudio,
 		"audio-classification": IconAudioClassification,
+		"audio-text-to-text": IconAudioToAudio,
 		"voice-activity-detection": IconVoiceActivityDetection,
 		"depth-estimation": IconDepthEstimation,
 		"image-classification": IconImageClassification,