Pass provider inputs in raw payloads

Wauplin · Wauplin · commit d443069bf176 · 2025-03-13T11:20:35.000+01:00
diff --git a/packages/inference/src/snippets/python.ts b/packages/inference/src/snippets/python.ts
@@ -17,6 +17,7 @@ interface TemplateParams {
 	baseUrl?: string;
 	fullUrl?: string;
 	inputs?: object;
+	providerInputs?: object;
 	model?: ModelDataMinimal;
 	provider?: InferenceProvider;
 	providerModelId?: string;
@@ -115,6 +116,18 @@ const snippetGenerator = (templateName: string, inputPreparationFn?: InputPrepar
 			{ chatCompletion: templateName.includes("conversational"), task: model.pipeline_tag as InferenceTask }
 		);
 
+		/// Parse request.info.body if not a binary.
+		/// This is the body sent to the provider. Important for snippets with raw payload (e.g curl, requests, etc.)
+		let providerInputs = inputs;
+		const bodyAsObj = request.info.body;
+		if (typeof bodyAsObj === "string") {
+			try {
+				providerInputs = JSON.parse(bodyAsObj);
+			} catch (e) {
+				console.error("Failed to parse body as JSON", e);
+			}
+		}
+
 		/// Prepare template injection data
 		const params: TemplateParams = {
 			accessToken,
@@ -126,6 +139,11 @@ const snippetGenerator = (templateName: string, inputPreparationFn?: InputPrepar
 				asJsonString: formatBody(inputs, "json"),
 				asPythonString: indentString(formatBody(inputs, "python"), 4),
 			},
+			providerInputs: {
+				asObj: providerInputs,
+				asJsonString: formatBody(providerInputs, "json"),
+				asPythonString: indentString(formatBody(providerInputs, "python"), 4),
+			},
 			model,
 			provider,
 			providerModelId: providerModelId ?? model.id,
diff --git a/packages/inference/src/snippets/templates/python/requests/automaticSpeechRecognition.jinja b/packages/inference/src/snippets/templates/python/requests/automaticSpeechRecognition.jinja
@@ -4,4 +4,4 @@ def query(filename):
     response = requests.post(API_URL, headers=headers, data=data)
     return response.json()
 
-output = query({{ inputs.asObj.inputs }})
+output = query({{ providerInputs.asObj.inputs }})
diff --git a/packages/inference/src/snippets/templates/python/requests/basic.jinja b/packages/inference/src/snippets/templates/python/requests/basic.jinja
@@ -3,5 +3,5 @@ def query(payload):
     return response.json()
 
 output = query({
-    "inputs": {{ inputs.asObj.inputs }},
+    "inputs": {{ providerInputs.asObj.inputs }},
 }) 
diff --git a/packages/inference/src/snippets/templates/python/requests/basicFile.jinja b/packages/inference/src/snippets/templates/python/requests/basicFile.jinja
@@ -4,4 +4,4 @@ def query(filename):
     response = requests.post(API_URL, headers=headers, data=data)
     return response.json()
 
-output = query({{ inputs.asObj.inputs }})
+output = query({{ providerInputs.asObj.inputs }})
diff --git a/packages/inference/src/snippets/templates/python/requests/conversational.jinja b/packages/inference/src/snippets/templates/python/requests/conversational.jinja
@@ -3,8 +3,7 @@ def query(payload):
     return response.json()
 
 response = query({
-    "model": "{{ providerModelId }}",
-{{ inputs.asJsonString }}
+{{ providerInputs.asJsonString }}
 })
 
 print(response["choices"][0]["message"])
diff --git a/packages/inference/src/snippets/templates/python/requests/conversationalStream.jinja b/packages/inference/src/snippets/templates/python/requests/conversationalStream.jinja
@@ -8,8 +8,7 @@ def query(payload):
         yield json.loads(line.decode("utf-8").lstrip("data:").rstrip("/n"))
 
 chunks = query({
-    "model": "{{ providerModelId }}",
-{{ inputs.asJsonString }},
+{{ providerInputs.asJsonString }},
     "stream": True,
 })
 
diff --git a/packages/inference/src/snippets/templates/python/requests/documentQuestionAnswering.jinja b/packages/inference/src/snippets/templates/python/requests/documentQuestionAnswering.jinja
@@ -6,5 +6,5 @@ def query(payload):
     return response.json()
 
 output = query({
-{{ inputs.asJsonString }},
+{{ providerInputs.asJsonString }},
 }) 
diff --git a/packages/inference/src/snippets/templates/python/requests/imageToImage.jinja b/packages/inference/src/snippets/templates/python/requests/imageToImage.jinja
@@ -6,7 +6,7 @@ def query(payload):
     return response.content
 
 image_bytes = query({
-{{ inputs.asJsonString }}
+{{ providerInputs.asJsonString }}
 })
 
 # You can access the image with PIL.Image for example
diff --git a/packages/inference/src/snippets/templates/python/requests/tabular.jinja b/packages/inference/src/snippets/templates/python/requests/tabular.jinja
@@ -4,6 +4,6 @@ def query(payload):
 
 response = query({
     "inputs": {
-        "data": {{ inputs.asObj.inputs }}
+        "data": {{ providerInputs.asObj.inputs }}
     },
 }) 
diff --git a/packages/inference/src/snippets/templates/python/requests/textToAudio.jinja b/packages/inference/src/snippets/templates/python/requests/textToAudio.jinja
@@ -4,7 +4,7 @@ def query(payload):
     return response.content
 
 audio_bytes = query({
-    "inputs": {{ inputs.asObj.inputs }},
+    "inputs": {{ providerInputs.asObj.inputs }},
 })
 # You can access the audio with IPython.display for example
 from IPython.display import Audio
@@ -15,7 +15,7 @@ def query(payload):
     return response.json()
 
 audio, sampling_rate = query({
-    "inputs": {{ inputs.asObj.inputs }},
+    "inputs": {{ providerInputs.asObj.inputs }},
 })
 # You can access the audio with IPython.display for example
 from IPython.display import Audio
diff --git a/packages/inference/src/snippets/templates/python/requests/textToImage.jinja b/packages/inference/src/snippets/templates/python/requests/textToImage.jinja
@@ -4,7 +4,7 @@ def query(payload):
     return response.content
 
 image_bytes = query({
-    "inputs": {{ inputs.asObj.inputs }},
+    "inputs": {{ providerInputs.asObj.inputs }},
 })
 
 # You can access the image with PIL.Image for example
diff --git a/packages/inference/src/snippets/templates/python/requests/zeroShotClassification.jinja b/packages/inference/src/snippets/templates/python/requests/zeroShotClassification.jinja
@@ -3,6 +3,6 @@ def query(payload):
     return response.json()
 
 output = query({
-    "inputs": {{ inputs.asObj.inputs }},
+    "inputs": {{ providerInputs.asObj.inputs }},
     "parameters": {"candidate_labels": ["refund", "legal", "faq"]},
 }) 
diff --git a/packages/inference/src/snippets/templates/python/requests/zeroShotImageClassification.jinja b/packages/inference/src/snippets/templates/python/requests/zeroShotImageClassification.jinja
@@ -9,6 +9,6 @@ def query(data):
     return response.json()
 
 output = query({
-    "image_path": {{ inputs.asObj.inputs }},
+    "image_path": {{ providerInputs.asObj.inputs }},
     "parameters": {"candidate_labels": ["cat", "dog", "llama"]},
 }) 
diff --git a/packages/tasks-gen/snippets-fixtures/conversational-llm-non-stream/1.requests.hf-inference.py b/packages/tasks-gen/snippets-fixtures/conversational-llm-non-stream/1.requests.hf-inference.py
@@ -8,14 +8,14 @@ def query(payload):
     return response.json()
 
 response = query({
-    "model": "meta-llama/Llama-3.1-8B-Instruct",
     "messages": [
         {
             "role": "user",
             "content": "What is the capital of France?"
         }
     ],
-    "max_tokens": 500
+    "max_tokens": 500,
+    "model": "meta-llama/Llama-3.1-8B-Instruct"
 })
 
 print(response["choices"][0]["message"])
diff --git a/packages/tasks-gen/snippets-fixtures/conversational-llm-non-stream/1.requests.together.py b/packages/tasks-gen/snippets-fixtures/conversational-llm-non-stream/1.requests.together.py
@@ -8,14 +8,14 @@ def query(payload):
     return response.json()
 
 response = query({
-    "model": "<together alias for meta-llama/Llama-3.1-8B-Instruct>",
     "messages": [
         {
             "role": "user",
             "content": "What is the capital of France?"
         }
     ],
-    "max_tokens": 500
+    "max_tokens": 500,
+    "model": "<together alias for meta-llama/Llama-3.1-8B-Instruct>"
 })
 
 print(response["choices"][0]["message"])
diff --git a/packages/tasks-gen/snippets-fixtures/conversational-llm-stream/1.requests.hf-inference.py b/packages/tasks-gen/snippets-fixtures/conversational-llm-stream/1.requests.hf-inference.py
@@ -14,14 +14,14 @@ def query(payload):
         yield json.loads(line.decode("utf-8").lstrip("data:").rstrip("/n"))
 
 chunks = query({
-    "model": "meta-llama/Llama-3.1-8B-Instruct",
     "messages": [
         {
             "role": "user",
             "content": "What is the capital of France?"
         }
     ],
     "max_tokens": 500,
+    "model": "meta-llama/Llama-3.1-8B-Instruct",
     "stream": True,
 })
 
diff --git a/packages/tasks-gen/snippets-fixtures/conversational-llm-stream/1.requests.together.py b/packages/tasks-gen/snippets-fixtures/conversational-llm-stream/1.requests.together.py
@@ -14,14 +14,14 @@ def query(payload):
         yield json.loads(line.decode("utf-8").lstrip("data:").rstrip("/n"))
 
 chunks = query({
-    "model": "<together alias for meta-llama/Llama-3.1-8B-Instruct>",
     "messages": [
         {
             "role": "user",
             "content": "What is the capital of France?"
         }
     ],
     "max_tokens": 500,
+    "model": "<together alias for meta-llama/Llama-3.1-8B-Instruct>",
     "stream": True,
 })
 
diff --git a/packages/tasks-gen/snippets-fixtures/conversational-vlm-non-stream/1.requests.fireworks-ai.py b/packages/tasks-gen/snippets-fixtures/conversational-vlm-non-stream/1.requests.fireworks-ai.py
@@ -8,7 +8,6 @@ def query(payload):
     return response.json()
 
 response = query({
-    "model": "<fireworks-ai alias for meta-llama/Llama-3.2-11B-Vision-Instruct>",
     "messages": [
         {
             "role": "user",
@@ -26,7 +25,8 @@ def query(payload):
             ]
         }
     ],
-    "max_tokens": 500
+    "max_tokens": 500,
+    "model": "<fireworks-ai alias for meta-llama/Llama-3.2-11B-Vision-Instruct>"
 })
 
 print(response["choices"][0]["message"])
diff --git a/packages/tasks-gen/snippets-fixtures/conversational-vlm-non-stream/1.requests.hf-inference.py b/packages/tasks-gen/snippets-fixtures/conversational-vlm-non-stream/1.requests.hf-inference.py
@@ -8,7 +8,6 @@ def query(payload):
     return response.json()
 
 response = query({
-    "model": "meta-llama/Llama-3.2-11B-Vision-Instruct",
     "messages": [
         {
             "role": "user",
@@ -26,7 +25,8 @@ def query(payload):
             ]
         }
     ],
-    "max_tokens": 500
+    "max_tokens": 500,
+    "model": "meta-llama/Llama-3.2-11B-Vision-Instruct"
 })
 
 print(response["choices"][0]["message"])
diff --git a/packages/tasks-gen/snippets-fixtures/conversational-vlm-stream/1.requests.fireworks-ai.py b/packages/tasks-gen/snippets-fixtures/conversational-vlm-stream/1.requests.fireworks-ai.py
@@ -14,7 +14,6 @@ def query(payload):
         yield json.loads(line.decode("utf-8").lstrip("data:").rstrip("/n"))
 
 chunks = query({
-    "model": "<fireworks-ai alias for meta-llama/Llama-3.2-11B-Vision-Instruct>",
     "messages": [
         {
             "role": "user",
@@ -33,6 +32,7 @@ def query(payload):
         }
     ],
     "max_tokens": 500,
+    "model": "<fireworks-ai alias for meta-llama/Llama-3.2-11B-Vision-Instruct>",
     "stream": True,
 })
 
diff --git a/packages/tasks-gen/snippets-fixtures/conversational-vlm-stream/1.requests.hf-inference.py b/packages/tasks-gen/snippets-fixtures/conversational-vlm-stream/1.requests.hf-inference.py
@@ -14,7 +14,6 @@ def query(payload):
         yield json.loads(line.decode("utf-8").lstrip("data:").rstrip("/n"))
 
 chunks = query({
-    "model": "meta-llama/Llama-3.2-11B-Vision-Instruct",
     "messages": [
         {
             "role": "user",
@@ -33,6 +32,7 @@ def query(payload):
         }
     ],
     "max_tokens": 500,
+    "model": "meta-llama/Llama-3.2-11B-Vision-Instruct",
     "stream": True,
 })
 

Original file line number	Diff line number	Diff line change
`@@ -14,14 +14,14 @@ def query(payload):`
`14`	`14`	`yield json.loads(line.decode("utf-8").lstrip("data:").rstrip("/n"))`
`15`	`15`
`16`	`16`	`chunks = query({`
`17`		`- "model": "meta-llama/Llama-3.1-8B-Instruct",`
`18`	`17`	`"messages": [`
`19`	`18`	`{`
`20`	`19`	`"role": "user",`
`21`	`20`	`"content": "What is the capital of France?"`
`22`	`21`	`}`
`23`	`22`	`],`
`24`	`23`	`"max_tokens": 500,`
	`24`	`+ "model": "meta-llama/Llama-3.1-8B-Instruct",`
`25`	`25`	`"stream": True,`
`26`	`26`	`})`
`27`	`27`
Original file line number	Diff line number	Diff line change
`@@ -8,7 +8,6 @@ def query(payload):`
`8`	`8`	`return response.json()`
`9`	`9`
`10`	`10`	`response = query({`
`11`		`- "model": "<fireworks-ai alias for meta-llama/Llama-3.2-11B-Vision-Instruct>",`
`12`	`11`	`"messages": [`
`13`	`12`	`{`
`14`	`13`	`"role": "user",`
`@@ -26,7 +25,8 @@ def query(payload):`
`26`	`25`	`]`
`27`	`26`	`}`
`28`	`27`	`],`
`29`		`- "max_tokens": 500`
	`28`	`+ "max_tokens": 500,`
	`29`	`+ "model": "<fireworks-ai alias for meta-llama/Llama-3.2-11B-Vision-Instruct>"`
`30`	`30`	`})`
`31`	`31`
`32`	`32`	`print(response["choices"][0]["message"])`
Original file line number	Diff line number	Diff line change
`@@ -14,7 +14,6 @@ def query(payload):`
`14`	`14`	`yield json.loads(line.decode("utf-8").lstrip("data:").rstrip("/n"))`
`15`	`15`
`16`	`16`	`chunks = query({`
`17`		`- "model": "<fireworks-ai alias for meta-llama/Llama-3.2-11B-Vision-Instruct>",`
`18`	`17`	`"messages": [`
`19`	`18`	`{`
`20`	`19`	`"role": "user",`
`@@ -33,6 +32,7 @@ def query(payload):`
`33`	`32`	`}`
`34`	`33`	`],`
`35`	`34`	`"max_tokens": 500,`
	`35`	`+ "model": "<fireworks-ai alias for meta-llama/Llama-3.2-11B-Vision-Instruct>",`
`36`	`36`	`"stream": True,`
`37`	`37`	`})`
`38`	`38`