huggingface · Wauplin · Mar 13, 2025 · Mar 13, 2025 · Mar 13, 2025 · Mar 13, 2025
diff --git a/packages/inference/src/snippets/python.ts b/packages/inference/src/snippets/python.ts
@@ -17,11 +17,13 @@ interface TemplateParams {
 	baseUrl?: string;
 	fullUrl?: string;
 	inputs?: object;
+	providerInputs?: object;
 	model?: ModelDataMinimal;
 	provider?: InferenceProvider;
 	providerModelId?: string;
 	methodName?: string; // specific to snippetBasic
 	importBase64?: boolean; // specific to snippetImportRequests
+	importJson?: boolean; // specific to snippetImportRequests
 }
 
 // Helpers to find + load templates
@@ -114,6 +116,18 @@ const snippetGenerator = (templateName: string, inputPreparationFn?: InputPrepar
 			{ chatCompletion: templateName.includes("conversational"), task: model.pipeline_tag as InferenceTask }
 		);
 
+		/// Parse request.info.body if not a binary.
+		/// This is the body sent to the provider. Important for snippets with raw payload (e.g curl, requests, etc.)
+		let providerInputs = inputs;
+		const bodyAsObj = request.info.body;
+		if (typeof bodyAsObj === "string") {
+			try {
+				providerInputs = JSON.parse(bodyAsObj);
+			} catch (e) {
+				console.error("Failed to parse body as JSON", e);
+			}
+		}
+
 		/// Prepare template injection data
 		const params: TemplateParams = {
 			accessToken,
@@ -125,6 +139,11 @@ const snippetGenerator = (templateName: string, inputPreparationFn?: InputPrepar
 				asJsonString: formatBody(inputs, "json"),
 				asPythonString: indentString(formatBody(inputs, "python"), 4),
 			},
+			providerInputs: {
+				asObj: providerInputs,
+				asJsonString: formatBody(providerInputs, "json"),
+				asPythonString: indentString(formatBody(providerInputs, "python"), 4),
+			},
 			model,
 			provider,
 			providerModelId: providerModelId ?? model.id,
@@ -157,6 +176,7 @@ const snippetGenerator = (templateName: string, inputPreparationFn?: InputPrepar
 				const importSection = snippetImportRequests({
 					...params,
 					importBase64: snippet.includes("base64"),
+					importJson: snippet.includes("json."),
 				});
 				snippet = `${importSection}\n\n${snippet}`;
 			}

diff --git a/packages/inference/src/snippets/templates/python/openai/conversationalStream.jinja b/packages/inference/src/snippets/templates/python/openai/conversationalStream.jinja
@@ -12,4 +12,4 @@ stream = client.chat.completions.create(
 )
 
 for chunk in stream:
-    print(chunk.choices[0].delta.content, end="") 
+    print(chunk.choices[0].delta.content, end="")
diff --git a/packages/inference/src/snippets/templates/python/requests/automaticSpeechRecognition.jinja b/packages/inference/src/snippets/templates/python/requests/automaticSpeechRecognition.jinja
@@ -4,4 +4,4 @@ def query(filename):
     response = requests.post(API_URL, headers=headers, data=data)
     return response.json()
 
-output = query({{ inputs.asObj.inputs }})
+output = query({{ providerInputs.asObj.inputs }})
diff --git a/packages/inference/src/snippets/templates/python/requests/basic.jinja b/packages/inference/src/snippets/templates/python/requests/basic.jinja
@@ -3,5 +3,5 @@ def query(payload):
     return response.json()
 
 output = query({
-    "inputs": {{ inputs.asObj.inputs }},
+    "inputs": {{ providerInputs.asObj.inputs }},
 }) 
diff --git a/packages/inference/src/snippets/templates/python/requests/basicFile.jinja b/packages/inference/src/snippets/templates/python/requests/basicFile.jinja
@@ -4,4 +4,4 @@ def query(filename):
     response = requests.post(API_URL, headers=headers, data=data)
     return response.json()
 
-output = query({{ inputs.asObj.inputs }})
+output = query({{ providerInputs.asObj.inputs }})
diff --git a/packages/inference/src/snippets/templates/python/requests/conversational.jinja b/packages/inference/src/snippets/templates/python/requests/conversational.jinja
@@ -0,0 +1,9 @@
+def query(payload):
+    response = requests.post(API_URL, headers=headers, json=payload)
+    return response.json()
+
+response = query({
+{{ providerInputs.asJsonString }}
+})
+
+print(response["choices"][0]["message"])
diff --git a/packages/inference/src/snippets/templates/python/requests/conversationalStream.jinja b/packages/inference/src/snippets/templates/python/requests/conversationalStream.jinja
@@ -0,0 +1,16 @@
+def query(payload):
+    response = requests.post(API_URL, headers=headers, json=payload, stream=True)
+    for line in response.iter_lines():
+        if not line.startswith(b"data:"):
+            continue
+        if line.strip() == b"data: [DONE]":
+            return
+        yield json.loads(line.decode("utf-8").lstrip("data:").rstrip("/n"))
+
+chunks = query({
+{{ providerInputs.asJsonString }},
+    "stream": True,
+})
+
+for chunk in chunks:
+    print(chunk["choices"][0]["delta"]["content"], end="")
diff --git a/packages/inference/src/snippets/templates/python/requests/documentQuestionAnswering.jinja b/packages/inference/src/snippets/templates/python/requests/documentQuestionAnswering.jinja
@@ -6,5 +6,5 @@ def query(payload):
     return response.json()
 
 output = query({
-{{ inputs.asJsonString }},
+{{ providerInputs.asJsonString }},
 }) 
diff --git a/packages/inference/src/snippets/templates/python/requests/imageToImage.jinja b/packages/inference/src/snippets/templates/python/requests/imageToImage.jinja
@@ -6,7 +6,7 @@ def query(payload):
     return response.content
 
 image_bytes = query({
-{{ inputs.asJsonString }}
+{{ providerInputs.asJsonString }}
 })
 
 # You can access the image with PIL.Image for example

diff --git a/packages/inference/src/snippets/templates/python/requests/importRequests.jinja b/packages/inference/src/snippets/templates/python/requests/importRequests.jinja
@@ -1,6 +1,9 @@
 {% if importBase64 %}
 import base64
 {% endif %}
+{% if importJson %}
+import json
+{% endif %}
 import requests
 
 API_URL = "{{ fullUrl }}"

diff --git a/packages/inference/src/snippets/templates/python/requests/tabular.jinja b/packages/inference/src/snippets/templates/python/requests/tabular.jinja
@@ -4,6 +4,6 @@ def query(payload):
 
 response = query({
     "inputs": {
-        "data": {{ inputs.asObj.inputs }}
+        "data": {{ providerInputs.asObj.inputs }}
     },
 }) 
diff --git a/packages/inference/src/snippets/templates/python/requests/textToAudio.jinja b/packages/inference/src/snippets/templates/python/requests/textToAudio.jinja
@@ -4,7 +4,7 @@ def query(payload):
     return response.content
 
 audio_bytes = query({
-    "inputs": {{ inputs.asObj.inputs }},
+    "inputs": {{ providerInputs.asObj.inputs }},
 })
 # You can access the audio with IPython.display for example
 from IPython.display import Audio
@@ -15,7 +15,7 @@ def query(payload):
     return response.json()
 
 audio, sampling_rate = query({
-    "inputs": {{ inputs.asObj.inputs }},
+    "inputs": {{ providerInputs.asObj.inputs }},
 })
 # You can access the audio with IPython.display for example
 from IPython.display import Audio

diff --git a/packages/inference/src/snippets/templates/python/requests/textToImage.jinja b/packages/inference/src/snippets/templates/python/requests/textToImage.jinja
@@ -4,7 +4,7 @@ def query(payload):
     return response.content
 
 image_bytes = query({
-    "inputs": {{ inputs.asObj.inputs }},
+    "inputs": {{ providerInputs.asObj.inputs }},
 })
 
 # You can access the image with PIL.Image for example

diff --git a/packages/inference/src/snippets/templates/python/requests/zeroShotClassification.jinja b/packages/inference/src/snippets/templates/python/requests/zeroShotClassification.jinja
@@ -3,6 +3,6 @@ def query(payload):
     return response.json()
 
 output = query({
-    "inputs": {{ inputs.asObj.inputs }},
+    "inputs": {{ providerInputs.asObj.inputs }},
     "parameters": {"candidate_labels": ["refund", "legal", "faq"]},
 }) 
diff --git a/packages/inference/src/snippets/templates/python/requests/zeroShotImageClassification.jinja b/packages/inference/src/snippets/templates/python/requests/zeroShotImageClassification.jinja
@@ -9,6 +9,6 @@ def query(data):
     return response.json()
 
 output = query({
-    "image_path": {{ inputs.asObj.inputs }},
+    "image_path": {{ providerInputs.asObj.inputs }},
     "parameters": {"candidate_labels": ["cat", "dog", "llama"]},
 }) 
diff --git a/...ages/tasks-gen/snippets-fixtures/conversational-llm-non-stream/1.requests.hf-inference.py b/...ages/tasks-gen/snippets-fixtures/conversational-llm-non-stream/1.requests.hf-inference.py
@@ -0,0 +1,21 @@
+import requests
+
+API_URL = "https://router.huggingface.co/hf-inference/models/meta-llama/Llama-3.1-8B-Instruct/v1/chat/completions"
+headers = {"Authorization": "Bearer api_token"}
+
+def query(payload):
+    response = requests.post(API_URL, headers=headers, json=payload)
+    return response.json()
+
+response = query({
+    "messages": [
+        {
+            "role": "user",
+            "content": "What is the capital of France?"
+        }
+    ],
+    "max_tokens": 500,
+    "model": "meta-llama/Llama-3.1-8B-Instruct"
+})
+
+print(response["choices"][0]["message"])
diff --git a/packages/tasks-gen/snippets-fixtures/conversational-llm-non-stream/1.requests.together.py b/packages/tasks-gen/snippets-fixtures/conversational-llm-non-stream/1.requests.together.py
@@ -0,0 +1,21 @@
+import requests
+
+API_URL = "https://api.together.xyz/v1/chat/completions"
+headers = {"Authorization": "Bearer api_token"}
+
+def query(payload):
+    response = requests.post(API_URL, headers=headers, json=payload)
+    return response.json()
+
+response = query({
+    "messages": [
+        {
+            "role": "user",
+            "content": "What is the capital of France?"
+        }
+    ],
+    "max_tokens": 500,
+    "model": "<together alias for meta-llama/Llama-3.1-8B-Instruct>"
+})
+
+print(response["choices"][0]["message"])
diff --git a/...l-llm-non-stream/1.openai.hf-inference.py → ...l-llm-non-stream/2.openai.hf-inference.py b/...l-llm-non-stream/1.openai.hf-inference.py → ...l-llm-non-stream/2.openai.hf-inference.py
diff --git a/...ional-llm-non-stream/1.openai.together.py → ...ional-llm-non-stream/2.openai.together.py b/...ional-llm-non-stream/1.openai.together.py → ...ional-llm-non-stream/2.openai.together.py
diff --git a/packages/tasks-gen/snippets-fixtures/conversational-llm-stream/1.requests.hf-inference.py b/packages/tasks-gen/snippets-fixtures/conversational-llm-stream/1.requests.hf-inference.py
@@ -0,0 +1,29 @@
+import json
+import requests
+
+API_URL = "https://router.huggingface.co/hf-inference/models/meta-llama/Llama-3.1-8B-Instruct/v1/chat/completions"
+headers = {"Authorization": "Bearer api_token"}
+
+def query(payload):
+    response = requests.post(API_URL, headers=headers, json=payload, stream=True)
+    for line in response.iter_lines():
+        if not line.startswith(b"data:"):
+            continue
+        if line.strip() == b"data: [DONE]":
+            return
+        yield json.loads(line.decode("utf-8").lstrip("data:").rstrip("/n"))
+
+chunks = query({
+    "messages": [
+        {
+            "role": "user",
+            "content": "What is the capital of France?"
+        }
+    ],
+    "max_tokens": 500,
+    "model": "meta-llama/Llama-3.1-8B-Instruct",
+    "stream": True,
+})
+
+for chunk in chunks:
+    print(chunk["choices"][0]["delta"]["content"], end="")
diff --git a/packages/tasks-gen/snippets-fixtures/conversational-llm-stream/1.requests.together.py b/packages/tasks-gen/snippets-fixtures/conversational-llm-stream/1.requests.together.py
@@ -0,0 +1,29 @@
+import json
+import requests
+
+API_URL = "https://api.together.xyz/v1/chat/completions"
+headers = {"Authorization": "Bearer api_token"}
+
+def query(payload):
+    response = requests.post(API_URL, headers=headers, json=payload, stream=True)
+    for line in response.iter_lines():
+        if not line.startswith(b"data:"):
+            continue
+        if line.strip() == b"data: [DONE]":
+            return
+        yield json.loads(line.decode("utf-8").lstrip("data:").rstrip("/n"))
+
+chunks = query({
+    "messages": [
+        {
+            "role": "user",
+            "content": "What is the capital of France?"
+        }
+    ],
+    "max_tokens": 500,
+    "model": "<together alias for meta-llama/Llama-3.1-8B-Instruct>",
+    "stream": True,
+})
+
+for chunk in chunks:
+    print(chunk["choices"][0]["delta"]["content"], end="")
diff --git a/...ional-llm-stream/1.openai.hf-inference.py → ...ional-llm-stream/2.openai.hf-inference.py b/...ional-llm-stream/1.openai.hf-inference.py → ...ional-llm-stream/2.openai.hf-inference.py
diff --git a/...rsational-llm-stream/1.openai.together.py → ...rsational-llm-stream/2.openai.together.py b/...rsational-llm-stream/1.openai.together.py → ...rsational-llm-stream/2.openai.together.py
diff --git a/...ages/tasks-gen/snippets-fixtures/conversational-vlm-non-stream/1.requests.fireworks-ai.py b/...ages/tasks-gen/snippets-fixtures/conversational-vlm-non-stream/1.requests.fireworks-ai.py
@@ -0,0 +1,32 @@
+import requests
+
+API_URL = "https://api.fireworks.ai/inference/v1/chat/completions"
+headers = {"Authorization": "Bearer api_token"}
+
+def query(payload):
+    response = requests.post(API_URL, headers=headers, json=payload)
+    return response.json()
+
+response = query({
+    "messages": [
+        {
+            "role": "user",
+            "content": [
+                {
+                    "type": "text",
+                    "text": "Describe this image in one sentence."
+                },
+                {
+                    "type": "image_url",
+                    "image_url": {
+                        "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
+                    }
+                }
+            ]
+        }
+    ],
+    "max_tokens": 500,
+    "model": "<fireworks-ai alias for meta-llama/Llama-3.2-11B-Vision-Instruct>"
+})
+
+print(response["choices"][0]["message"])
diff --git a/...ages/tasks-gen/snippets-fixtures/conversational-vlm-non-stream/1.requests.hf-inference.py b/...ages/tasks-gen/snippets-fixtures/conversational-vlm-non-stream/1.requests.hf-inference.py
@@ -0,0 +1,32 @@
+import requests
+
+API_URL = "https://router.huggingface.co/hf-inference/models/meta-llama/Llama-3.2-11B-Vision-Instruct/v1/chat/completions"
+headers = {"Authorization": "Bearer api_token"}
+
+def query(payload):
+    response = requests.post(API_URL, headers=headers, json=payload)
+    return response.json()
+
+response = query({
+    "messages": [
+        {
+            "role": "user",
+            "content": [
+                {
+                    "type": "text",
+                    "text": "Describe this image in one sentence."
+                },
+                {
+                    "type": "image_url",
+                    "image_url": {
+                        "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
+                    }
+                }
+            ]
+        }
+    ],
+    "max_tokens": 500,
+    "model": "meta-llama/Llama-3.2-11B-Vision-Instruct"
+})
+
+print(response["choices"][0]["message"])
diff --git a/...l-vlm-non-stream/1.openai.fireworks-ai.py → ...l-vlm-non-stream/2.openai.fireworks-ai.py b/...l-vlm-non-stream/1.openai.fireworks-ai.py → ...l-vlm-non-stream/2.openai.fireworks-ai.py
diff --git a/...l-vlm-non-stream/1.openai.hf-inference.py → ...l-vlm-non-stream/2.openai.hf-inference.py b/...l-vlm-non-stream/1.openai.hf-inference.py → ...l-vlm-non-stream/2.openai.hf-inference.py