Single-file Deployment

tc-wolf · tc-wolf · commit 0c41b7fe7a97 · 2024-08-19T15:53:58.000-05:00
Add libggml.so and libllama.so under `llama_cpp/lib` (path expected in
`_load_shared_library` in `llama_cpp.py`).

This means that will be able to locate once bundled.

Also prevent from adding *full* OpenBLAS dir (unnecessary) and just the
`libopenblas.so` onece built.  This shrinks binary size from 200 MB to
40 MB.
diff --git a/Dockerfile b/Dockerfile
@@ -15,6 +15,7 @@ RUN mv /OpenBLAS /opt/OpenBLAS && cd /opt/OpenBLAS && make install PREFIX=/usr/
 RUN PKG_CONFIG_PATH="/opt/OpenBLAS/install/lib/pkgconfig" CMAKE_ARGS="-DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS -DGGML_LLAMAFILE=1" pip install -e .[server]
 
 RUN cd /root && pyinstaller -DF /llama_cpp/server/__main__.py \
-    --add-data /opt/OpenBLAS/:. \
-    --add-data /llama_cpp/:. \
+    --add-data /usr/lib/libopenblas.so:. \
+    --add-data /llama_cpp/lib/libllama.so:llama_cpp/lib \
+    --add-data /llama_cpp/lib/libggml.so:llama_cpp/lib \
     -n llama-cpp-py-server
diff --git a/Makefile b/Makefile
@@ -69,7 +69,6 @@ deploy.docker:
 	CONTAINER_ID=$$(docker ps -lq --filter ancestor=openblas_server_$(COMMIT)) ; \
 	echo Container ID: $$CONTAINER_ID ; \
 	docker cp $$CONTAINER_ID:/root/dist/llama-cpp-py-server - | pigz -9 > llama-cpp-py-server.tgz ; \
-	docker cp $$CONTAINER_ID:/llama_cpp/lib/libllama.so - | pigz -9 > libllama.so.tgz ; \
 	docker rm $$CONTAINER_ID
 
 	# More cleanup