Merge pull request #195 from shorthills-ai/pre/beta

VinciGit00 · web-flow · commit a1d580c4eb2f · 2024-05-09T19:11:58.000+02:00
diff --git a/requirements.txt b/requirements.txt
@@ -18,3 +18,4 @@ playwright==1.43.0
 langchain-aws==0.1.2
 langchain-anthropic==0.1.11 
 yahoo-search-py==0.3
+pypdf==4.2.0
diff --git a/scrapegraphai/graphs/pdf_scraper_graph.py b/scrapegraphai/graphs/pdf_scraper_graph.py
@@ -56,36 +56,29 @@ def _create_graph(self) -> BaseGraph:
         """
 
         fetch_node = FetchNode(
-            input="pdf_dir",
+            input='pdf',
             output=["doc"],
-            node_config={
-                "headless": self.headless,
-                "verbose": self.verbose
-            }
         )
         parse_node = ParseNode(
             input="doc",
             output=["parsed_doc"],
             node_config={
                 "chunk_size": self.model_token,
-                "verbose": self.verbose
             }
         )
         rag_node = RAGNode(
             input="user_prompt & (parsed_doc | doc)",
             output=["relevant_chunks"],
             node_config={
-                "llm": self.llm_model,
+                "llm_model": self.llm_model,
                 "embedder_model": self.embedder_model,
-                "verbose": self.verbose
             }
         )
         generate_answer_node = GenerateAnswerNode(
             input="user_prompt & (relevant_chunks | parsed_doc | doc)",
             output=["answer"],
             node_config={
-                "llm": self.llm_model,
-                "verbose": self.verbose
+                "llm_model": self.llm_model,
             }
         )
 
diff --git a/scrapegraphai/nodes/fetch_node.py b/scrapegraphai/nodes/fetch_node.py
@@ -5,6 +5,7 @@
 from typing import List, Optional
 from langchain_community.document_loaders import AsyncChromiumLoader
 from langchain_core.documents import Document
+from langchain_community.document_loaders import PyPDFLoader
 from .base_node import BaseNode
 from ..utils.remover import remover
 
@@ -56,7 +57,6 @@ def execute(self, state):
 
         # Interpret input keys based on the provided input expression
         input_keys = self.get_input_keys(state)
-
         # Fetching data from the state based on the input keys
         input_data = [state[key] for key in input_keys]
 
@@ -66,6 +66,15 @@ def execute(self, state):
                 "source": "local_dir"
             })]
         # if it is a local directory
+
+        # handling for pdf
+        elif self.input == "pdf":
+            loader = PyPDFLoader(source)
+            compressed_document = loader.load()
+
+        elif self.input == "pdf_dir":
+            pass
+
         elif not source.startswith("http"):
             compressed_document = [Document(page_content=remover(source), metadata={
                 "source": "local_dir"

Original file line number	Diff line number	Diff line change
`@@ -56,36 +56,29 @@ def _create_graph(self) -> BaseGraph:`
`56`	`56`	`"""`
`57`	`57`
`58`	`58`	`fetch_node = FetchNode(`
`59`		`- input="pdf_dir",`
	`59`	`+ input='pdf',`
`60`	`60`	`output=["doc"],`
`61`		`- node_config={`
`62`		`- "headless": self.headless,`
`63`		`- "verbose": self.verbose`
`64`		`- }`
`65`	`61`	`)`
`66`	`62`	`parse_node = ParseNode(`
`67`	`63`	`input="doc",`
`68`	`64`	`output=["parsed_doc"],`
`69`	`65`	`node_config={`
`70`	`66`	`"chunk_size": self.model_token,`
`71`		`- "verbose": self.verbose`
`72`	`67`	`}`
`73`	`68`	`)`
`74`	`69`	`rag_node = RAGNode(`
`75`	`70`	`input="user_prompt & (parsed_doc \| doc)",`
`76`	`71`	`output=["relevant_chunks"],`
`77`	`72`	`node_config={`
`78`		`- "llm": self.llm_model,`
	`73`	`+ "llm_model": self.llm_model,`
`79`	`74`	`"embedder_model": self.embedder_model,`
`80`		`- "verbose": self.verbose`
`81`	`75`	`}`
`82`	`76`	`)`
`83`	`77`	`generate_answer_node = GenerateAnswerNode(`
`84`	`78`	`input="user_prompt & (relevant_chunks \| parsed_doc \| doc)",`
`85`	`79`	`output=["answer"],`
`86`	`80`	`node_config={`
`87`		`- "llm": self.llm_model,`
`88`		`- "verbose": self.verbose`
	`81`	`+ "llm_model": self.llm_model,`
`89`	`82`	`}`
`90`	`83`	`)`
`91`	`84`