Skip to content

Commit 007488d

Browse files
authored
Merge pull request #467 from bhyun-kim/main
2 parents 5c6dd8d + c3fe100 commit 007488d

File tree

2 files changed

+86
-55
lines changed

2 files changed

+86
-55
lines changed

README.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1,7 +1,7 @@
11

22
# 🕷️ ScrapeGraphAI: You Only Scrape Once
33
[English](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/README.md) | [中文](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/docs/chinese.md) | [日本語](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/docs/japanese.md)
4-
| [코리아노](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/docs/korean.md)
4+
| [한국어](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/docs/korean.md)
55
| [Русский](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/docs/russian.md)
66

77

docs/korean.md

Lines changed: 85 additions & 54 deletions
Original file line numberDiff line numberDiff line change
@@ -1,7 +1,7 @@
1-
# 🕷️ ScrapeGraphAI: 한 번만 스크래핑하세요
1+
# 🕷️ ScrapeGraphAI: 한 방에 끝내는 웹스크래핑
22

33

4-
ScrapeGraphAI는 웹 사이트와 로컬 문서(XML, HTML, JSON 등)에 대한 스크래핑 파이프라인을 만들기 위해 LLM 및 직접 그래프 로직을 사용하는 파이썬 웹 스크래핑 라이브러리입니다.
4+
ScrapeGraphAI는 웹 사이트와 로컬 문서(XML, HTML, JSON 등)에 대한 스크래핑 파이프라인을 만들기 위해 LLM 및 직접 그래프 로직을 사용하는 파이썬 웹스크래핑 라이브러리입니다.
55

66
추출하려는 정보를 말하기만 하면 라이브러리가 알아서 처리해 줍니다!
77

@@ -11,41 +11,46 @@ ScrapeGraphAI는 웹 사이트와 로컬 문서(XML, HTML, JSON 등)에 대한
1111

1212
## 🚀 빠른 설치
1313

14-
Scrapegraph-ai에 대한 참조 페이지는 PyPI의 공식 페이지에서 확인할 수 있습니다: pypi.
14+
Scrapegraph-ai에 대한 참조 페이지는 PyPI의 공식 페이지에서 확인할 수 있습니다: [pypi](https://pypi.org/project/scrapegraphai/).
1515

16-
bash
17-
Copia codice
16+
```bash
1817
pip install scrapegraphai
18+
```
1919
참고: 다른 라이브러리와의 충돌을 피하기 위해 라이브러리를 가상 환경에 설치하는 것이 좋습니다 🐱
2020

2121
## 🔍 데모
2222

2323
공식 Streamlit 데모:
2424

25+
[![My Skills](https://skillicons.dev/icons?i=react)](https://scrapegraph-ai-web-dashboard.streamlit.app)
2526

2627

2728
Google Colab을 사용하여 웹에서 직접 사용해 보세요:
2829

30+
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1sEZBonBMGP44CtO6GQTwAlL0BGJXjtfd?usp=sharing)
2931

3032

3133
## 📖 문서
3234

33-
ScrapeGraphAI에 대한 문서는 여기에서 찾을 수 있습니다.
35+
ScrapeGraphAI에 대한 문서는 [여기](https://scrapegraph-ai.readthedocs.io/en/latest/)에서 찾을 수 있습니다.
3436

35-
또한 Docusaurus를 여기에서 확인해 보세요.
37+
또한 Docusaurus를 [여기](https://scrapegraph-doc.onrender.com/)에서 확인해 보세요.
3638

3739
## 💻 사용법
3840

39-
웹 사이트(또는 로컬 파일)에서 정보를 추출하는 데 사용할 수 있는 세 가지 주요 스크래핑 파이프라인이 있습니다:
41+
웹사이트(또는 로컬 파일)에서 정보를 추출하기 위해 사용할 수 있는 여러 표준 스크래핑 파이프라인이 있습니다:
42+
- `SmartScraperGraph`: 사용자 프롬프트와 입력 소스만 필요로 하는 단일 페이지 스크래퍼입니다.
43+
- `SearchGraph`: 검색 엔진의 상위 n개 검색 결과에서 정보를 추출하는 다중 페이지 스크래퍼입니다.
44+
- `SpeechGraph`: 웹사이트에서 정보를 추출하고 오디오 파일을 생성하는 단일 페이지 스크래퍼입니다.
45+
- `ScriptCreatorGraph`: 웹사이트에서 정보를 추출하고 Python 스크립트를 생성하는 단일 페이지 스크래퍼입니다.
46+
47+
- `SmartScraperMultiGraph`: 단일 프롬프트와 소스 목록을 사용하여 여러 페이지에서 정보를 추출하는 다중 페이지 스크래퍼입니다.
48+
- `ScriptCreatorMultiGraph`: 단일 프롬프트와 소스 목록을 사용하여 여러 페이지에서 정보를 추출하는 Python 스크립트를 생성하는 다중 페이지 스크래퍼입니다.
4049

41-
SmartScraperGraph: 사용자 프롬프트와 입력 소스만 필요한 단일 페이지 스크래퍼;
42-
SearchGraph: 검색 엔진의 상위 n개의 검색 결과에서 정보를 추출하는 다중 페이지 스크래퍼;
43-
SpeechGraph: 웹 사이트에서 정보를 추출하고 오디오 파일을 생성하는 단일 페이지 스크래퍼.
44-
SmartScraperMultiGraph: 단일 프롬프트를 사용하여 여러 페이지를 스크래핑하는 스크래퍼
45-
OpenAI, Groq, Azure, Gemini와 같은 API를 통해 다양한 LLM을 사용할 수 있으며, Ollama를 사용하여 로컬 모델을 사용할 수도 있습니다.
50+
**OpenAI**, **Groq**, **Azure**, **Gemini**와 같은 API를 통해 다양한 LLM을 사용할 수 있으며, **Ollama**를 사용하여 로컬 모델도 사용할 수 있습니다.
4651

47-
사례 1: 로컬 모델을 사용하는 SmartScraper
48-
Ollama를 설치하고 ollama pull 명령을 사용하여 모델을 다운로드하세요.
52+
### 사례 1: 로컬 모델을 사용하는 SmartScraper
53+
[Ollama](https://ollama.com/) 설치하고 **ollama pull** 명령을 사용하여 모델을 다운로드하세요.
4954

5055
```python
5156
from scrapegraphai.graphs import SmartScraperGraph
@@ -54,19 +59,19 @@ graph_config = {
5459
"llm": {
5560
"model": "ollama/mistral",
5661
"temperature": 0,
57-
"format": "json", # Ollama는 형식을 명시적으로 지정해야 합니다
58-
"base_url": "http://localhost:11434", # Ollama URL 설정
62+
"format": "json", # Ollama needs the format to be specified explicitly
63+
"base_url": "http://localhost:11434", # set Ollama URL
5964
},
6065
"embeddings": {
6166
"model": "ollama/nomic-embed-text",
62-
"base_url": "http://localhost:11434", # Ollama URL 설정
67+
"base_url": "http://localhost:11434", # set Ollama URL
6368
},
6469
"verbose": True,
6570
}
6671

6772
smart_scraper_graph = SmartScraperGraph(
68-
prompt="프로젝트와 설명을 모두 나열하세요",
69-
# 이미 다운로드된 HTML 코드가 있는 문자열도 허용
73+
prompt="List me all the projects with their descriptions",
74+
# also accepts a string with the already downloaded HTML code
7075
source="https://perinim.github.io/projects",
7176
config=graph_config
7277
)
@@ -78,15 +83,16 @@ print(result)
7883
출력은 다음과 같이 프로젝트와 설명의 목록이 될 것입니다:
7984

8085
```python
81-
{'projects': [{'title': 'Rotary Pendulum RL', 'description': 'RL 알고리즘을 사용하여 실제 회전 진자를 제어하는 오픈 소스 프로젝트'}, {'title': 'DQN Implementation from scratch', 'description': '간단한 및 이중 진자를 훈련하기 위한 딥 Q-네트워크 알고리즘 개발'}, ...]}
82-
사례 2: 혼합 모델을 사용하는 SearchGraph
83-
우리는 LLM에 Groq를 사용하고, 임베딩에 Ollama를 사용합니다.
86+
{'projects': [{'title': 'Rotary Pendulum RL', 'description': 'Open Source project aimed at controlling a real life rotary pendulum using RL algorithms'}, {'title': 'DQN Implementation from scratch', 'description': 'Developed a Deep Q-Network algorithm to train a simple and double pendulum'}, ...]}
8487
```
8588

89+
### 사례 2: 혼합 모델을 사용하는 SearchGraph
90+
우리는 LLM에 **Groq**를 사용하고, 임베딩에 **Ollama**를 사용합니다.
91+
8692
```python
8793
from scrapegraphai.graphs import SearchGraph
8894

89-
# 그래프 구성 정의
95+
# Define the configuration for the graph
9096
graph_config = {
9197
"llm": {
9298
"model": "groq/gemma-7b-it",
@@ -95,28 +101,30 @@ graph_config = {
95101
},
96102
"embeddings": {
97103
"model": "ollama/nomic-embed-text",
98-
"base_url": "http://localhost:11434", # Ollama URL 임의 설정
104+
"base_url": "http://localhost:11434", # set ollama URL arbitrarily
99105
},
100106
"max_results": 5,
101107
}
102108

103-
# SearchGraph 인스턴스 생성
109+
# Create the SearchGraph instance
104110
search_graph = SearchGraph(
105-
prompt="Chioggia의 전통 레시피를 모두 나열하세요",
111+
prompt="List me all the traditional recipes from Chioggia",
106112
config=graph_config
107113
)
108114

109-
# 그래프 실행
115+
# Run the graph
110116
result = search_graph.run()
111117
print(result)
112-
출력은 다음과 같이 레시피 목록이 될 것입니다:
113118
```
114119

120+
출력은 다음과 같이 레시피 목록이 될 것입니다:
121+
115122
```python
116123
{'recipes': [{'name': 'Sarde in Saòre'}, {'name': 'Bigoli in salsa'}, {'name': 'Seppie in umido'}, {'name': 'Moleche frite'}, {'name': 'Risotto alla pescatora'}, {'name': 'Broeto'}, {'name': 'Bibarasse in Cassopipa'}, {'name': 'Risi e bisi'}, {'name': 'Smegiassa Ciosota'}]}
117-
사례 3: OpenAI를 사용하는 SpeechGraph
118-
OpenAI API 키와 모델 이름만 전달하면 됩니다.
119124
```
125+
### 사례 3: OpenAI를 사용하는 SpeechGraph
126+
127+
OpenAI API 키와 모델 이름만 전달하면 됩니다.
120128

121129
```python
122130
from scrapegraphai.graphs import SpeechGraph
@@ -135,22 +143,23 @@ graph_config = {
135143
}
136144

137145
# ************************************************
138-
# SpeechGraph 인스턴스를 생성하고 실행합니다.
146+
# Create the SpeechGraph instance and run it
139147
# ************************************************
140148

141149
speech_graph = SpeechGraph(
142-
prompt="프로젝트에 대한 자세한 오디오 요약을 만드세요.",
150+
prompt="Make a detailed audio summary of the projects.",
143151
source="https://perinim.github.io/projects/",
144152
config=graph_config,
145153
)
146154

147155
result = speech_graph.run()
148156
print(result)
157+
149158
```
150159

151160
출력은 페이지의 프로젝트 요약이 포함된 오디오 파일이 될 것입니다.
152161

153-
후원사
162+
## 스폰
154163

155164
<div style="text-align: center;">
156165
<a href="https://serpapi.com?utm_source=scrapegraphai">
@@ -165,46 +174,68 @@ print(result)
165174

166175
기여를 환영하며, 개선 사항을 논의하고 제안 사항을 주고받기 위해 우리의 Discord 서버에 참여하세요!
167176

168-
기여 가이드라인을 참조하십시오.
177+
기여 가이드라인을 참고해주세요: [contributing guidelines](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/CONTRIBUTING.md).
169178

170179
## 📈 로드맵
171180

172-
프로젝트 로드맵을 여기에서 확인하세요! 🚀
173-
174-
로드맵을 더 인터랙티브하게 시각화하고 싶으신가요? markdown 내용을 편집기에 복사하여 markmap 시각화를 확인하세요!
181+
다음 기능들을 작업하고 있습니다! 협업에 관심이 있으시면 해당 기능을 마우스 오른쪽 버튼으로 클릭하여 새 탭에서 PR을 작성해주세요. 의문사항이 있거나 논의하고 싶다면 [Discord](https://discord.gg/uJN7TYcpNa)에서 저희에게 연락하거나 Github의 [Discussion](https://github.com/VinciGit00/Scrapegraph-ai/discussions) 페이지를 열어주세요!
182+
183+
```mermaid
184+
%%{init: {'theme': 'base', 'themeVariables': { 'primaryColor': '#5C4B9B', 'edgeLabelBackground':'#ffffff', 'tertiaryColor': '#ffffff', 'primaryBorderColor': '#5C4B9B', 'fontFamily': 'Arial', 'fontSize': '16px', 'textColor': '#5C4B9B' }}}%%
185+
graph LR
186+
A[DeepSearch Graph] --> F[Use Existing Chromium Instances]
187+
F --> B[Page Caching]
188+
B --> C[Screenshot Scraping]
189+
C --> D[Handle Dynamic Content]
190+
D --> E[New Webdrivers]
191+
192+
style A fill:#ffffff,stroke:#5C4B9B,stroke-width:2px,rx:10,ry:10
193+
style F fill:#ffffff,stroke:#5C4B9B,stroke-width:2px,rx:10,ry:10
194+
style B fill:#ffffff,stroke:#5C4B9B,stroke-width:2px,rx:10,ry:10
195+
style C fill:#ffffff,stroke:#5C4B9B,stroke-width:2px,rx:10,ry:10
196+
style D fill:#ffffff,stroke:#5C4B9B,stroke-width:2px,rx:10,ry:10
197+
style E fill:#ffffff,stroke:#5C4B9B,stroke-width:2px,rx:10,ry:10
198+
199+
click A href "https://github.com/VinciGit00/Scrapegraph-ai/issues/260" "Open DeepSearch Graph Issue"
200+
click F href "https://github.com/VinciGit00/Scrapegraph-ai/issues/329" "Open Chromium Instances Issue"
201+
click B href "https://github.com/VinciGit00/Scrapegraph-ai/issues/197" "Open Page Caching Issue"
202+
click C href "https://github.com/VinciGit00/Scrapegraph-ai/issues/197" "Open Screenshot Scraping Issue"
203+
click D href "https://github.com/VinciGit00/Scrapegraph-ai/issues/279" "Open Handle Dynamic Content Issue"
204+
click E href "https://github.com/VinciGit00/Scrapegraph-ai/issues/171" "Open New Webdrivers Issue"
205+
```
175206

176207
## ️ 기여자들
177-
178-
208+
[![Contributors](https://contrib.rocks/image?repo=VinciGit00/Scrapegraph-ai)](https://github.com/VinciGit00/Scrapegraph-ai/graphs/contributors)
179209

180210
## 🎓 인용
181-
182211
우리의 라이브러리를 연구 목적으로 사용한 경우 다음과 같이 인용해 주세요:
183-
184-
text
185-
Copia codice
212+
```text
186213
@misc{scrapegraph-ai,
187214
author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
188215
title = {Scrapegraph-ai},
189216
year = {2024},
190217
url = {https://github.com/VinciGit00/Scrapegraph-ai},
191-
note = {대규모 언어 모델을 활용한 Python 스크레이핑 라이브러리}
218+
note = {A Python library for scraping leveraging large language models}
192219
}
193-
저자들
220+
```
221+
222+
## 저자들
194223

195224
<p align="center">
196225
<img src="https://raw.githubusercontent.com/VinciGit00/Scrapegraph-ai/main/docs/assets/logo_authors.png" alt="Authors_logos">
197226
</p>
198-
연락처
199-
Marco Vinciguerra
200-
Marco Perini
201-
Lorenzo Padoan
227+
228+
| | 연락처 |
229+
|--------------------|---------------|
230+
| Marco Vinciguerra | [![Linkedin Badge](https://img.shields.io/badge/-Linkedin-blue?style=flat&logo=Linkedin&logoColor=white)](https://www.linkedin.com/in/marco-vinciguerra-7ba365242/) |
231+
| Marco Perini | [![Linkedin Badge](https://img.shields.io/badge/-Linkedin-blue?style=flat&logo=Linkedin&logoColor=white)](https://www.linkedin.com/in/perinim/) |
232+
| Lorenzo Padoan | [![Linkedin Badge](https://img.shields.io/badge/-Linkedin-blue?style=flat&logo=Linkedin&logoColor=white)](https://www.linkedin.com/in/lorenzo-padoan-4521a2154/) |
202233

203234
## 📜 라이선스
204235

205-
ScrapeGraphAI는 MIT License로 라이선스가 부여되었습니다. 자세한 내용은 LICENSE 파일을 참조하세요.
236+
ScrapeGraphAI는 MIT License로 배포되었습니. 자세한 내용은 [LICENSE](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/LICENSE) 파일을 참조하세요.
206237

207-
감사의 말
238+
## 감사의 말
208239

209-
프로젝트에 기여한 모든 분들과 오픈 소스 커뮤니티에 감사드립니다.
210-
ScrapeGraphAI는 데이터 탐색 및 연구 목적으로만 사용되어야 합니다. 우리는 라이브러리의 오용에 대해 책임을 지지 않습니다.
240+
- 프로젝트에 기여한 모든 분들과 오픈 소스 커뮤니티에 감사드립니다.
241+
- ScrapeGraphAI는 데이터 탐색 및 연구 목적으로만 사용되어야 합니다. 우리는 라이브러리의 오용에 대해 책임을 지지 않습니다.

0 commit comments

Comments
 (0)