You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
ScrapeGraphAI - это библиотека для веб-скрейпинга на Python, которая использует LLM и прямую графовую логику для создания скрейпинговых пайплайнов для веб-сайтов и локальных документов (XML, HTML, JSON и т.д.).
4
11
5
12
Просто укажите, какую информацию вы хотите извлечь, и библиотека сделает это за вас!
@@ -10,39 +17,44 @@ ScrapeGraphAI - это библиотека для веб-скрейпинга
10
17
11
18
## 🚀 Быстрая установка
12
19
13
-
Референсная страница для Scrapegraph-ai доступна на официальной странице PyPI: pypi.
20
+
Референсная страница для Scrapegraph-ai доступна на официальной странице PyPI: [pypi](https://pypi.org/project/scrapegraphai/).
14
21
15
-
bash
16
-
Copia codice
22
+
```bash
17
23
pip install scrapegraphai
18
-
Примечание: рекомендуется устанавливать библиотеку в виртуальную среду, чтобы избежать конфликтов с другими библиотеками 🐱
24
+
```
25
+
26
+
**Примечание**: рекомендуется устанавливать библиотеку в виртуальную среду, чтобы избежать конфликтов с другими библиотеками 🐱
Попробуйте ее прямо в интернете, используя Google Colab:
27
35
36
+
[](https://colab.research.google.com/drive/1sEZBonBMGP44CtO6GQTwAlL0BGJXjtfd?usp=sharing)
37
+
28
38
## 📖 Документация
29
39
30
-
Документация для ScrapeGraphAI доступна здесь.
40
+
Документация для ScrapeGraphAI доступна [здесь](https://scrapegraph-ai.readthedocs.io/en/latest/)..
31
41
32
-
Посмотрите также Docusaurus здесь.
42
+
Посмотрите также Docusaurus [здесь](https://scrapegraph-doc.onrender.com/).
33
43
34
44
## 💻 Использование
35
45
36
46
Существует три основных скрейпинговых пайплайна, которые можно использовать для извлечения информации с веб-сайта (или локального файла):
37
47
38
-
SmartScraperGraph: скрейпер одной страницы, которому требуется только пользовательский запрос и источник ввода;
39
-
SearchGraph: многопользовательский скрейпер, который извлекает информацию из топ n результатов поиска поисковой системы;
40
-
SpeechGraph: скрейпер одной страницы, который извлекает информацию с веб-сайта и генерирует аудиофайл.
41
-
SmartScraperMultiGraph: скрейпер нескольких страниц по одному запросу.
42
-
Можно использовать различные LLM через API, такие как OpenAI, Groq, Azure и Gemini, или локальные модели, используя Ollama.
48
+
`SmartScraperGraph`: скрейпер одной страницы, которому требуется только пользовательский запрос и источник ввода;
49
+
`SearchGraph`: многопользовательский скрейпер, который извлекает информацию из топ n результатов поиска поисковой системы;
50
+
`SpeechGraph`: скрейпер одной страницы, который извлекает информацию с веб-сайта и генерирует аудиофайл.
51
+
`SmartScraperMultiGraph`: скрейпер нескольких страниц по одному запросу.
52
+
53
+
Можно использовать различные LLM через API, такие как **OpenAI**, **Groq**, **Azure** и **Gemini**, или локальные модели, используя **Ollama**.
54
+
55
+
### Пример 1: SmartScraper с использованием локальных моделей
43
56
44
-
Пример 1: SmartScraper с использованием локальных моделей
45
-
Не забудьте установить Ollama и загрузить модели, используя команду ollama pull.
57
+
Не забудьте установить [Ollama](https://ollama.com/) и загрузить модели, используя команду `ollama pull`.
46
58
47
59
```python
48
60
from scrapegraphai.graphs import SmartScraperGraph
Выходные данные будут представлять собой список проектов с их описаниями, например:
75
88
76
89
```python
77
90
{'projects': [{'title': 'Rotary Pendulum RL', 'description': 'Open Source проект, направленный на управление реальным роторным маятником с использованием алгоритмов RL'}, {'title': 'DQN Implementation from scratch', 'description': 'Разработан алгоритм Deep Q-Network для обучения простого и двойного маятника'}, ...]}
78
91
```
79
-
Пример 2: SearchGraph с использованием смешанных моделей
80
-
Мы используем Groq для LLM и Ollama для встраивания.
81
92
82
-
python
83
-
Copia codice
93
+
### Пример 2: SearchGraph с использованием смешанных моделей
94
+
95
+
Мы используем **Groq** для LLM и **Ollama** для встраивания.
96
+
97
+
```python
84
98
from scrapegraphai.graphs import SearchGraph
85
99
86
100
# Определите конфигурацию для графа
@@ -106,15 +120,19 @@ search_graph = SearchGraph(
106
120
# Запустите граф
107
121
result = search_graph.run()
108
122
print(result)
123
+
```
124
+
109
125
Выходные данные будут представлять собой список рецептов, например:
110
126
111
127
```python
112
128
{'recipes': [{'name': 'Sarde in Saòre'}, {'name': 'Bigoli in salsa'}, {'name': 'Seppie in umido'}, {'name': 'Moleche frite'}, {'name': 'Risotto alla pescatora'}, {'name': 'Broeto'}, {'name': 'Bibarasse in Cassopipa'}, {'name': 'Risi e bisi'}, {'name': 'Smegiassa Ciosota'}]}
113
-
Пример 3: SpeechGraph с использованием OpenAI
129
+
```
130
+
131
+
### Пример 3: SpeechGraph с использованием OpenAI
132
+
114
133
Вам просто нужно передать ключ API OpenAI и название модели.
115
134
116
-
python
117
-
Copia codice
135
+
```python
118
136
from scrapegraphai.graphs import SpeechGraph
119
137
120
138
graph_config = {
@@ -143,6 +161,7 @@ speech_graph = SpeechGraph(
143
161
result = speech_graph.run()
144
162
print(result)
145
163
```
164
+
146
165
Выходные данные будут представлять собой аудиофайл с резюме проектов на странице.
147
166
148
167
## Спонсоры
@@ -160,41 +179,53 @@ print(result)
160
179
161
180
Не стесняйтесь вносить свой вклад и присоединяйтесь к нашему серверу Discord, чтобы обсудить с нами улучшения и дать нам предложения!
162
181
163
-
Пожалуйста, ознакомьтесь с руководством по участию.
182
+
Пожалуйста, ознакомьтесь с [руководством по участию](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/CONTRIBUTING.md).
ScrapeGraphAI лицензирован под MIT License. Подробнее см. в файле LICENSE.
218
+
|| Контактная информация |
219
+
|--------------------|------------------------|
220
+
| Marco Vinciguerra |[](https://www.linkedin.com/in/marco-vinciguerra-7ba365242/)|
221
+
| Marco Perini |[](https://www.linkedin.com/in/perinim/)|
222
+
| Lorenzo Padoan |[](https://www.linkedin.com/in/lorenzo-padoan-4521a2154/)|
223
+
224
+
## 📜 Лицензия
225
+
226
+
ScrapeGraphAI лицензирован под MIT License. Подробнее см. в файле [LICENSE](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/LICENSE).
196
227
197
228
## Благодарности
198
229
199
-
Мы хотели бы поблагодарить всех участников проекта и сообщество с открытым исходным кодом за их поддержку.
200
-
ScrapeGraphAI предназначен только для исследования данных и научных целей. Мы не несем ответственности за неправильное использование библиотеки.
230
+
-Мы хотели бы поблагодарить всех участников проекта и сообщество с открытым исходным кодом за их поддержку.
231
+
-ScrapeGraphAI предназначен только для исследования данных и научных целей. Мы не несем ответственности за неправильное использование библиотеки.
0 commit comments