|
| 1 | +# 🕷️ ScrapeGraphAI: 一度のクロールで完結 |
| 2 | +[](https://pepy.tech/project/scrapegraphai) |
| 3 | +[](https://github.com/pylint-dev/pylint) |
| 4 | +[](https://github.com/VinciGit00/Scrapegraph-ai/actions/workflows/pylint.yml) |
| 5 | +[](https://github.com/VinciGit00/Scrapegraph-ai/actions/workflows/codeql.yml) |
| 6 | +[](https://opensource.org/licenses/MIT) |
| 7 | +[](https://discord.gg/gkxQDAjfeX) |
| 8 | + |
| 9 | +ScrapeGraphAIは、大規模言語モデルと直接グラフロジックを使用して、ウェブサイトやローカルドキュメント(XML、HTML、JSONなど)のクローリングパイプラインを作成するPythonライブラリです。 |
| 10 | + |
| 11 | +クロールしたい情報をライブラリに伝えるだけで、残りはすべてライブラリが行います! |
| 12 | + |
| 13 | +<p align="center"> |
| 14 | + <img src="https://raw.githubusercontent.com/VinciGit00/Scrapegraph-ai/main/docs/assets/scrapegraphai_logo.png" alt="Scrapegraph-ai Logo" style="width: 50%;"> |
| 15 | +</p> |
| 16 | + |
| 17 | +## 🚀 インストール方法 |
| 18 | + |
| 19 | +Scrapegraph-aiの参照ページはPyPIの公式サイトで見ることができます: [pypi](https://pypi.org/project/scrapegraphai/)。 |
| 20 | + |
| 21 | +```bash |
| 22 | +pip install scrapegraphai |
| 23 | +``` |
| 24 | +**注意**: 他のライブラリとの競合を避けるため、このライブラリは仮想環境でのインストールを推奨します 🐱 |
| 25 | + |
| 26 | +## 🔍 デモ |
| 27 | + |
| 28 | +公式のStreamlitデモ: |
| 29 | + |
| 30 | +[](https://scrapegraph-ai-web-dashboard.streamlit.app) |
| 31 | + |
| 32 | +Google Colabで直接試す: |
| 33 | + |
| 34 | +[](https://colab.research.google.com/drive/1sEZBonBMGP44CtO6GQTwAlL0BGJXjtfd?usp=sharing) |
| 35 | + |
| 36 | +## 📖 ドキュメント |
| 37 | + |
| 38 | +ScrapeGraphAIのドキュメントは[こちら](https://scrapegraph-ai.readthedocs.io/en/latest/)で見ることができます。 |
| 39 | + |
| 40 | +Docusaurusの[バージョン](https://scrapegraph-doc.onrender.com/)もご覧ください。 |
| 41 | + |
| 42 | +## 💻 使い方 |
| 43 | + |
| 44 | +ウェブサイト(またはローカルファイル)から情報を抽出するための3つの主要なクローリングパイプラインがあります: |
| 45 | + |
| 46 | +- `SmartScraperGraph`: 単一ページのクローラー。ユーザープロンプトと入力ソースのみが必要です。 |
| 47 | +- `SearchGraph`: 複数ページのクローラー。検索エンジンの上位n個の検索結果から情報を抽出します。 |
| 48 | +- `SpeechGraph`: 単一ページのクローラー。ウェブサイトから情報を抽出し、音声ファイルを生成します。 |
| 49 | +- `SmartScraperMultiGraph`: 複数ページのクローラー。プロンプトを与えると、 |
| 50 | +**OpenAI**、**Groq**、**Azure**、**Gemini**などの異なるLLMをAPI経由で使用することができます。また、**Ollama**のローカルモデルを使用することもできます。 |
| 51 | + |
| 52 | +### 例 1: ローカルモデルを使用したSmartScraper |
| 53 | +[Ollama](https://ollama.com/)がインストールされていること、および`ollama pull`コマンドでモデルがダウンロードされていることを確認してください。 |
| 54 | + |
| 55 | +``` python |
| 56 | +from scrapegraphai.graphs import SmartScraperGraph |
| 57 | + |
| 58 | +graph_config = { |
| 59 | + "llm": { |
| 60 | + "model": "ollama/mistral", |
| 61 | + "temperature": 0, |
| 62 | + "format": "json", # Ollamaではフォーマットを明示的に指定する必要があります |
| 63 | + "base_url": "http://localhost:11434", # OllamaのURLを設定 |
| 64 | + }, |
| 65 | + "embeddings": { |
| 66 | + "model": "ollama/nomic-embed-text", |
| 67 | + "base_url": "http://localhost:11434", # OllamaのURLを設定 |
| 68 | + }, |
| 69 | + "verbose": True, |
| 70 | +} |
| 71 | + |
| 72 | +smart_scraper_graph = SmartScraperGraph( |
| 73 | + prompt="すべてのプロジェクトとその説明をリストしてください", |
| 74 | + # ダウンロード済みのHTMLコードの文字列も受け付けます |
| 75 | + source="https://perinim.github.io/projects", |
| 76 | + config=graph_config |
| 77 | +) |
| 78 | + |
| 79 | +result = smart_scraper_graph.run() |
| 80 | +print(result) |
| 81 | +``` |
| 82 | + |
| 83 | +出力は、プロジェクトとその説明のリストになります: |
| 84 | + |
| 85 | +```python |
| 86 | +{'projects': [{'title': 'Rotary Pendulum RL', 'description': 'Open Source project aimed at controlling a real life rotary pendulum using RL algorithms'}, {'title': 'DQN Implementation from scratch', 'description': 'Developed a Deep Q-Network algorithm to train a simple and double pendulum'}, ...]} |
| 87 | +``` |
| 88 | + |
| 89 | +### 例 2: 混合モデルを使用したSearchGraph |
| 90 | +**Groq**をLLMとして、**Ollama**を埋め込みモデルとして使用します。 |
| 91 | + |
| 92 | +```python |
| 93 | +from scrapegraphai.graphs import SearchGraph |
| 94 | + |
| 95 | +# グラフの設定を定義 |
| 96 | +graph_config = { |
| 97 | + "llm": { |
| 98 | + "model": "groq/gemma-7b-it", |
| 99 | + "api_key": "GROQ_API_KEY", |
| 100 | + "temperature": 0 |
| 101 | + }, |
| 102 | + "embeddings": { |
| 103 | + "model": "ollama/nomic-embed-text", |
| 104 | + "base_url": "http://localhost:11434", # OllamaのURLを任意に設定 |
| 105 | + }, |
| 106 | + "max_results": 5, |
| 107 | +} |
| 108 | + |
| 109 | +# SearchGraphインスタンスを作成 |
| 110 | +search_graph = SearchGraph( |
| 111 | + prompt="Chioggiaの伝統的なレシピをすべてリストしてください", |
| 112 | + config=graph_config |
| 113 | +) |
| 114 | + |
| 115 | +# グラフを実行 |
| 116 | +result = search_graph.run() |
| 117 | +print(result) |
| 118 | +``` |
| 119 | + |
| 120 | +出力は、レシピのリストになります: |
| 121 | + |
| 122 | +```python |
| 123 | +{'recipes': [{'name': 'Sarde in Saòre'}, {'name': 'Bigoli in salsa'}, {'name': 'Seppie in umido'}, {'name': 'Moleche frite'}, {'name': 'Risotto alla pescatora'}, {'name': 'Broeto'}, {'name': 'Bibarasse in Cassopipa'}, {'name': 'Risi e bisi'}, {'name': 'Smegiassa Ciosota'}]} |
| 124 | +``` |
| 125 | + |
| 126 | +### 例 3: OpenAIを使用したSpeechGraph |
| 127 | + |
| 128 | +OpenAI APIキーとモデル名を渡すだけです。 |
| 129 | + |
| 130 | +```python |
| 131 | +from scrapegraphai.graphs import SpeechGraph |
| 132 | + |
| 133 | +graph_config = { |
| 134 | + "llm": { |
| 135 | + "api_key": "OPENAI_API_KEY", |
| 136 | + "model": "gpt-3.5-turbo", |
| 137 | + }, |
| 138 | + "tts_model": { |
| 139 | + "api_key": "OPENAI_API_KEY", |
| 140 | + "model": "tts-1", |
| 141 | + "voice": "alloy" |
| 142 | + }, |
| 143 | + "output_path": "audio_summary.mp3", |
| 144 | +} |
| 145 | + |
| 146 | +# ************************************************ |
| 147 | +# SpeechGraphインスタンスを作成して実行 |
| 148 | +# ************************************************ |
| 149 | + |
| 150 | +speech_graph = SpeechGraph( |
| 151 | + prompt="プロジェクトの詳細な音声要約を作成してください。", |
| 152 | + source="https://perinim.github.io/projects/", |
| 153 | + config=graph_config, |
| 154 | +) |
| 155 | + |
| 156 | +result = speech_graph.run() |
| 157 | +print(result) |
| 158 | +``` |
| 159 | +出力は、ページ上のプロジェクトの要約を含む音声ファイルになります。 |
| 160 | + |
| 161 | +## スポンサー |
| 162 | + |
| 163 | +<div style="text-align: center;"> |
| 164 | + <a href="https://serpapi.com?utm_source=scrapegraphai"> |
| 165 | + <img src="https://raw.githubusercontent.com/VinciGit00/Scrapegraph-ai/main/docs/assets/serp_api_logo.png" alt="SerpAPI" style="width: 10%;"> |
| 166 | + </a> |
| 167 | + <a href="https://dashboard.statproxies.com/?refferal=scrapegraph"> |
| 168 | + <img src="https://raw.githubusercontent.com/VinciGit00/Scrapegraph-ai/main/docs/assets/transparent_stat.png" alt="Stats" style="width: 15%;"> |
| 169 | + </a> |
| 170 | +</div> |
| 171 | + |
| 172 | +## 🤝 貢献 |
| 173 | + |
| 174 | +貢献を歓迎し、Discordサーバーで改善や提案について話し合います! |
| 175 | + |
| 176 | +[貢献ガイド](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/CONTRIBUTING.md)をご覧ください。 |
| 177 | + |
| 178 | +[](https://discord.gg/uJN7TYcpNa) |
| 179 | +[](https://www.linkedin.com/company/scrapegraphai/) |
| 180 | +[](https://twitter.com/scrapegraphai) |
| 181 | + |
| 182 | + |
| 183 | +## 📈 ロードマップ |
| 184 | + |
| 185 | +[こちら](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/docs/README.md)でプロジェクトのロードマップをご覧ください! 🚀 |
| 186 | + |
| 187 | +よりインタラクティブな方法でロードマップを視覚化したいですか?[markmap](https://markmap.js.org/repl)をチェックして、マークダウンの内容をエディタにコピー&ペーストして視覚化してください! |
| 188 | + |
| 189 | +## ❤️ 貢献者 |
| 190 | +[](https://github.com/VinciGit00/Scrapegraph-ai/graphs/contributors) |
| 191 | + |
| 192 | + |
| 193 | +## 🎓 引用 |
| 194 | + |
| 195 | +研究目的で当社のライブラリを使用する場合は、以下の参考文献を引用してください: |
| 196 | +```text |
| 197 | + @misc{scrapegraph-ai, |
| 198 | + author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra}, |
| 199 | + title = {Scrapegraph-ai}, |
| 200 | + year = {2024}, |
| 201 | + url = {https://github.com/VinciGit00/Scrapegraph-ai}, |
| 202 | + note = {A Python library for scraping leveraging large language models} |
| 203 | + } |
| 204 | +``` |
| 205 | +## 作者 |
| 206 | + |
| 207 | +<p align="center"> |
| 208 | + <img src="https://raw.githubusercontent.com/VinciGit00/Scrapegraph-ai/main/docs/assets/logo_authors.png" alt="Authors_logos"> |
| 209 | +</p> |
| 210 | + |
| 211 | +## 連絡先 |
| 212 | +| | 連絡先 | |
| 213 | +|--------------------|----------------------| |
| 214 | +| Marco Vinciguerra | [](https://www.linkedin.com/in/marco-vinciguerra-7ba365242/) | |
| 215 | +| Marco Perini | [](https://www.linkedin.com/in/perinim/) | |
| 216 | +| Lorenzo Padoan | [](https://www.linkedin.com/in/lorenzo-padoan-4521a2154/) | |
| 217 | + |
| 218 | +## 📜 ライセンス |
| 219 | + |
| 220 | +ScrapeGraphAIはMITライセンスの下で提供されています。詳細は[LICENSE](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/LICENSE)ファイルをご覧ください。 |
| 221 | + |
| 222 | +## 謝辞 |
| 223 | + |
| 224 | +- プロジェクトの貢献者とオープンソースコミュニティのサポートに感謝します。 |
| 225 | +- ScrapeGraphAIはデータ探索と研究目的のみに使用されます。このライブラリの不正使用については一切責任を負いません。 |
0 commit comments