七夏 发表于 2024-12-8 18:40:09

PHP实现Wget在线仿站工具

<h2>引言</h2>
<p>项目的核心是使用PHP处理用户请求,通过SSH连接服务器执行爬取命令,并将结果发送到用户邮箱。</p>
<h2>功能概述</h2>
<p>该工具具备以下功能:</p>
<ol>
<li>输入有效的URL和邮箱。</li>
<li>验证URL格式。</li>
<li>通过SSH连接执行Wget命令抓取网页。</li>
<li>生成ZIP文件并通过邮箱通知用户。</li>
</ol>
<h2>页面结构</h2>
<p>页面使用Bootstrap框架实现响应式设计。以下是页面的基本HTML结构示例:</p>
<pre><code>&lt;html lang=&quot;zh-cn&quot;&gt;
&lt;head&gt;
&lt;meta charset=&quot;utf-8&quot;/&gt;
&lt;meta name=&quot;viewport&quot; content=&quot;width=device-width, initial-scale=1&quot;/&gt;
&lt;title&gt;在线仿站工具&lt;/title&gt;
&lt;link rel=&quot;stylesheet&quot; href=&quot;https://cdn.staticfile.org/twitter-bootstrap/4.3.1/css/bootstrap.min.css&quot;&gt;
&lt;/head&gt;
&lt;body&gt;
&lt;nav class=&quot;navbar sticky-top navbar-expand-lg navbar-light bg-white border-bottom&quot;&gt;
&lt;div class=&quot;container&quot;&gt;
    &lt;a class=&quot;navbar-brand&quot; href=&quot;./&quot;&gt;在线仿站工具&lt;/a&gt;
&lt;/div&gt;
&lt;/nav&gt;

&lt;div class=&quot;container mt-5&quot;&gt;
&lt;div class=&quot;row&quot;&gt;
    &lt;div class=&quot;col-md-8 offset-md-2&quot;&gt;
      &lt;input type=&quot;text&quot; id=&quot;url&quot; class=&quot;form-control&quot; placeholder=&quot;请输入有效的网址&quot; required/&gt;
      &lt;input type=&quot;text&quot; id=&quot;email&quot; class=&quot;form-control mt-2&quot; placeholder=&quot;请输入有效的邮箱&quot; required/&gt;
      &lt;input id=&quot;submit&quot; type=&quot;button&quot; value=&quot;提交任务&quot; class=&quot;btn btn-primary btn-block mt-3&quot;/&gt;
    &lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;

&lt;script src=&quot;./assets/js/common.js&quot;&gt;&lt;/script&gt;
&lt;/body&gt;
&lt;/html&gt;
</code></pre>
<h2>后端逻辑</h2>
<p>后端使用PHP实现,主要功能集中在 <code>api.php</code>文件中。以下是该文件的核心代码示例:</p>
<h3>1. 请求处理</h3>
<p>首先,我们检查请求方法是否为POST,并获取URL和邮箱:</p>
<pre><code>if ($_SERVER['REQUEST_METHOD'] !== 'POST') {
    exit(json_encode(array('code' =&gt; '-1', 'msg' =&gt; '仅支持POST请求'), JSON_UNESCAPED_UNICODE | JSON_PRETTY_PRINT));
}

$url = $_POST['url'];
$email = $_POST['email'];
</code></pre>
<h3>2. URL验证</h3>
<p>使用正则表达式验证输入的URL格式,确保用户输入的是有效的URL:</p>
<pre><code>$preg = &quot;/^http(s)?:\\/\\/.+/&quot;;
if (!preg_match($preg, $url)) {
    log_error(&quot;Invalid URL format: $url&quot;);
    exit(json_encode(array('code' =&gt; '-1', 'msg' =&gt; '域名请带上协议头!如(http:// 或 https://)'), JSON_UNESCAPED_UNICODE | JSON_PRETTY_PRINT));
}
</code></pre>
<h3>3. 生成文件名</h3>
<p>生成唯一的文件名以便于后续的下载:</p>
<pre><code>$timestamp = time();
$file = &quot;website_$timestamp.zip&quot;;
</code></pre>
<h3>4. 执行SSH命令</h3>
<p>通过自定义的SSH类连接到服务器并执行Wget命令:</p>
<pre><code>$ssh = new Components_Ssh($host, $user, $pass, $port, $log);
$command = escapeshellcmd(&quot;bash /www/wwwroot/{$site_url}/wget_site.sh {$url} {$file} &gt;/dev/null &amp;&amp; echo \&quot;success\&quot;&quot;);
$result = $ssh-&gt;cmd($command);
</code></pre>
<h3>5. 检查文件生成状态</h3>
<p>检查文件是否成功生成,若未生成,则记录错误信息:</p>
<pre><code>if (!file_exists('./down/' . $file)) {
    log_error(&quot;File generation failed for: $url&quot;);
    exit(json_encode(array('code' =&gt; '-1', 'msg' =&gt; '爬取失败,请稍后再试。'), JSON_UNESCAPED_UNICODE | JSON_PRETTY_PRINT));
}
</code></pre>
<h3>6. 发送邮件通知</h3>
<p>发送爬取结果到用户邮箱的代码如下:</p>
<pre><code>$content = '爬取成功,下载链接:' . $site_url . '/down/' . $file;
$wz = $smtpapi . &quot;?adress=&quot; . urlencode($email) . &quot;&amp;isHTML=false&amp;title={$site_url}爬取成功&amp;content=&quot; . urlencode($content);
$response = @file_get_contents($wz);
</code></pre>
<h3>7. 错误日志记录</h3>
<p>使用自定义的 <code>log_error</code>函数记录所有错误信息,确保系统的可维护性:</p>
<pre><code>function log_error($message) {
    error_log(date('Y-m-d H:i:s') . &quot; - &quot; . $message . &quot;\n&quot;, 3, '/path/to/error.log');
}
</code></pre>
<h3>8. SSH连接类</h3>
<p>以下是一个简单的SSH连接类示例,供后续使用:</p>
<pre><code>class Components_Ssh {
    private $connection;

    public function __construct($host, $user, $pass, $port = 22) {
      $this-&gt;connection = ssh2_connect($host, $port);
      ssh2_auth_password($this-&gt;connection, $user, $pass);
    }

    public function cmd($command) {
      $stream = ssh2_exec($this-&gt;connection, $command);
      stream_set_blocking($stream, true);
      return stream_get_contents($stream);
    }
}
</code></pre>
<h3>9. Wget脚本示例</h3>
<p><code>wget_site.sh</code>脚本负责执行实际的爬取操作,代码示例如下:</p>
<pre><code>#!/bin/bash
url=$1
file=$2
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent $url -P /www/wwwroot/your_site/down/
zip -r /www/wwwroot/your_site/down/$file /www/wwwroot/your_site/down/*
</code></pre>
<h3>10. 处理返回结果</h3>
<p>处理执行命令后的返回结果以便后续使用:</p>
<pre><code>if ($result === 'success') {
    exit(json_encode(array('code' =&gt; '1', 'msg' =&gt; '爬取任务已提交,请查看邮箱。'), JSON_UNESCAPED_UNICODE | JSON_PRETTY_PRINT));
} else {
    log_error(&quot;Command execution failed: $command&quot;);
    exit(json_encode(array('code' =&gt; '-1', 'msg' =&gt; '命令执行失败,请重试。'), JSON_UNESCAPED_UNICODE | JSON_PRETTY_PRINT));
}
</code></pre>
<h3>11. 提交任务前的提示</h3>
<p>在前端添加任务提交前的提示,增强用户体验:</p>
<pre><code>document.getElementById('submit').onclick = function() {
    const url = document.getElementById('url').value;
    const email = document.getElementById('email').value;

    if (url === '' || email === '') {
      alert('请填写所有字段!');
      return;
    }

    fetch('api.php', {
      method: 'POST',
      headers: {
            'Content-Type': 'application/x-www-form-urlencoded'
      },
      body: `url=${encodeURIComponent(url)}&amp;email=${encodeURIComponent(email)}`
    })
    .then(response =&gt; response.json())
    .then(data =&gt; {
      if (data.code === '-1') {
            alert(data.msg);
      } else {
            alert('任务已提交,请查看您的邮箱!');
      }
    });
};
</code></pre>
<h3>12. 邮件发送状态检查</h3>
<p>检查邮件发送状态以确保用户能够及时收到通知:</p>
<pre><code>if ($response === false) {
    log_error(&quot;Email failed to send to: $email&quot;);
    exit(json_encode(array('code' =&gt; '-1', 'msg' =&gt; '邮件发送失败,请检查邮箱地址。'), JSON_UNESCAPED_UNICODE | JSON_PRETTY_PRINT));
}
</code></pre>
<h2>核心技术</h2>
<ol>
<li><strong>PHP</strong>:后端逻辑处理,包括请求处理和SSH命令执行。</li>
<li><strong>SSH</strong>:使用SSH连接到服务器进行远程操作。</li>
<li><strong>Wget</strong>:爬取网页及其资源的工具。</li>
<li><strong>Bootstrap</strong>:用于简化前端布局和样式。</li>
</ol>
<h2>总结</h2>
<p>这个在线仿站工具允许用户快速爬取并下载网站资源。关键在于安全地处理用户输入、稳定地执行后端爬取操作,并确保系统的可维护性。</p>
页: [1]
查看完整版本: PHP实现Wget在线仿站工具