fix(crawler): relative URL handling on non-start pages (#893)

* fix(crawler): relative URL handling on non-start pages * fix(crawl): further fixing
2024-11-15 19:22:19 +08:00 · 2024-11-12 18:20:53 +01:00 · 2024-11-12 18:20:53 +01:00 · fbabc779f5
commit fbabc779f5
parent 740a429790
3 changed files with 5 additions and 5 deletions
--- a/apps/api/src/lib/crawl-redis.ts
+++ b/apps/api/src/lib/crawl-redis.ts
@ -166,10 +166,10 @@ export async function lockURLs(id: string, sc: StoredCrawl, urls: string[]): Pro
    return res;
 }

-export function crawlToCrawler(id: string, sc: StoredCrawl): WebCrawler {
+export function crawlToCrawler(id: string, sc: StoredCrawl, initialUrl?: string): WebCrawler {
    const crawler = new WebCrawler({
        jobId: id,
-        initialUrl: sc.originUrl!,
+        initialUrl: initialUrl ?? sc.originUrl!,
        includes: sc.crawlerOptions?.includes ?? [],
        excludes: sc.crawlerOptions?.excludes ?? [],
        maxCrawledLinks: sc.crawlerOptions?.maxCrawledLinks ?? 1000,
--- a/apps/api/src/scraper/WebScraper/crawler.ts
+++ b/apps/api/src/scraper/WebScraper/crawler.ts
@ -171,7 +171,7 @@ export class WebCrawler {
    let fullUrl = href;
    if (!href.startsWith("http")) {
      try {
-        fullUrl = new URL(href, this.baseUrl).toString();
+        fullUrl = new URL(href, url).toString();
      } catch (_) {
        return null;
      }
--- a/apps/api/src/services/queue-worker.ts
+++ b/apps/api/src/services/queue-worker.ts
@ -352,10 +352,10 @@ async function processJob(job: Job & { id: string }, token: string) {

      if (!job.data.sitemapped && job.data.crawlerOptions !== null) {
        if (!sc.cancelled) {
-          const crawler = crawlToCrawler(job.data.crawl_id, sc);
+          const crawler = crawlToCrawler(job.data.crawl_id, sc, doc.metadata?.url ?? doc.metadata?.sourceURL ?? undefined);

          const links = crawler.filterLinks(
-            crawler.extractLinksFromHTML(rawHtml ?? "", sc.originUrl as string),
+            crawler.extractLinksFromHTML(rawHtml ?? "", doc.metadata?.url ?? doc.metadata?.sourceURL ?? sc.originUrl as string),
            Infinity,
            sc.crawlerOptions?.maxDepth ?? 10
          );