arXiv Scraper

Extract preprint papers, abstracts, author lists, and citation metadata from arXiv open-access research repository. Built on spider-browser .

Get started Docs

target
arxiv.org: success rate
99.9%: latency
~4ms

Quick start

Extract data in minutes.

arxiv-scraper.ts

import { SpiderBrowser } from "spider-browser";

const spider = new SpiderBrowser({
  apiKey: process.env.SPIDER_API_KEY!,
});

await spider.connect();
const page = spider.page!;
await page.goto("https://arxiv.org/list/cs.AI/recent");
await page.content();

const data = await page.evaluate(`(() => {
  const papers = [];
  document.querySelectorAll("#dlpage dt, #dlpage dd").forEach((el, i, all) => {
    if (el.tagName === "DT") {
      const dd = all[i + 1];
      const title = dd?.querySelector(".list-title")?.textContent?.replace("Title:", "").trim();
      const authors = dd?.querySelector(".list-authors")?.textContent?.replace("Authors:", "").trim();
      const abstract = dd?.querySelector(".mathjax")?.textContent?.trim();
      const id = el.querySelector("a[title='Abstract']")?.textContent?.trim();
      if (title) papers.push({ id, title, authors, abstract: abstract?.slice(0, 200) });
    }
  });
  return JSON.stringify({ total: papers.length, papers: papers.slice(0, 15) });
})()`);

console.log(JSON.parse(data));
await spider.close();

ready to run · spider-browser · TypeScript

Fetch API

One endpoint for arxiv.org.

Structured JSON from arxiv.org with a single POST. AI-resolved selectors, cached on the first call.

POST /fetch/arxiv.org/

Paper titleAuthorsAbstractCategoriesSubmission datePDF link

Try it Fetch docs

cURL

curl -X POST https://api.spider.cloud/fetch/arxiv.org/ \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"return_format": "json"}'

Python

import requests

resp = requests.post(
    "https://api.spider.cloud/fetch/arxiv.org/",
    headers={
        "Authorization": "Bearer YOUR_API_KEY",
        "Content-Type": "application/json",
    },
    json={"return_format": "json"},
)
print(resp.json())

Node.js

const resp = await fetch("https://api.spider.cloud/fetch/arxiv.org/", {
  method: "POST",
  headers: {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json",
  },
  body: JSON.stringify({ return_format: "json" }),
});
const data = await resp.json();
console.log(data);

Extraction