Ga naar inhoud

Documentverwerking

Hoe SiteWhiz AI uw documenten verwerkt en indexeert.


Overzicht

Wanneer u documenten uploadt, doet SiteWhiz automatisch:

  1. Tekst extraheren - Leest alle inhoud uit het document
  2. OCR uitvoeren - Converteert afbeeldingen en scans naar tekst
  3. Embeddings maken - Bereidt inhoud voor op AI-zoeken
  4. Inhoud indexeren - Maakt alles doorzoekbaar

Verwerkingspijplijn

Fase 1: Upload

  • Bestand wordt ontvangen en veilig opgeslagen
  • Basisvalidatie controleert bestandstype en grootte
  • Document verschijnt in lijst als "Verwerken"

Fase 2: Tekstextractie

Voor tekstgebaseerde documenten:

  • PDF-tekst wordt direct geëxtraheerd
  • Word-documenten worden geparseerd
  • Excel-gegevens worden geconverteerd naar doorzoekbare tekst

Fase 3: OCR (Indien Nodig)

Voor afbeeldingsgebaseerde inhoud:

  • Gescande pagina's worden geanalyseerd
  • Tekst wordt herkend met OCR
  • Tabellen en figuren worden geïdentificeerd

Fase 4: AI-verwerking

  • Inhoud wordt geanalyseerd op betekenis
  • Semantische embeddings worden gemaakt
  • Gerelateerde concepten worden gekoppeld

Fase 5: Indexering

  • Volledige-tekstzoekindex wordt gebouwd
  • Document wordt gemarkeerd als "Gereed"
  • Inhoud is beschikbaar voor AI-queries

Verwerkingstijd

Documenttype Typische Tijd
Tekst-PDF (10 pagina's) 30 seconden
Gescande PDF (10 pagina's) 2-3 minuten
Groot document (100+ pagina's) 5-10 minuten
Excel-spreadsheet 1-2 minuten

Verwerkingswachtrij

Meerdere documenten worden parallel verwerkt. Grote batches kunnen langer duren tijdens piekuren.


Documentstatus

Status Controleren

In de Documentenlijst toont elk bestand zijn status:

Status Icoon Betekenis
Uploaden Bestandsoverdracht bezig
Verwerken AI-extractie bezig
Gereed Volledig doorzoekbaar
Fout Verwerking mislukt

Statusdetails

Klik op een document om gedetailleerde status te zien:

  • Verwerkingsfase
  • Verstreken tijd
  • Eventuele waarschuwingen of fouten

Kwaliteitsfactoren

Beste Resultaten

Documenten verwerken het beste wanneer ze:

  • Tekstgebaseerd zijn (geen gescande afbeeldingen)
  • Hoge resolutie hebben (minimaal 300 DPI voor scans)
  • Correct georiënteerd zijn (niet gedraaid)
  • Schoon zijn (geen handschrift over tekst)
  • Standaardlettertypen gebruiken

Uitdagende Documenten

Deze kunnen verminderde nauwkeurigheid hebben:

  • Scans van lage kwaliteit
  • Handgeschreven inhoud
  • Complexe tabellen
  • Meerkoloms lay-outs
  • Ongebruikelijke lettertypen of talen

Documenten Opnieuw Verwerken

Wanneer Opnieuw Verwerken

Overweeg opnieuw verwerken als:

  • Origineel had slechte kwaliteit
  • Betere versie beschikbaar is
  • Verwerking is mislukt

Hoe Opnieuw te Verwerken

  1. Verwijder het document uit SiteWhiz.

  2. Upload het document opnieuw.

  3. Wacht tot verwerking is voltooid.


Ondersteunde Talen

Tekstextractie ondersteunt:

Taal Ondersteuningsniveau
Engels Volledig
Nederlands Volledig
Duits Volledig
Frans Volledig
Spaans Volledig
Andere Westerse Goed

Gegevensbeveiliging

Tijdens Verwerking

  • Documenten zijn versleuteld tijdens transport
  • Verwerking gebeurt op beveiligde servers
  • Geen gegevens worden gedeeld met derden

Na Verwerking

  • Originele bestanden worden veilig opgeslagen
  • Geëxtraheerde tekst is versleuteld
  • Toegang wordt gecontroleerd door machtigingen

Probleemoplossing

Verwerking Vastgelopen

Als een document te lang in "Verwerken" blijft:

  1. Wacht minstens 15 minuten voor grote bestanden
  2. Ververs de pagina om status te controleren
  3. Verwijder en upload opnieuw als het blijft hangen
  4. Neem contact op met support voor aanhoudende problemen

Slechte Tekstkwaliteit

Als geëxtraheerde tekst fouten bevat:

  1. Controleer kwaliteit van origineel document
  2. Zorg dat scanresolutie adequaat is
  3. Probeer een schonere kopie van het document
  4. Sommige opmaak converteert mogelijk niet goed

Verwerking Mislukt

Als verwerking mislukt:

  1. Controleer of bestand niet corrupt is
  2. Verifieer dat formaat wordt ondersteund
  3. Probeer eerst te converteren naar PDF
  4. Neem contact op met support met foutdetails

Gerelateerde Onderwerpen