Coder Social home page Coder Social logo

wikitablestotriples's People

Contributors

aleximmer avatar chaoste avatar dependabot[bot] avatar fapaul avatar rshkv avatar

Stargazers

 avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar

Forkers

owenanalytics

wikitablestotriples's Issues

Cleanup for public

clean up the project in order to make it publicly accessible.

  • rm temporary files
  • merge list_extraction/extensions into /wikitable
  • update readme
  • organise scripts -> assigned to @busfahren in another issue

Colspan und rowspan lösung

Im Moment werden alle Tabellen, die irgendwie rowspan oder colspan benutzen rausgeschmissen.
Es gibt aber Tabellen, die sich auflösen lassen:

  • Wenn colspan oder rowspan im Header auftaucht -> ABBRUCH (Header kann aus mehreren Zeilen bestehen -> Wie erkennen?)
  • Wenn colspan in einer Zeile weiter unten auftaucht, diese Zeile einfach löschen (Kann einen Abschnitt markieren):
    | a | b | c | d |
    | Abschnitt 2 | // Zeile löschen
    | e | f | g | h |
  • Wenn rowspan (nicht im Header) auftaucht, dieses Feld verdoppeln/verdreifachen/...
    | a | b | c | d |
    | a | f | g | h | // So sieht es bei erfolgreicher Korrektur auf "a" aus

@busfahren Wie hast du das bisher gelöst. Werde die Ideen am Mittwoch präsentieren und dann mal schauen, was sie sagen. Ob es den Aufwand wert ist etc. Den HTML Code umzuschreiben wird nämlich etwas eklig (aber nicht allzu schwer).

Find the right ontology by name

By now key-extraction uses the same method as cross-column to find the right ontologies. We should implement finding the right ontologies by comparing strings.

Key column extraction erweitern

Bisherige Disziplinen:

  • Spalten-Einträge müssen einzigartig sein
  • Entitäten (Wiki-Links) prozentual bewerten
  • Spaltennamen auf textuelle Evidenz mit Artikelnamen (+Plural) prüfen
  • Spaltennamen auf "Name" oder "Titel" prüfen
  • Umso weiter links die Spalte ist, desto mehr Punkte
  • Spalte ist mit -Tags markiert (Manchmal wird diese HTML-Schreibweise verwendet werden)
  • Erstes Rating ist vom zweiten Rating weit genug entfernt

Fehlt noch:

  • Spaltennamen auf Textuelle Evidenz mit Abstracts und Tabellennamen (wenn vorhanden) prüfen
  • Properties/Owls der Spalte mit den anderen Spaltennamen abgleichen
  • Kategorien der Wikiseite/-tabelle mit den Spaltennamen abgleichen

KeyExtractor extension

  • validate based on abstract (api built so far)
  • validate based on categories (api built as well)

Poster

auf keynote-icloud pushen.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.