Hi,
ich hab nochmal über einen etwas anderen Ansatz zum Crawling nachgedacht.
So, wie wirs bis jetzt geplant haben, kann zwar jedes Dokument relativ eindeutig über die (Unter-)Kategorie klassifiziert werden, das Finden der Autorenprofile finde ich aber so ziemlich umständlich (Ambiguities,Matching nach Titel des Papers, etc.).
Hab die Alternative nochmal ein bisschen erkundet:
-> Suche von Autoren, basierend auf Korpus von häufigsten Vornamen. Beispiel: Mit https://scholar.google.de/citations?view_op=search_authors&hl=de&mauthors=Daniel&after_author=xGkeANb___8J&astart=4060 haben wir schon mehr als 4000 Daniels gefunden. (Keine Ahnung, wie weit das noch geht.)
-> Ich vermute mal, dass die meisten an mindestens einem Paper mitgewirkt haben.
-> Fast jeder Autor kann in der Übersicht durch seine Labels klassifiziert werden. Die häufigsten Labels könnten wir ermitteln und ggf. manuell klassifizieren- könnten also auch entscheiden, wie feingranular unsere Kategorien sein sollen.
-> Ein Autor mit dem Label 'Informatics' wird kaum ein Paper bzgl. Atomphysik veröffentlichen, darum sollts eig. unbedenklich sein, Dokumente auf Basis der Autorenklassifikation zu klassifizieren.
-> Btw:: Suche nach Autoren aus bestimmtem Fachgebiet (= Klick auf Label) auch durch
scholar.google.de/citations?view_op=search_authors&hl=de&mauthors=label:Informatics möglich.
-> durchschnittlicher h-Index/Bildungseinrichtung, siehe org-Parameter: https://scholar.google.de/citations?view_op=view_org&hl=de&org=4833850012421173011
-> Coauthor-Relations: Zum einen möglich durch Seitenleiste auf Profil, zum anderen durch Abgleich der veröffentlichten Papers.Ich fänds auch spannend, wenn wir dann die Korrelation zwischen Anzahl der Coauthors und h-Index o.ä. untersuchen würden
Eure Meinung?