Topicgraph i JSTOR virker ganske godt på engelskspråklige dokumenter. Jeg
har testa den på boka OpeningScience fra Springer. Topicgraph virker på den måten at dersom maskina identifiserer gulrøtter, såfrø, innhøsting, i nærheten av hverandre, så konkluderer den med at det er snakk om hagearbeid.
Topicgraph bruker det kontrollerte vokabularet til JSTOR når den grupperer i emner. Det går sikkert å bygge ut algoritmene slik at de kan analysere store mengder tekst så de blir mer og mer nøyaktige.
For example: if the terms "carrots," “seed," "harvest," and "backyard" are used in close proximity to each other, the topic model might suggest that the topic being discussed is "Gardening," even if the term itself is never used.
The topic model we are using on this project was created by analyzing the entire corpus of scholarship within JSTOR. In doing so, we were able to leverage JSTOR Thesaurus, a controlled vocabulary of over 50,000 terms describing the content within JSTOR, for help in both naming the topics and in "training the content model."
No comments:
Post a Comment