Kysymys:
Ohjelmisto tekstihakua varten SUURI tiedostojoukko (e-kirjat)
DVK
2014-03-09 08:19:10 UTC
view on stackexchange narkive permalink

Etsitään Windows-ohjelmaa (samanlainen kuin "Kaikki"), joka voi:

  • Skannaa erittäin suuri (2-3 Tt, 10000 tai jopa 100000 tiedostoa 1 000 kansiossa) ) -hakemisto rekursiivisesti
  • Indeksoi jokaisen "teksti" -tiedoston KOKO siinä oleva teksti kokonaan. > Tekstitiedostot sisältävät vähintään .txt, .pdf, .epub, .mobi. Ihannetapauksessa muut tunnetut e-kirjamuodot (.fb2, .doc, .docx)
  • Haluttu edistynyt hakukyky (etsi kaikki / kaikki hakutermisarjat, hylkää hakutermit. Regex, ihannetapauksessa. PCRE todella ihanteellisesti ).

Halutut valinnaiset ominaisuudet:

  • Tuki muulle kuin englanninkieliselle tekstille, sekä indeksointiin että hakuun, muissa muodoissa; erityisesti venäjänkielinen teksti (KOI-8, Windows-1251)
  • Unicode-tuki (indeksointi ja haku).
  • Voi selata arkistoja (ainakin .zip ja .rar)
  • Hyvä graafinen käyttöliittymä (ajattele Kaikki-sovellusta) hakutulosten näyttämiseksi. Nopeasti suodatettu ruudukko, toimintovalikko jokaiselle löydetylle tiedostolle, mukaan lukien kopiointipaikka, kansion avaaminen, tiedoston kopiointi / leikkaaminen ikään kuin Windowsin Resurssienhallinta-valikossa.
  • Pidä hakemistoa päivitettynä automaattisesti, kun tiedostoja lisätään / poistetaan / muutetaan tiedostojärjestelmä, niin kuin kaikki tekee.
  • Ihannetapauksessa, ilmaiseksi, mutta ei vaadita, kunhan hinta on kohtuullinen.
  • Edellyttää Windows XP: tä. Windows8: n lisäbonuspisteet.
Mukava sci-fi-kokoelma!
Merkitse seuraavan kerran kysymyksesi tietty käyttöjärjestelmä. Sanoit myös, että WindowsXP vaaditaan, mutta lisäsit sen lisäominaisuuksiisi. Voisitko selventää. Kaipasin tuon kohdan ja kirjoitin vastauksen Windows 7: lle (joka toimii mielestäni Win8: n kanssa), jonka lähetän edelleen.
@Yos233 - Haluaisin mieluummin hyvän ohjelmiston, joka on vain 8-versio, kuin mikään (voin siirtää kokoelman XP: stä 8: een tarvittaessa). Mutta tällä hetkellä se on XP-järjestelmässä.
Muista, että ** Regexit / PCRE eivät ole yhteensopivia indeksointimenetelmän kanssa. ** Regex-haut eivät voi hyödyntää kokotekstihakemistoja, niissä ei ole tarpeeksi tietoa regexin tarjoamiseksi. Regex-pohjaista lähestymistapaa varten sinun on suoritettava klassinen haku.
Viisi vastused:
Yos233
2014-03-10 04:06:04 UTC
view on stackexchange narkive permalink

Tietääkseni Windows 7 Explorerilla on kaikki tarvitsemasi perusominaisuudet ja myös joitain valinnaisia ​​ominaisuuksia.


Voit indeksoida tiedostohakemiston Windowsissa (7 +) kahdella tavalla. Hakemisto indeksoidaan suoraan tai tehdään siitä kirjasto.

Suora hakemisto: Katso täältä: wikiHow: Kuinka lisätä kansio Windows 7 -tiedostoindeksiin

Luo kirjasto: siirry Resurssienhallinnassa "Kirjastot" ja napsauta "Uusi kirjasto".


Windows-tarkennettu haku on mitä minun piti etsiä juuri tätä varten, mutta How-To Geekillä on erittäin informatiivinen artikkeli siitä. Artikkeli

Varmista myös, että tiedostosisällön haku on käytössä: wikiHow: Kuinka tehdä Windows 7 -hakutiedostoon sisältö


Lisäys: Huomasin kirjoittaessani tämän, että OP pyysi Windows XP: tä. Pidän tätä ajan tasalla, vaikka sitä ei hyväksyttäisikään joku muu, joka tulee mukaan (ja joten en tuhlannut 30 minuuttia).

Kuinka hyvin se skaalautuu? Voiko se käsitellä kysymyksessä ilmoitettua kokoa tehokkaasti ilman, että järjestelmä indeksoi ja indeksoi? Voiko se indeksoida teksti-PDF-tiedostojen sisällön? EPUB: t?
En usko, että Explorer tukahduttaisi järjestelmän (mahdollisesti hitaamman haun kustannuksella). PDF-indeksointi on mahdollista Adobe IFilter .dll -palvelun kautta, http://www.adobe.com/support/downloads/detail.jsp?ftpID=4025. En löytänyt vastaavaa EPUB: lle, joten mahdollisesti ei.
Eikö suostu järjestelmään? Se tukkeutuu avaamalla (unohda haku) hakemiston, jossa on useita tuhansia tiedostoja !!!
Kysyit kysymyksen, ja annoin sinulle parhaan vastaukseni. Minulle järjestelmän tukkeutuminen viittaa muiden prosessien (ts. CPU hog) hidastamiseen. Kyllä, tietysti tuhansien tiedostojen haku vie jonkin aikaa. En usko, että löydät yhden ohjelman, joka voi etsiä suuresta kirjastostasi suurella nopeudella.
En tarkoittanut indeksointia. Tarkoitin tulosten näyttämistä. * Kaikki * voi näyttää tuhansia tuloksia nopeasti. Windows Explorer jäädytetään
** N.B. ** Yksi syy siihen, että ikkunat ovat alttiita hidastumaan ajan myötä, on se, että indeksointi on oletusarvoisesti PÄÄLLÄ ja hidastaa koneen toimintaa yhä enemmän. Se on luultavasti yksi yleisimmin kytketyistä * pois käytöstä * -ominaisuuksista!
Lähde kiitos. Tein haun, enkä löytänyt mitattavia tietoja indeksistä, joka hidastaisi tietokonetta.
Eduard Florinescu
2014-09-19 13:26:18 UTC
view on stackexchange narkive permalink

Palauta (työpöydän haku)

Löydät luettelon työpöydän hakupäälliköistä Wikipediassa, mutta löydän Regain opensource -projekti on järkevä valinta, sen lisäksi, että se on ilmainen (kuten libre), ja myös opensourcen ja edelleen kehitteillä, mikä tarkoittaa, että uusia ominaisuuksia tulee näkyviin ( täydellinen ominaisuuksien luettelo täällä).

Lyhyt kuvaus

Regain on Java-hakukone, joka perustuu Jakarta Luceneen. Se tarjoaa tiedostojen indeksoinnin ja etsimisen useille muodoille (HTML, XML, doc (x), xls (x), ppt (x), oo, PDF, RTF, mp3, mp4, Java). TagLibrary helpottaa hakutulosten integrointia JSP-pohjaiseen verkkosivuun.

Minusta tärkeimmät ominaisuudet:

  • verkkopalvelin (jotta se voi pääsy lähiverkkoon kaikilla lähiverkkosi laitteilla)
  • lokerokuvake (nopea pääsy)
  • indeksoidun tiedoston välimuistiversio (joskus ison PDF-tiedoston lataaminen ei maksa)
  • hakusanat (tehokas Lucent-avainsanaryhmä)
  • voivat tukea muita muotoja (palauttaa I-Filter-tuen)
  • tukee sovellusliittymää

Vain muutama otos:

enter image description here

enter image description here

Haluaisin käyttää tätä mielelläni, mutta dokumentaatio puuttuu ...
miroxlav
2014-04-14 05:25:41 UTC
view on stackexchange narkive permalink

Copernic Desktop Search

Täysikokoiseen lähestymistapaan valitse joko Windows Search tai Copernic Desktop Search (50 dollaria täysversiolle, ilmainen versio (" Lite ") ei-kaupalliseen käyttöön on rajoitettu 75 000 tiedostoon).

Erityisesti Copernic Desktop Search tarjoaa kaikki tarvitsemasi ominaisuudet. Olen testannut sitä 4 000 000 asiakirjalla, haku oli edelleen erittäin nopeaa. Se tunnistaa operaattorit, kuten JA, TAI EI, LÄHELLÄ, tukemaan hakuasi

Zer0K
2014-09-21 15:37:20 UTC
view on stackexchange narkive permalink

Ehkä DocFetcher voisi auttaa.

Kotisivulta:

Sovellus toimii Windowsissa, Linux ja Mac OS X, ja se on saatavilla Eclipse Public License -lisenssillä.

Huomattavat ominaisuudet

  • Kannettava versio vahva>: DocFetcheristä on kannettava versio, joka toimii Windowsissa, Linuxissa ja Mac OS X: ssä. Kuinka tämä on hyödyllistä, kuvataan tarkemmin tämän sivun alapuolella.
  • 64-bittinen tuki : Sekä 32- että 64-bittisiä käyttöjärjestelmiä tuetaan.
  • Unicode-tuki : DocFetcherissä on vakaa Unicode-tuki kaikille tärkeimmille muodoille, mukaan lukien Microsoft Office, OpenOffice.org-, PDF-, HTML-, RTF- ja pelkkätekstitiedostot. Ainoa poikkeus on CHM, jolle meillä ei vielä ole Unicode-tukea.
  • Arkistotuki : DocFetcher tukee seuraavia arkistomuotoja: zip, 7z, rar ja koko tar . * perhe. Zip-arkistojen tiedostotunnisteet voidaan räätälöidä, jolloin voit lisätä tarvittaessa zip-pohjaisia ​​arkistomuotoja. Lisäksi DocFetcher pystyy käsittelemään rajoittamattoman arkistoinnin (esim. Zip-arkisto, joka sisältää 7z-arkiston, joka sisältää rar-arkiston ... ja niin edelleen).
  • Hae lähdekooditiedostoista : tiedostopääteitä, joiden avulla DocFetcher tunnistaa pelkkätekstitiedostot, voidaan mukauttaa, joten voit käyttää DocFetcher-sovellusta etsimiseen minkä tahansa lähdekoodin ja muiden tekstipohjaisten tiedostomuotojen kanssa. (Tämä toimii varsin hyvin yhdessä muokattavien zip-laajennusten kanssa, esim. Java-lähdekoodien etsiminen Jar-tiedostojen sisällä.)
  • Outlook PST-tiedostot : DocFetcher sallii Outlook-sähköpostien etsimisen. Outlook tallentaa yleensä PST-tiedostoja.
  • HTML-parien havaitseminen : DocFetcher tunnistaa oletusarvoisesti HTML-tiedostopareja (esim. Tiedosto nimeltä foo.html ja kansio nimeltä " foo_files "), ja käsittelee paria yhtenä asiakirjana. Tämä esitys saattaa tuntua aluksi melko hyödyttömältä, mutta kävi ilmi, että tämä parantaa dramaattisesti hakutulosten laatua, kun teet varauksen HTML-tiedostoihin, koska kaikki HTML-kansioiden sisällä olevat "sotku" katoavat tuloksista.
  • Tiedostojen regex-pohjainen poissulkeminen indeksoinnista vahva>: Voit käyttää säännöllisiä lausekkeita sulkeaksesi tietyt tiedostot indeksoinnista. Esimerkki: Microsoft Excel -tiedostojen poissulkemiseksi voit käyttää tällaista säännöslauseketta:. *. Xls
  • Mime-tyypin tunnistus : Voit käyttää säännöllisiä lausekkeita ottaaksesi "mime- tyypin tunnistus "tietyille tiedostoille, mikä tarkoittaa, että DocFetcher yrittää tunnistaa niiden todelliset tiedostotyypit paitsi tarkastelemalla tiedostonimeä myös kurkistamalla tiedoston sisältöä. Tämä on hankalaa tiedostoille, joilla on väärä tiedostotunniste.
  • Tehokas kyselyn syntaksit : Peruskonstruktioiden, kuten OR, AND ja NOT, lisäksi DocFetcher tukee muun muassa: Jokerit , lausehaku, sumea haku ("etsi sanoja, jotka ovat samanlaisia ​​kuin ..."), läheisyyshaku ("näiden kahden sanan tulisi olla enintään 10 sanan päässä toisistaan"), tehostaminen ("lisää niiden asiakirjojen pisteet, jotka sisältävät ... ")

Tuetut tiedostomuodot

  • Microsoft Office (doc, xls, ppt)
  • Microsoft Office 2007 ja uudemmat (docx, xlsx, pptx, docm, xlsm, pptm) ​​
  • Microsoft Outlook (pst)
  • OpenOffice.org (odt, ods, odg, odp, ott, ots, otg, otp)
  • Kannettavan asiakirjan muoto (pdf)
  • EPUB (epub)
  • HTML (html, xhtml, ...)
  • TXT ja muut pelkkätekstimuodot (muokattavissa)
  • Rich Text Format (rtf)
  • AbiWord (abw, abw.gz, zabw)
  • Microsoft Compiled HTML Help (chm)
  • MP3-metatiedot (mp3)
  • FLAC-metatiedot (flac )
  • JPEG Exif -metatiedot (jpg, jpeg)
  • Microsoft Visio (vsd)
  • Skaalautuva vektorigrafiikka (svg)
Steve Barnes
2014-03-10 11:20:51 UTC
view on stackexchange narkive permalink

WinGrep

Voit hakea tiettyjä sanoja tarvittaessa myös binaaritiedostoista (tämä ei toimi hyvin joillekin PDF-tiedostoille, esim. skannereille). wingrep -sovelluksella - se on ilmainen ja etsii jopa .zip-tiedostoista. En hidasta tietokonetta koko ajan eikä käytä paljon levytilaa, koska se ei rakenna hakemistoja, mutta sen seurauksena se ei toimi niin nopeasti. Se on vapaa Micro $: sta, joten se toimii todennäköisesti useimmissa Windowsin makuissa.

Caliber eBook Manager

Ei etsi tiedostoista AFAIK mutta etsii eBook metatietoja ja voit muokata metatietoja, mutta kaliiperi sisältää seuraavat ominaisuudet:

  • Se on tarkoitettu erityisesti e-kirjojen kirjastojen ylläpitoon,
  • voi muuntaa eri muotoja puolestasi,
  • sisältää katsojat monille muodoille,
  • voi hallita e-kirjoja useimmilla laitteilla.

Se on ilmainen ja avoin lähdekoodi ja toimii melkein kaikkialla.

Suosittelen vahvasti , että hankit sen mitä tahansa.



Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
Loading...