2011-08-24 12 views
15

Quiero usar Lucene para calcular la precisión y la recuperación.Recuperación de precisión en lucene java

lo hice estos pasos:

  1. hecho algunos archivos de índice. Para hacer esto, utilicé el código del indexador y los archivos indexados .txt que existen en esta ruta C:/inn (hay 4 archivos de texto en esta carpeta) y los tomo en la carpeta "outt" estableciendo el indexpath en C:/outt en el código Indexer.

  2. Creado un paquete llamado lia.benchmark y una clase en su interior que se llama "PrecisionRecall" y añadir externaljars (botón derecho del ratón -> Vía de construcción Java -> añadir frascos externos) y se añadió Lucene-benchmark-.3.2.0jar y Lucene-core-3.3.0jar

  3. Conjunto la ruta topicsfile en el código a C:/lia2e/src/lia/benchmark/topics.txt y
    qrelsfile a C:/lia2e/src/lia/benchmark/qrels.txt y dir a "C:/outt".

    Aquí es código:

    package lia.benchmark;   
    import java.io.File; 
    import java.io.PrintWriter; 
    import java.io.BufferedReader; 
    import java.io.FileReader; 
    import org.apache.lucene.search.*; 
    import org.apache.lucene.store.*; 
    import org.apache.lucene.benchmark.quality.*; 
    import org.apache.lucene.benchmark.quality.utils.*; 
    import org.apache.lucene.benchmark.quality.trec.*; 
    
    public class PrecisionRecall { 
    
        public static void main(String[] args) throws Throwable { 
    
        File topicsFile = new File("C:/lia2e/src/lia/benchmark/topics.txt"); 
         File qrelsFile = new File("C:/lia2e/src/lia/benchmark/qrels.txt"); 
         Directory dir = FSDirectory.open(new File("C:/outt")); 
         IndexSearcher searcher = new IndexSearcher(dir, true); 
    
         String docNameField = "filename"; 
    
         PrintWriter logger = new PrintWriter(System.out, true); 
    
         TrecTopicsReader qReader = new TrecTopicsReader(); 
         QualityQuery qqs[] = qReader.readQueries(      
           new BufferedReader(new FileReader(topicsFile))); 
    
         Judge judge = new TrecJudge(new BufferedReader(   
           new FileReader(qrelsFile)));           
    
         judge.validateData(qqs, logger);           
    
         QualityQueryParser qqParser = new SimpleQQParser("title", "contents"); 
    
         QualityBenchmark qrun = new QualityBenchmark(qqs, qqParser, searcher, docNameField); 
        SubmissionReport submitLog = null; 
         QualityStats stats[] = qrun.execute(judge,     
            submitLog, logger); 
    
         QualityStats avg = QualityStats.average(stats);   
         avg.log("SUMMARY",2,logger, " "); 
        dir.close(); 
        } 
    } 
    
  4. qrels inicializado y temas. En la carpeta de documentos (C: \ inn) tengo 4 archivos txt, de los cuales 2 son relevantes para mi consulta (la consulta es apple) así que rellené los qrels y los temas. presentar

    los qrels así:

    <top> 
        <num> Number: 0 
        <title> apple 
        <desc> Description: 
        <narr> Narrative: 
    </top> 
    

    y temas de archivo como este:

    0 0  789.txt   1 
    0 0  101.txt   1 
    

    me trataron también el formato de ruta es decir, por ejemplo, "C: \ posada \ 789.txt" en vez de "789.txt" pero los resultados son cero:

    0 - contents:apple 
    0 Stats: 
    Search Seconds: 0.016 
    DocName Seconds: 0.000 
    Num Points: 2.000 
    Num Good Points: 0.000 
    Max Good Points: 2.000 
    Average Precision: 0.000 
    MRR: 0.000 
    Recall: 0.000 
    Precision At 1: 0.000 
    SUMMARY 
    Search Seconds: 0.016 
    DocName Seconds: 0.000 
    Num Points: 2.000 
    Num Good Points: 0.000 
    Max Good Points: 2.000 
    Average Precision: 0.000 
    MRR: 0.000 
    Recall: 0.000 
    Precision At 1: 0.000 
    

¿Puede decirme qué sucede conmigo?

Realmente necesito saber por qué los resultados son cero.

+1

Como técnica de depuración general, si no obtiene el resultado que espera, trabaje hacia atrás e interrogue los valores cada vez más temprano en su programa hasta que encuentre los valores que * espera *. De esa forma puedes descubrir exactamente dónde van las cosas mal. – Gian

+0

No sé sobre Lucene, pero ¿no es necesario cerrar las etiquetas <desc> y <narr> en el archivo qrels? – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/460761/">pablosaraiva</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> </div> <div class="answer-title"> <span class="text-logo margin-top-sm">A</span> <h2 class="title h4">Respuesta</h2> </div> <div class="item-description text-md markdown-body margin-bottom-40 voidso"> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">3<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>me temo que el formato <code class="prettyprint-override">qrels.txt</code> está mal: <a href="http://lucene.apache.org/java/2_3_0/api/org/apache/lucene/benchmark/quality/trec/TrecJudge.html" rel="nofollow">the javadoc</a> sugiere las siguientes:</p> <p>formato de entrada esperado:</p> <pre><code class="prettyprint-override">qnum 0 doc-name is-relevant </code></pre> <p>dos líneas de muestra:</p> <pre><code class="prettyprint-override">19 0 doc303 1 19 0 doc7295 0 </code></pre> <p>(Sé que es 2.3.0 javadoc, pero el formato no se modificó en 3.0)</p> <p>Parece que ha cambiado los archivos: <code class="prettyprint-override">TrecTopicsReader</code> espera lo que tiene en <code class="prettyprint-override">qrels.txt</code>; <code class="prettyprint-override">TrecJudge</code> espera lo que tiene en <code class="prettyprint-override">topics.txt</code>.</p> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/7656413">Fuente</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2011-10-05 03:31:13</span> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/562388/">alf</a></span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">Cuestiones relacionadas</div> <ul class="relative_list"> <li> 1. <a href="http://es.uwenku.com/question/p-hsjzrwle-bb.html" target="_blank" title="¿Cómo calcular la precisión y la recuperación en la agrupación?"> ¿Cómo calcular la precisión y la recuperación en la agrupación? </a> </li> <li> 2. <a href="http://es.uwenku.com/question/p-cdzixyst-o.html" target="_blank" title="Precisión de la multiplicación de doble precisión en java?"> Precisión de la multiplicación de doble precisión en java? </a> </li> <li> 3. <a href="http://es.uwenku.com/question/p-mlojcilf-n.html" target="_blank" title="Precisión del temporizador en java"> Precisión del temporizador en java </a> </li> <li> 4. <a href="http://es.uwenku.com/question/p-uqplmjyh-y.html" target="_blank" title="comparación de rendimiento entre Zend Lucene y Java Lucene"> comparación de rendimiento entre Zend Lucene y Java Lucene </a> </li> <li> 5. <a href="http://es.uwenku.com/question/p-bmceymyt-w.html" target="_blank" title="Sistema de recomendación: simple filtrado colaborativo basado en el usuario para evaluar con precisión y recuperación"> Sistema de recomendación: simple filtrado colaborativo basado en el usuario para evaluar con precisión y recuperación </a> </li> <li> 6. <a href="http://es.uwenku.com/question/p-spijymfi-q.html" target="_blank" title="Problemas de precisión Java BigDecimal"> Problemas de precisión Java BigDecimal </a> </li> <li> 7. <a href="http://es.uwenku.com/question/p-yphybzxe-bm.html" target="_blank" title="Simulando hardware de baja precisión en Java"> Simulando hardware de baja precisión en Java </a> </li> <li> 8. <a href="http://es.uwenku.com/question/p-bthzwfge-x.html" target="_blank" title="genéricos de Java - tipo de recuperación"> genéricos de Java - tipo de recuperación </a> </li> <li> 9. <a href="http://es.uwenku.com/question/p-muegfxgw-z.html" target="_blank" title="Precisión de cálculo y recuperación en Reconocimiento de entidad con nombre"> Precisión de cálculo y recuperación en Reconocimiento de entidad con nombre </a> </li> <li> 10. <a href="http://es.uwenku.com/question/p-dkuaalsr-y.html" target="_blank" title="Uso de CLucene vs java lucene"> Uso de CLucene vs java lucene </a> </li> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block; text-align:center;" data-ad-layout="in-article" data-ad-format="fluid" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4606349252"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <li> 11. <a href="http://es.uwenku.com/question/p-xkafhwsv-bn.html" target="_blank" title="Buscando en rangos de fechas con Lucene en Java?"> Buscando en rangos de fechas con Lucene en Java? </a> </li> <li> 12. <a href="http://es.uwenku.com/question/p-vfbtisiw-bh.html" target="_blank" title="Almacenamiento y recuperación de enumeraciones en SQLite con Java"> Almacenamiento y recuperación de enumeraciones en SQLite con Java </a> </li> <li> 13. <a href="http://es.uwenku.com/question/p-wotchldu-ba.html" target="_blank" title="¿Cómo ejecutas Lucene en .net?"> ¿Cómo ejecutas Lucene en .net? </a> </li> <li> 14. <a href="http://es.uwenku.com/question/p-fvdbddko-bc.html" target="_blank" title="¿Cómo Java String.format con una precisión variable?"> ¿Cómo Java String.format con una precisión variable? </a> </li> <li> 15. <a href="http://es.uwenku.com/question/p-twznlyll-bv.html" target="_blank" title=""Posible pérdida de precisión" en mi programa Java"> "Posible pérdida de precisión" en mi programa Java </a> </li> <li> 16. <a href="http://es.uwenku.com/question/p-cwjwkppr-p.html" target="_blank" title="Fusionar índice en Lucene"> Fusionar índice en Lucene </a> </li> <li> 17. <a href="http://es.uwenku.com/question/p-bxfgrfiw-bd.html" target="_blank" title="Ruby alternativa para Lucene"> Ruby alternativa para Lucene </a> </li> <li> 18. <a href="http://es.uwenku.com/question/p-osiidrbf-bu.html" target="_blank" title="Lucene en Android"> Lucene en Android </a> </li> <li> 19. <a href="http://es.uwenku.com/question/p-wcrelbku-y.html" target="_blank" title="Java precisión temporal en Windows XP vs Windows 7"> Java precisión temporal en Windows XP vs Windows 7 </a> </li> <li> 20. <a href="http://es.uwenku.com/question/p-yccopsya-e.html" target="_blank" title="no consulta en lucene"> no consulta en lucene </a> </li> <li> 21. <a href="http://es.uwenku.com/question/p-swwjfwst-o.html" target="_blank" title="Búsqueda de multifield en Lucene"> Búsqueda de multifield en Lucene </a> </li> <li> 22. <a href="http://es.uwenku.com/question/p-bocfelqf-n.html" target="_blank" title="Almacenamiento y recuperación del valor de la clave Java HashMap"> Almacenamiento y recuperación del valor de la clave Java HashMap </a> </li> <li> 23. <a href="http://es.uwenku.com/question/p-dzgkgmjr-v.html" target="_blank" title="Ordenando los documentos de Lucene en Luke"> Ordenando los documentos de Lucene en Luke </a> </li> <li> 24. <a href="http://es.uwenku.com/question/p-uzxebnvp-y.html" target="_blank" title="Tutorial de Lucene para principiantes"> Tutorial de Lucene para principiantes </a> </li> <li> 25. <a href="http://es.uwenku.com/question/p-qqiptuht-g.html" target="_blank" title="de Java de doble precisión con la constante multiplicación/división"> de Java de doble precisión con la constante multiplicación/división </a> </li> <li> 26. <a href="http://es.uwenku.com/question/p-nonhcvzq-u.html" target="_blank" title="perdiendo la conversión de precisión de BigDecimal java a doble"> perdiendo la conversión de precisión de BigDecimal java a doble </a> </li> <li> 27. <a href="http://es.uwenku.com/question/p-ubzektbt-z.html" target="_blank" title="Java: ¿la precisión de línea de subpixel requiere un AffineTransform?"> Java: ¿la precisión de línea de subpixel requiere un AffineTransform? </a> </li> <li> 28. <a href="http://es.uwenku.com/question/p-ojdxqtro-x.html" target="_blank" title="Lucene rendimiento"> Lucene rendimiento </a> </li> <li> 29. <a href="http://es.uwenku.com/question/p-surimoyf-bm.html" target="_blank" title="lucene/python"> lucene/python </a> </li> <li> 30. <a href="http://es.uwenku.com/question/p-vnrqenam-y.html" target="_blank" title="Lucene QueryParser"> Lucene QueryParser </a> </li> </ul> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048471"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> Última pregunta </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://es.uwenku.com/question/p-uzqobwax-s.html" target="_blank" title="para() del ancho de paso de bucle"> para() del ancho de paso de bucle </a> </li> <li class="side_article_list_item"> 2. <a href="http://es.uwenku.com/question/p-ewjyedms-g.html" target="_blank" title="Interpolar superficie del cilindro 3D en Matlab"> Interpolar superficie del cilindro 3D en Matlab </a> </li> <li class="side_article_list_item"> 3. <a href="http://es.uwenku.com/question/p-manlleyv-bp.html" target="_blank" title="Personalizado MKOverlayView/no modificado MKPolygonView está recortado en ciertos niveles de zoom"> Personalizado MKOverlayView/no modificado MKPolygonView está recortado en ciertos niveles de zoom </a> </li> <li class="side_article_list_item"> 4. <a href="http://es.uwenku.com/question/p-ymbqxgpt-bx.html" target="_blank" title="Sidekiq, Capistrano, Sinatra se despliega para"> Sidekiq, Capistrano, Sinatra se despliega para </a> </li> <li class="side_article_list_item"> 5. <a href="http://es.uwenku.com/question/p-yzjsmozc-bm.html" target="_blank" title="aplanar el hash de ruby ​​en la matriz con las claves eliminadas"> aplanar el hash de ruby ​​en la matriz con las claves eliminadas </a> </li> <li class="side_article_list_item"> 6. <a href="http://es.uwenku.com/question/p-nhupujbv-bs.html" target="_blank" title="Eliminación de la propiedad heredada de un elemento (tamaño de caja)"> Eliminación de la propiedad heredada de un elemento (tamaño de caja) </a> </li> <li class="side_article_list_item"> 7. <a href="http://es.uwenku.com/question/p-ecvnpiaw-bt.html" target="_blank" title="conversión de char a fecha y hora"> conversión de char a fecha y hora </a> </li> <li class="side_article_list_item"> 8. <a href="http://es.uwenku.com/question/p-dyquysfl-bh.html" target="_blank" title="¿Hay una buena referencia para los argumentos de la línea de comandos de V8 al usar node.js"> ¿Hay una buena referencia para los argumentos de la línea de comandos de V8 al usar node.js </a> </li> <li class="side_article_list_item"> 9. <a href="http://es.uwenku.com/question/p-obwcnwuu-y.html" target="_blank" title="Conexión de Skype para Asterisk"> Conexión de Skype para Asterisk </a> </li> <li class="side_article_list_item"> 10. <a href="http://es.uwenku.com/question/p-npdktydw-x.html" target="_blank" title="¿Qué hace DbConnection.EnlistTransaction?"> ¿Qué hace DbConnection.EnlistTransaction? </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> Cuestiones relacionadas</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://es.uwenku.com/question/p-hsjzrwle-bb.html" target="_blank" title="¿Cómo calcular la precisión y la recuperación en la agrupación?"> ¿Cómo calcular la precisión y la recuperación en la agrupación? </a> </li> <li class="side_article_list_item"> 2. <a href="http://es.uwenku.com/question/p-cdzixyst-o.html" target="_blank" title="Precisión de la multiplicación de doble precisión en java?"> Precisión de la multiplicación de doble precisión en java? </a> </li> <li class="side_article_list_item"> 3. <a href="http://es.uwenku.com/question/p-mlojcilf-n.html" target="_blank" title="Precisión del temporizador en java"> Precisión del temporizador en java </a> </li> <li class="side_article_list_item"> 4. <a href="http://es.uwenku.com/question/p-uqplmjyh-y.html" target="_blank" title="comparación de rendimiento entre Zend Lucene y Java Lucene"> comparación de rendimiento entre Zend Lucene y Java Lucene </a> </li> <li class="side_article_list_item"> 5. <a href="http://es.uwenku.com/question/p-bmceymyt-w.html" target="_blank" title="Sistema de recomendación: simple filtrado colaborativo basado en el usuario para evaluar con precisión y recuperación"> Sistema de recomendación: simple filtrado colaborativo basado en el usuario para evaluar con precisión y recuperación </a> </li> <li class="side_article_list_item"> 6. <a href="http://es.uwenku.com/question/p-spijymfi-q.html" target="_blank" title="Problemas de precisión Java BigDecimal"> Problemas de precisión Java BigDecimal </a> </li> <li class="side_article_list_item"> 7. <a href="http://es.uwenku.com/question/p-yphybzxe-bm.html" target="_blank" title="Simulando hardware de baja precisión en Java"> Simulando hardware de baja precisión en Java </a> </li> <li class="side_article_list_item"> 8. <a href="http://es.uwenku.com/question/p-bthzwfge-x.html" target="_blank" title="genéricos de Java - tipo de recuperación"> genéricos de Java - tipo de recuperación </a> </li> <li class="side_article_list_item"> 9. <a href="http://es.uwenku.com/question/p-muegfxgw-z.html" target="_blank" title="Precisión de cálculo y recuperación en Reconocimiento de entidad con nombre"> Precisión de cálculo y recuperación en Reconocimiento de entidad con nombre </a> </li> <li class="side_article_list_item"> 10. <a href="http://es.uwenku.com/question/p-dkuaalsr-y.html" target="_blank" title="Uso de CLucene vs java lucene"> Uso de CLucene vs java lucene </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://es.uwenku.com/contact">Contactanos</a></li> <li>© 2020 ES.UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>