Si las 23 variables independientes se muestrean en una hiper-cuadrícula (regularmente espaciadas), puede elegir particionar en hiperciclos y hacer la interpolación lineal del valor dependiente desde el vértice más cercano al origen a lo largo de los vectores definidos desde ese vértice a lo largo de los bordes hipercubitos alejados del origen. En general, para una partición dada, proyecta el punto de interpolación en cada vector, lo que le da una nueva 'coordenada' en ese espacio particular, que luego puede usarse para calcular el nuevo valor multiplicando cada coordenada por la diferencia del dependiente variable, sumando los resultados y agregando al valor dependiente en el origen local. Para hipercubos, esta proyección es sencilla (simplemente resta la posición del vértice más cercano al origen).
Si las muestras no están uniformemente espaciadas, entonces el problema es mucho más desafiante, ya que tendrías que elegir un partición apropiada si quería realizar una interpolación lineal. En principio, Delaunay triangulation se generaliza a N dimensiones, pero no es fácil de hacer y los objetos geométricos resultantes son mucho más difíciles de entender e interpolar que un simple cubo.
Una cosa que podría considerar es si su conjunto de datos es naturalmente susceptible a la proyección para que pueda reducir el número de dimensiones. Por ejemplo, si dos de sus variables independientes dominan, puede colapsar el problema en 2 dimensiones, que es mucho más fácil de resolver. Otra cosa que podría considerar es tomar los puntos de muestreo y organizarlos en una matriz. Puede realizar una descomposición SVD y observar los valores singulares. Si hay unos pocos valores singulares dominantes, puede usar esto para realizar una proyección al hiperplano definido por esos vectores de base y reducir las dimensiones de su interpolación. Básicamente, si sus datos están distribuidos en un conjunto particular de dimensiones, puede usar esas dimensiones dominantes para realizar su interpolación, ya que realmente no tiene mucha información en las otras dimensiones.
Estoy de acuerdo con los otros comentaristas, sin embargo, que su premisa puede estar apagada. Por lo general, no desea interpolar para realizar análisis, ya que solo está eligiendo interpolar sus datos de diferentes maneras y la elección de la interpolación sesga el análisis. Solo tiene sentido si tiene una razón convincente para creer que una interpolación particular es físicamente consistente y simplemente necesita puntos adicionales para un algoritmo en particular.
¿Obtendrá algún análisis significativo de los datos interpolados? – Blorgbeard
¿Los atributos son numéricos? ¿Y qué tan bueno es tu matemática? Además: puede agregar puntos de datos, pero estos datos son todos imaginarios. No estoy seguro de cómo eso ayuda al análisis, aparte de "comenzar con más datos (reales)" –
¿No es la premisa un poco lejos de aquí? Si su problema es demasiado pequeño con un tamaño de muestra, la interpolación parece ser una aproximación incorrecta, ya que no hará que su muestra demasiado pequeña sea más válida. Es como subir de escala un DVD a calidad HD, no obtendrá una imagen más precisa, solo píxeles duplicados/inferidos/puntos de datos. –